dataextr.py

Download

 
#!/usr/bin/python

# extrdata.py extrahiert aus einem HTML Dokument den Text

import formatter
import htmllib
import string
import sys

class DataExtractor(htmllib.HTMLParser):
  def handle_data(self, data):
    sdata = string.strip(data)
    if sdata != "":
      print sdata

parser = DataExtractor(formatter.NullFormatter())
eingabe = sys.stdin.readline()
while eingabe != "":
  parser.feed(eingabe)
  eingabe = sys.stdin.readline()
parser.close()