albanews.py

Download

 
#!/usr/bin/python

# albanews.py extrahiert aus einem Alba-News HTML Dokument den Text
# der Nachricht

import formatter
import htmllib
import string
import sys

class DataExtractor(htmllib.HTMLParser):
  #def __init__(self, formater):
    #self.sepCount = 0
    # weiss jemand, wie self.super.__init__(formater) in Python geht?

  def extrainit(self):     # dann eben so
    self.sepCount = 0

  def handle_data(self, data):
    sdata = string.strip(data)
    if sdata == "____________________________________________________________________":    # 68 mal _
      self.sepCount = self.sepCount + 1
    elif self.sepCount == 3:
      print sdata

parser = DataExtractor(formatter.NullFormatter())
parser.extrainit()
eingabe = sys.stdin.readline()
while eingabe != "":
  parser.feed(eingabe)
  eingabe = sys.stdin.readline()
parser.close()