prev up inhalt next


10 Sprache

Dokument Anzahl Wörter
Die zehn Gebote 300
Amerikanische  
Unabhängigkeitserklärung 3000
EG-Verordnung  
über den Import  
von Karamelbonbons 30000

- ohne Worte -




Von den zahlreichen Aspekten der Sprachverarbeitung soll hier nur das Worterkennungsproblem behandelt werden. D.h., ein gesprochener Satz von mehreren Einzelwörtern soll in eine ASCII-Repräsentation überführt werden. Es geht also nicht um die Analyse der Bedeutung des Satzes, wohl aber um die richtige Schreibweise der beteiligten Wörter.

13 ab 29 diesen 19 große 17 numerischen 12 transputernetz
132 aber 100 dieser 30 großen 29 nun 52 über
13 ablaufen 59 dieses 36 haben 144 nur 54 um
21 abschnitt 15 dimension 12 häufig 18 oben 11 unabhängig
27 adaption 17 direkt 17 hardware 46 oder 423 und
18 adaptionsschritt 29 dort 50 hat 21 ohne 16 ungleichgewichte
25 algorithmen 16 drei 10 heute 12 operationen 20 unstrukturierten
50 algorithmus 122 durch 129 hier 13 optimal 14 unter
106 alle 49 durchgeführt 11 hilfe 11 optimale 10 unterschiede
19 allen 12 dynamische 172 im 67 optimierung 13 untersuchen
110 als 11 dynamischen 51 immer 13 optimierungsschritte 11 varianten
23 also 17 ebenfalls 12 implementiert 26 parallel 61 verfahren
20 am 15 effekte 341 in 25 parallele 23 verfahrens
85 an 13 effiziente 24 indem 70 parallelen 12 verfeinert
18 andere 20 effizienz 17 innerhalb 27 parallelisierung 12 verfeinerung
50 anderen 11 effizienzen 15 insbesondere 14 parallelität 26 verfügung
34 anzahl 289 ein 401 ist 19 parix 10 verhalten
10 arbeit 308 eine 10 jede 11 periodische 10 verschieben
11 arbeiten 115 einem 56 jedem 20 periodischen 24 verschiedene
14 arbeitet 70 einen 14 jeden 14 phase 29 verschiedenen
11 art 130 einer 32 jeder 13 phasen 15 version
141 auch 57 eines 13 jedes 13 praktisch 20 verteilt
256 auf 14 einfach 40 jetzt 58 problem 19 verteilung
11 aufgrund 17 einfache 32 jeweils 63 probleme 15 verwenden
64 aufteilung 39 einige 146 kann 15 problemen 32 verwendet
84 aus 15 einigen 20 kapitel 10 problems 11 verwendete
15 austausch 14 einmal 12 kein 29 programm 31 verwendeten
11 bearbeitet 19 einsatz 37 keine 10 programme 17 verwendung
10 behandelt 11 einzelnen 14 klar 20 programms 34 viele
228 bei 92 element 11 kleine 104 prozessor 10 vielen
42 beiden 152 elemente 14 kleinen 138 prozessoren 19 vier
22 beim 40 elementen 10 kleiner 31 prozessorzahlen 13 virtuellen
23 benötigt 14 elements 145 knoten 21 punkt 18 völlig
11 berechnen 13 enthalten 82 können 18 punkte 17 vollständig
28 berechnet 14 entsprechend 24 kommunikation 18 ränder 19 vom
23 berechnung 22 entsprechenden 25 kommunikationen 14 rand 219 von
52 berechnungen 10 entwickelt 34 koordinaten 21 randbedingungen 10 vor
14 bereich 14 er 11 kurz 16 rechenzeit 18 vorhanden
12 berücksichtigt 62 ergeben 12 läßt 10 rechner 10 vorigen
10 beschleunigung 11 ergebnis 14 lassen 21 relativ 16 während
15 beschränkt 17 ergebnisse 22 last 37 schon 14 war
21 beschrieben 79 ergibt 11 lastverteilung 28 schritt 21 was
13 beschriebenen 12 erhalten 27 laufzeit 18 schritte 25 weitere
18 besonders 24 erreicht 15 laufzeiten 14 sehen 22 weiteren
18 besteht 12 erst 15 liegen 76 sehr 12 weiterer
32 bestimmt 15 ersten 20 liegt 40 sein 13 wenige
11 bestimmung 18 erweiterungen 19 links 11 seine 74 wenn
13 beteiligt 11 erzeugt 13 listen 13 seite 418 werden
11 beteiligten 172 es 47 lösung 18 selbst 15 wert
21 betrachten 17 etwa 10 lösungen 30 sequentiellen 18 werte
10 betrachtet 12 exakt 18 lokal 265 sich 16 wesentlichen
10 betriebssystem 14 fällen 25 lokale 25 sie 74 wie
51 bild 55 fall 45 lokalen 167 sind 41 wieder
32 bis 15 fast 92 man 12 sinnvoll 105 wir
19 bzw 11 fein 18 massiv 161 so 229 wird
99 da 10 feste 10 maximal 28 solche 25 wo
76 dabei 10 finiten 49 mehr 18 solchen 23 wobei
12 dagegen 11 folgende 14 mehrere 10 solcher 21 wollen
35 daher 37 folgenden 10 meist 11 solches 15 workstation
48 damit 15 frage 21 messungen 24 soll 26 wurde
15 danach 23 führen 16 methode 17 sollen 43 wurden
144 dann 23 führt 232 mit 17 sollte 12 zahl
11 daraus 309 für 30 möglich 18 sondern 12 zeigt
10 dargestellt 13 funktionen 27 möglichst 24 speedup 10 zeilen
183 das 10 ganz 67 müssen 22 speedups 24 zeit
286 daß 12 gebiets 70 muß 16 speicher 10 zeiten
40 daten 12 geeignet 50 nach 16 spezielle 22 zeitschritt
12 datenstrukturen 10 geeigneten 25 natürlich 15 speziellen 14 zeitschritte
47 dazu 10 gegen 46 netz 13 startverteilung 275 zu
95 dem 13 genau 14 netzaufteilung 17 strategie 16 zugehörigen
238 den 12 geometrie 16 netzdichte 17 strömungen 28 zum
38 denen 10 gerade 37 netze 12 strömungsgrößen 45 zunächst
811 der 53 gibt 40 netzen 17 struktur 73 zur
177 des 13 gilt 27 netzes 18 system 20 zusätzlich
30 deutlich 12 gleichungen 24 neue 13 systeme 14 zusätzliche
1159 die 17 globale 26 neuen 15 systemen 12 zusätzlichen
95 dies 15 globalen 164 nicht 12 tatsache 12 zwar
177 diese 10 grenzen 60 noch 12 teil 77 zwei
11 dieselben 15 größe 25 notwendig 16 teile 11 zweite
50 diesem 12 größen 26 notwendigen 27 transputer 41 zwischen

Die 400 häufigsten Worte aus einer naturwissenschaftlichen Dissertation.
Die Stichprobe hat einen Umfang von 25941 Worten. Es gibt 3567 verschiedene Worte, 1728 kommen einmal vor, 400 kommen mindestens 10 mal vor.

Der typische Sprachumfang eines Engländers beträgt 800 Wörter, eines Deutschen 4000 Wörter. Goethe beherrschte etwa 24000 Wörter. Englische Verben haben etwa 4 Flexionen, deutsche etwa 10:

speak spreche
speaks sprichst
spoke spricht
spoken sprechen
  sprecht
  sprach
  sprachst
  sprachen
  spracht
  spräche
  sprächest
  sprächen
  sprächet

Durch Komposita und Derivationen entstehen im Deutschen neue Wörter

Elbe + Mündung = Elbmündung
Hochzeit + Torte = Hochzeitstorte
hin + fahren = hinfahren

Insgesamt führt dies im deutschen Sprachraum zu etwa 1000000 Wortformen.

Eine zusätzliche Schwierigkeit verursachen die Homophone, z.B. Meer/mehr; floh/Floh. Ihre korrekte Schreibweise läßt sich nur kontextbezogen ermitteln:

Der junge Junge fiel viel und fällt noch immer viel auf dem Feld.
Der gefangene Floh.
Der Gefangene floh.

Die Worterkennung läuft in 3 Phasen ab:

1.
Generieren von Merkmalsvektoren mit Fourieranalyse.
2.
Generieren von Lautschriftkandidaten mit Hidden-Markow-Modellen.
3.
Generieren von Wortkandidaten mit Trigrammen.




prev up inhalt next