Dokument | Anzahl Wörter |
Die zehn Gebote | 300 |
Amerikanische | |
Unabhängigkeitserklärung | 3000 |
EG-Verordnung | |
über den Import | |
von Karamelbonbons | 30000 |
Von den zahlreichen Aspekten der Sprachverarbeitung
soll hier nur das Worterkennungsproblem behandelt werden.
D.h., ein gesprochener Satz von mehreren Einzelwörtern soll in eine
ASCII-Repräsentation überführt werden.
Es geht also nicht um die Analyse der Bedeutung
des Satzes, wohl aber um die richtige Schreibweise
der beteiligten Wörter.
13
ab
29
diesen
19
große
17
numerischen
12
transputernetz
132
aber
100
dieser
30
großen
29
nun
52
über
13
ablaufen
59
dieses
36
haben
144
nur
54
um
21
abschnitt
15
dimension
12
häufig
18
oben
11
unabhängig
27
adaption
17
direkt
17
hardware
46
oder
423
und
18
adaptionsschritt
29
dort
50
hat
21
ohne
16
ungleichgewichte
25
algorithmen
16
drei
10
heute
12
operationen
20
unstrukturierten
50
algorithmus
122
durch
129
hier
13
optimal
14
unter
106
alle
49
durchgeführt
11
hilfe
11
optimale
10
unterschiede
19
allen
12
dynamische
172
im
67
optimierung
13
untersuchen
110
als
11
dynamischen
51
immer
13
optimierungsschritte
11
varianten
23
also
17
ebenfalls
12
implementiert
26
parallel
61
verfahren
20
am
15
effekte
341
in
25
parallele
23
verfahrens
85
an
13
effiziente
24
indem
70
parallelen
12
verfeinert
18
andere
20
effizienz
17
innerhalb
27
parallelisierung
12
verfeinerung
50
anderen
11
effizienzen
15
insbesondere
14
parallelität
26
verfügung
34
anzahl
289
ein
401
ist
19
parix
10
verhalten
10
arbeit
308
eine
10
jede
11
periodische
10
verschieben
11
arbeiten
115
einem
56
jedem
20
periodischen
24
verschiedene
14
arbeitet
70
einen
14
jeden
14
phase
29
verschiedenen
11
art
130
einer
32
jeder
13
phasen
15
version
141
auch
57
eines
13
jedes
13
praktisch
20
verteilt
256
auf
14
einfach
40
jetzt
58
problem
19
verteilung
11
aufgrund
17
einfache
32
jeweils
63
probleme
15
verwenden
64
aufteilung
39
einige
146
kann
15
problemen
32
verwendet
84
aus
15
einigen
20
kapitel
10
problems
11
verwendete
15
austausch
14
einmal
12
kein
29
programm
31
verwendeten
11
bearbeitet
19
einsatz
37
keine
10
programme
17
verwendung
10
behandelt
11
einzelnen
14
klar
20
programms
34
viele
228
bei
92
element
11
kleine
104
prozessor
10
vielen
42
beiden
152
elemente
14
kleinen
138
prozessoren
19
vier
22
beim
40
elementen
10
kleiner
31
prozessorzahlen
13
virtuellen
23
benötigt
14
elements
145
knoten
21
punkt
18
völlig
11
berechnen
13
enthalten
82
können
18
punkte
17
vollständig
28
berechnet
14
entsprechend
24
kommunikation
18
ränder
19
vom
23
berechnung
22
entsprechenden
25
kommunikationen
14
rand
219
von
52
berechnungen
10
entwickelt
34
koordinaten
21
randbedingungen
10
vor
14
bereich
14
er
11
kurz
16
rechenzeit
18
vorhanden
12
berücksichtigt
62
ergeben
12
läßt
10
rechner
10
vorigen
10
beschleunigung
11
ergebnis
14
lassen
21
relativ
16
während
15
beschränkt
17
ergebnisse
22
last
37
schon
14
war
21
beschrieben
79
ergibt
11
lastverteilung
28
schritt
21
was
13
beschriebenen
12
erhalten
27
laufzeit
18
schritte
25
weitere
18
besonders
24
erreicht
15
laufzeiten
14
sehen
22
weiteren
18
besteht
12
erst
15
liegen
76
sehr
12
weiterer
32
bestimmt
15
ersten
20
liegt
40
sein
13
wenige
11
bestimmung
18
erweiterungen
19
links
11
seine
74
wenn
13
beteiligt
11
erzeugt
13
listen
13
seite
418
werden
11
beteiligten
172
es
47
lösung
18
selbst
15
wert
21
betrachten
17
etwa
10
lösungen
30
sequentiellen
18
werte
10
betrachtet
12
exakt
18
lokal
265
sich
16
wesentlichen
10
betriebssystem
14
fällen
25
lokale
25
sie
74
wie
51
bild
55
fall
45
lokalen
167
sind
41
wieder
32
bis
15
fast
92
man
12
sinnvoll
105
wir
19
bzw
11
fein
18
massiv
161
so
229
wird
99
da
10
feste
10
maximal
28
solche
25
wo
76
dabei
10
finiten
49
mehr
18
solchen
23
wobei
12
dagegen
11
folgende
14
mehrere
10
solcher
21
wollen
35
daher
37
folgenden
10
meist
11
solches
15
workstation
48
damit
15
frage
21
messungen
24
soll
26
wurde
15
danach
23
führen
16
methode
17
sollen
43
wurden
144
dann
23
führt
232
mit
17
sollte
12
zahl
11
daraus
309
für
30
möglich
18
sondern
12
zeigt
10
dargestellt
13
funktionen
27
möglichst
24
speedup
10
zeilen
183
das
10
ganz
67
müssen
22
speedups
24
zeit
286
daß
12
gebiets
70
muß
16
speicher
10
zeiten
40
daten
12
geeignet
50
nach
16
spezielle
22
zeitschritt
12
datenstrukturen
10
geeigneten
25
natürlich
15
speziellen
14
zeitschritte
47
dazu
10
gegen
46
netz
13
startverteilung
275
zu
95
dem
13
genau
14
netzaufteilung
17
strategie
16
zugehörigen
238
den
12
geometrie
16
netzdichte
17
strömungen
28
zum
38
denen
10
gerade
37
netze
12
strömungsgrößen
45
zunächst
811
der
53
gibt
40
netzen
17
struktur
73
zur
177
des
13
gilt
27
netzes
18
system
20
zusätzlich
30
deutlich
12
gleichungen
24
neue
13
systeme
14
zusätzliche
1159
die
17
globale
26
neuen
15
systemen
12
zusätzlichen
95
dies
15
globalen
164
nicht
12
tatsache
12
zwar
177
diese
10
grenzen
60
noch
12
teil
77
zwei
11
dieselben
15
größe
25
notwendig
16
teile
11
zweite
50
diesem
12
größen
26
notwendigen
27
transputer
41
zwischen
Der typische Sprachumfang eines Engländers beträgt 800 Wörter, eines Deutschen 4000 Wörter. Goethe beherrschte etwa 24000 Wörter. Englische Verben haben etwa 4 Flexionen, deutsche etwa 10:
speak
spreche
speaks
sprichst
spoke
spricht
spoken
sprechen
sprecht
sprach
sprachst
sprachen
spracht
spräche
sprächest
sprächen
sprächet
Durch Komposita und Derivationen entstehen im Deutschen neue Wörter
Elbe + Mündung
=
Elbmündung
Hochzeit + Torte
=
Hochzeitstorte
hin + fahren
=
hinfahren
Insgesamt führt dies im deutschen Sprachraum
zu etwa 1000000 Wortformen.
Eine zusätzliche Schwierigkeit verursachen die
Homophone, z.B. Meer/mehr; floh/Floh.
Ihre korrekte Schreibweise läßt sich nur kontextbezogen ermitteln:
Die Worterkennung läuft in 3 Phasen ab: