Lesezeichen
‹ Alle Einträge

Wie viele Wörter kannte Shakespeare?

 

In diesem Jahr vor genau 450 Jahren wurde William Shakespeare geboren. Nicht wenige halten ihn für den größten Dramatiker aller Zeiten. Deshalb soll das Jahr 2014 nicht zu Ende gehen, ohne dass wir diesen ungemein produktiven Mann hier mathematisch würdigen.

„Nach Gott hat Shakespeare am meisten geschaffen“, sagte einst sein Schriftstellerkollege Alexandre Dumas (selbst nicht gerade unkreativ). Und in der Tat: Shakespeare hinterließ ein gewaltiges Œuvre. Er benutzte darin 31.534 verschiedene Wörter seines Wortschatzes. Daran anknüpfend gilt unsere Neugier jetzt der Frage: Wie viele Wörter kannte Shakespeare, ohne sie zu verwenden?

Eine Antwort darauf scheint absolut unmöglich. Es ist, als würde ich versuchen, die Anzahl Ihrer bisher nicht geträumten Träume zu errechnen. Dennoch werden wir Shakespeares Wortschatz mathematisch ermitteln. Aber beginnen wollen wir ganz anders.

Von Schmetterlingen und Wörtern

Um 1940 verbrachte der Biologe Steven Corbet zwei Jahre im asiatischen Urwald, um Schmetterlinge zu fangen. Von 118 Schmetterlingsarten hatte er jeweils nur ein einziges Exemplar gefangen, von 74 Arten zwei Exemplare und so weiter, wie in der folgenden Tabelle angegeben:

k         1        2       3       4      5       6        7      8      9     10    11    12    13    14    15
n(k)  118    74     44    24     29    22     20    19    20    15    12    14    6     12     6

Angenommen, Corbet hätte Sie fragen können, die Zahl neuer, also bisher von ihm nicht gefangener Arten zu schätzen, wenn er für zwei weitere Jahre in den Urwald zurückkehrte.

Die Mathematiker Good und Toulmin beantworteten diese Frage so: Sie nahmen an, dass die Wahrscheinlichkeit, in einem Zeitintervall ein Exemplar einer Art  a zu fangen, proportional zur Länge des Zeitintervalls ist, wobei die von Art zu Art variierende Rate von den Häufigkeiten der Arten abhängt. Statistisch gesehen führt diese Annahme auf denselben Zufallsvorgang, den wir in einem früheren Blog-Beitrag schon für die Tore während eines Fußballspiels verwendet haben, nämlich die Poisson-Verteilung.

Deshalb ist die Wahrscheinlichkeit, dass eine bestimmte Spezies in der zweiten Zweijahresperiode beobachtet wird, aber nicht in der ersten Periode gleich e hoch minus m(a) x [1 – e hoch minus m(a)], wobei m(a) die mittlere Anzahl gefangener Exemplare der Spezies a pro Zweijahresperiode ist. Diese Produkte muss man über alle Spezies summieren und eine kleine Rechnung ergibt dann als Schätzwert für die Zahl neuer Arten: n(1) – n(2) + n(3) – n(4) + … = 118 – 74 + 44 – 24 … = 75

Bei einer weiteren zweijährigen Expedition könnte Corbet also mit 75 beim ersten Mal noch nicht entdeckter neuer Arten rechnen.

884.647 publizierte Wörter, 14.376 davon nur ein Mal genutzt

Die Anzahl der Tore eines Teams beim Fußball, die Zahl gefangener Exemplare einer Spezies, die Häufigkeit eines Wortes in einem Text: Statistisch gesehen führt es stets auf die Poisson-Verteilung. Die Methodik lässt sich anwenden, weil Autoren ein persönliches Vokabular haben. Die Häufigkeiten, mit denen beim Schreiben die Wörter des Vokabulars eingesetzt werden, variieren von Autor zu Autor, sind aber für jeden Autor selbst nahezu konstant. Ein Text des Autors kann daher als Stichprobe aus dieser Häufigkeitsverteilung angesehen werden.

So hat der Shakespeare-Forscher Marvin Spivack im Jahr 1968 ermittelt, dass Shakespeare 884.647 Wörter publiziert hat. 14.376 Wörter kamen in seinem Opus nur einmal vor, 4.343 Wörter zweimal, und so weiter. Hier ist ein Auszug aus Spivacks Tabelle:

k             1            2          3            4          5          6         7        8        9
n(k)   14.376    4.343    2.292    1.463    1.043    837    638    519    430

Angenommen, ganz neue Shakespeare-Werke würden entdeckt, eventuell mit anderen Themen und Inhalten, aber von demselben Umfang wie sein tatsächliches Opus. Dann würden viele der in seinem tatsächlichen Werk verwendeten Wörter darin wieder auftauchen, aber sicher auch einige neue. Wie viele können wir in diesem hypothetischen Shakespeare-Werk erwarten, die nicht auch schon im tatsächlichen Werk vorkommen? Die Antwort liefert wieder die obige alternierende Schätzfunktion: 14.376 – 4.343 + 2.292 – 1.463 + … = 11.430

Dasselbe Argument kann man mit einem hypothetischen dritten, vierten, und so weiter Shakespeare-Werk desselben Umfangs wiederholen. Für jede weitere Stichprobe wird abermals die Zahl der zu erwartenden neuen Wörter berechnet, die noch in keiner der früheren Stichproben aufgetaucht sind. Diese Zahl wird mit jeder weiteren Stichprobe kleiner. Irgendwann, bei hinreichend vielen Wiederholungen, kommen keine neuen Wörter hinzu, da alle Shakespeare bekannten Wörter inzwischen verwendet wurden.

Eine großartige Bestätigung der Theorie

Die Mathematiker Efron und Thisted haben auf diese Weise den Schätzwert von rund 35.000 neuen Wörtern in der zweiten bis letzten Stichprobe errechnet. Zusätzlich zu den 31.534 verwendeten Wörtern kannte Shakespeare demnach rund 35.000 Wörter, die er nicht im Werk benutzte. Sein Wortschatz dürfte also gut 66.500 Wörter umfasst haben. Nicht schlecht, wenn man bedenkt, dass Konrad Adenauer einen Wortschatz von 800 Wörtern gehabt haben soll.

Wenn Sie die für obige Rechnungen nötigen Voraussetzungen hinterfragen sollten: Im Jahr 1985 tauchte ein neues, höchstwahrscheinlich von Shakespeare stammendes Gedicht auf, an dem die obige Methodik getestet werden konnte. Die von der Theorie für dieses Gedicht vorhergesagte Anzahl neuer Wörter traf recht genau zu: eine großartige Bestätigung der Theorie.

Ich finde, es ist ein wunderbares Beispiel dafür, wie man mit Daten-Kompetenz etwas unmöglich Erscheinendes auf seriöse Weise möglich machen kann, nämlich die Berechnung des Unsichtbaren. Dank der Mathematik.