‹ Alle Einträge

Wie viele Wörter kannte Shakespeare?

 

In diesem Jahr vor genau 450 Jahren wurde William Shakespeare geboren. Nicht wenige halten ihn für den größten Dramatiker aller Zeiten. Deshalb soll das Jahr 2014 nicht zu Ende gehen, ohne dass wir diesen ungemein produktiven Mann hier mathematisch würdigen.

„Nach Gott hat Shakespeare am meisten geschaffen“, sagte einst sein Schriftstellerkollege Alexandre Dumas (selbst nicht gerade unkreativ). Und in der Tat: Shakespeare hinterließ ein gewaltiges Œuvre. Er benutzte darin 31.534 verschiedene Wörter seines Wortschatzes. Daran anknüpfend gilt unsere Neugier jetzt der Frage: Wie viele Wörter kannte Shakespeare, ohne sie zu verwenden?

Eine Antwort darauf scheint absolut unmöglich. Es ist, als würde ich versuchen, die Anzahl Ihrer bisher nicht geträumten Träume zu errechnen. Dennoch werden wir Shakespeares Wortschatz mathematisch ermitteln. Aber beginnen wollen wir ganz anders.

Von Schmetterlingen und Wörtern

Um 1940 verbrachte der Biologe Steven Corbet zwei Jahre im asiatischen Urwald, um Schmetterlinge zu fangen. Von 118 Schmetterlingsarten hatte er jeweils nur ein einziges Exemplar gefangen, von 74 Arten zwei Exemplare und so weiter, wie in der folgenden Tabelle angegeben:

k         1        2       3       4      5       6        7      8      9     10    11    12    13    14    15
n(k)  118    74     44    24     29    22     20    19    20    15    12    14    6     12     6

Angenommen, Corbet hätte Sie fragen können, die Zahl neuer, also bisher von ihm nicht gefangener Arten zu schätzen, wenn er für zwei weitere Jahre in den Urwald zurückkehrte.

Die Mathematiker Good und Toulmin beantworteten diese Frage so: Sie nahmen an, dass die Wahrscheinlichkeit, in einem Zeitintervall ein Exemplar einer Art  a zu fangen, proportional zur Länge des Zeitintervalls ist, wobei die von Art zu Art variierende Rate von den Häufigkeiten der Arten abhängt. Statistisch gesehen führt diese Annahme auf denselben Zufallsvorgang, den wir in einem früheren Blog-Beitrag schon für die Tore während eines Fußballspiels verwendet haben, nämlich die Poisson-Verteilung.

Deshalb ist die Wahrscheinlichkeit, dass eine bestimmte Spezies in der zweiten Zweijahresperiode beobachtet wird, aber nicht in der ersten Periode gleich e hoch minus m(a) x [1 – e hoch minus m(a)], wobei m(a) die mittlere Anzahl gefangener Exemplare der Spezies a pro Zweijahresperiode ist. Diese Produkte muss man über alle Spezies summieren und eine kleine Rechnung ergibt dann als Schätzwert für die Zahl neuer Arten: n(1) – n(2) + n(3) – n(4) + … = 118 – 74 + 44 – 24 … = 75

Bei einer weiteren zweijährigen Expedition könnte Corbet also mit 75 beim ersten Mal noch nicht entdeckter neuer Arten rechnen.

884.647 publizierte Wörter, 14.376 davon nur ein Mal genutzt

Die Anzahl der Tore eines Teams beim Fußball, die Zahl gefangener Exemplare einer Spezies, die Häufigkeit eines Wortes in einem Text: Statistisch gesehen führt es stets auf die Poisson-Verteilung. Die Methodik lässt sich anwenden, weil Autoren ein persönliches Vokabular haben. Die Häufigkeiten, mit denen beim Schreiben die Wörter des Vokabulars eingesetzt werden, variieren von Autor zu Autor, sind aber für jeden Autor selbst nahezu konstant. Ein Text des Autors kann daher als Stichprobe aus dieser Häufigkeitsverteilung angesehen werden.

So hat der Shakespeare-Forscher Marvin Spivack im Jahr 1968 ermittelt, dass Shakespeare 884.647 Wörter publiziert hat. 14.376 Wörter kamen in seinem Opus nur einmal vor, 4.343 Wörter zweimal, und so weiter. Hier ist ein Auszug aus Spivacks Tabelle:

k             1            2          3            4          5          6         7        8        9
n(k)   14.376    4.343    2.292    1.463    1.043    837    638    519    430

Angenommen, ganz neue Shakespeare-Werke würden entdeckt, eventuell mit anderen Themen und Inhalten, aber von demselben Umfang wie sein tatsächliches Opus. Dann würden viele der in seinem tatsächlichen Werk verwendeten Wörter darin wieder auftauchen, aber sicher auch einige neue. Wie viele können wir in diesem hypothetischen Shakespeare-Werk erwarten, die nicht auch schon im tatsächlichen Werk vorkommen? Die Antwort liefert wieder die obige alternierende Schätzfunktion: 14.376 – 4.343 + 2.292 – 1.463 + … = 11.430

Dasselbe Argument kann man mit einem hypothetischen dritten, vierten, und so weiter Shakespeare-Werk desselben Umfangs wiederholen. Für jede weitere Stichprobe wird abermals die Zahl der zu erwartenden neuen Wörter berechnet, die noch in keiner der früheren Stichproben aufgetaucht sind. Diese Zahl wird mit jeder weiteren Stichprobe kleiner. Irgendwann, bei hinreichend vielen Wiederholungen, kommen keine neuen Wörter hinzu, da alle Shakespeare bekannten Wörter inzwischen verwendet wurden.

Eine großartige Bestätigung der Theorie

Die Mathematiker Efron und Thisted haben auf diese Weise den Schätzwert von rund 35.000 neuen Wörtern in der zweiten bis letzten Stichprobe errechnet. Zusätzlich zu den 31.534 verwendeten Wörtern kannte Shakespeare demnach rund 35.000 Wörter, die er nicht im Werk benutzte. Sein Wortschatz dürfte also gut 66.500 Wörter umfasst haben. Nicht schlecht, wenn man bedenkt, dass Konrad Adenauer einen Wortschatz von 800 Wörtern gehabt haben soll.

Wenn Sie die für obige Rechnungen nötigen Voraussetzungen hinterfragen sollten: Im Jahr 1985 tauchte ein neues, höchstwahrscheinlich von Shakespeare stammendes Gedicht auf, an dem die obige Methodik getestet werden konnte. Die von der Theorie für dieses Gedicht vorhergesagte Anzahl neuer Wörter traf recht genau zu: eine großartige Bestätigung der Theorie.

Ich finde, es ist ein wunderbares Beispiel dafür, wie man mit Daten-Kompetenz etwas unmöglich Erscheinendes auf seriöse Weise möglich machen kann, nämlich die Berechnung des Unsichtbaren. Dank der Mathematik.

39 Kommentare

  1.   Mehran

    Einfach nur beeindruckend! Übrigens wird eine weitere Theorie bestätigt: Kants Theorie der synthetisch a priorischen Erkenntnis. Danach unterliegt nicht die Welt den mathematischen Strukturen, sondern unser Denken lässt uns keine andere Wahl als diese Strukturen in die Welt hineinzudenken.

  2.   Grübler

    Dass der Schmetterlingsfang des lieben Herrn Corbet dem Zufall unterliegt, leuchtet ein. Auch im Fußball spielt das Element Zufall sicher eine Rolle. Dass die Wortwahl von Shakespeare allerdings einer Zufallsfunktion unterliegt, halte ich jedoch für zweifelhaft. Auch wenn die Häufigkeitsverteilung der verwendeten Wörter in den bekannten Texten näherungsweise einer Poissonverteilung entspricht, lässt sich daher meines Erachtens über die Qualität der Schätzung der Gesamtzahl der bekannten Wörter keine Aussage machen.

  3.   1iglupedi

    Wow. Die Ruhe der Feiertage scheint dem Autor gut getan zu haben.

    Faszinierend…ja, Sprache ist auch Mathematik. Unsichtbares, nicht Bekanntes wird berechenbar durch Worte, die aus Zusammensetzung von Buchstaben bestehen. Bildhafte Symbolik, Bewegung von Hand,Transfer von menschlich gedanklichen Bildern aus der Innenwelt nach außen, die das Vorstellungsvermögen anderer erreicht…Wie viele mögen es sein?

    Danke. Das zu lesen, ist für mich wirklich ein Geschenk :-)

  4.   Rainer aus dem Spring

    Ein paar Korrekturen/Anmerkungten:

    Der Shakespeare-Forscher war Marvin Spevack (da hat sich wohl der Mathematiker Spivak dazwischen gedrängt :)).

    Die Zahlen 884.647 und 31.534 sind so grotesk genau, daß sie nicht stimmen können. Spevack hat als erster (?) Computer in der Konkordanz- Analyse benutzt Seine Zahle basieren auf der Riverside Shakespeare-Edition und nicht auf Original-Quellen – was immer das sein mag.

    Es ist bis heute nicht einmal halbwegs unumstritten, welche Werke von Shakespeare stammen (Edward III, Henry VIII, Thomas Moore, Yorkshire Tragedy, …) oder welche Stücke er mit anderen zusammen geschrieben hat. So nehmen viele Forscher an, daß einige Szenen im Macbeth von Middleton stammen. Daß Fletcher einziges beigesteuert hat, gilt als sicher.

    Weit komplizierter wird das Ganze dadurch, daß viele Stücke in diversen Quarto-Ausgaben und in der Folioausgabe erschienen. Was soll man da mitzählen?

    Was ist mit Eigennamen? Was ist mit fremd(sprachigen) Wörtern?

    Die Anzahl von 31.534 „verschiedenen“ Wörtern ist viel zu hoch und schließt Flexionen ein.

    Laut David Crytals, „Think on my Words“ hat WS ca. 18.000-20.000 verschiedene Wörter benutzt.

    Soweit ich das sehe (ich bin Mathematiker und kein Literaturwissenschaftler) ist Spevacks Arbeit von 1968 [sic!] schon lange nicht mehr Stand der Forschung.

    Schönen Gruß,

    adS

  5.   donquichotte

    Schnell ein bißchen Wasser in den schönen Festtagswein geschüttet: In der Ausgabe von Colin Burrow (2002), The Complete Sonnets and Poems (Oxford University Press), ist das sog. „Taylor Poem“ nur als „Attributed to Shakespeare“ eingestuft (S. 148ff.). Denn – welche Merkwürdigkeit! – das Gedicht „Shall I die“ taucht in ZWEI Handschriften aus den 1630er Jahren auf: Yale Beinecke Ms.Osborn b.197 und Oxford Bodleian Rawlinson Poet. 160. Nur das Oxforder Manuskript hat die Unterschrift „William Shakespeare“, das andere eben nicht. Man darf nicht vergessen, daß der große Theaterimpresario und Dichter Shakespeare gerade wenige Jahre tot war – und jede Menge gläubiger Adepten und Epigonen nach sich zog, die im Stile Shakespeares zu dichten beabsichtigten. Daß ihr Wortschatz somit große Schnittmengen mit dem Shakespeares aufweist, liegt auf der Hand. Im übrigen ist überhaupt nicht gesichert, daß „der“ Dichter Sh. nur eine Person war (wie die Stratfordians einem immer weismachen wollen); Derek Jacobi vermutet eine Company Sh.
    Ärgerlich an dem zitierten Stanford-Artikel von 1986 (ein Jahr nach dem „Fund“ Gary Taylors) ist überdies, daß dort nicht einmal das Gedicht selbst abgedruckt wird. Wer es im Netz nachlesen will, sollte zum kommentierten Nachdruck in der Cambridge University Press greifen (pdf-Artikel: Gary Taylor finds a Poem“. Die Experten jedenfalls (jenseits von Taylor) schütteln skeptisch den Kopf …

  6.   Mats Beck

    Ich bin der Überzeugung und spreche aus persönlicher Erfahrung, dass der Wortschatz von Schriftstellern deshalb so groß ist, weil sie täglich gelesene Wörter spontan in ihre Werke einfließen lassen. Sie erzeugen den Eindruck als gehörte das Wort zu ihrem permanenten Wortschatz, dabei ist es nur kurzzeitig im Gedächtnis und müsste, damit es zu wiederholtem Einsatz kommen kann, durch Lesen wiederentdeckt werden.

  7.   Dr. A. Gammel

    Wieviele Worte umfasst denn die englische Sprache? OK, Wolff schätzt „500.000 bis 600.000“, aber erstens ist das eine Schätzung, zweitens gilt sie für die Gegenwart und nicht für die Zeit Shakespeares, und wieviele davon gehören zu den vielen Dialekten?
    Unterm Strich: eine interessante Berechnung, und wer an Mathematik glaubt, mag das für plausibel halten. Aber „we can know the truth without a doubt – if we try“. Heute sollte es doch möglich sein, die Wort einer Spache zu ZÄHLEN…

  8.   nurwahr

    Wenn sie von den 800 Wörtern des Hr. Adenauer schreiben, meinen sie sicher seinen aktiven Wortschatz. Der passive wird um ein Vielfaches höher gewesen sein. Bitte hier nicht Äpfel mit Elefanten vergleichen.

  9.   effdee

    Dass SPRACHE hier ein Thema ist, finde ich wunderbar!

    LW sagt dazu: „Was sich überhaupt sagen läßt, das kann man klar sagen; und wovon man nicht reden kann, darüber muß man schweigen.“ [Tractatus 7]. Statt dessen befindet John Lennon: „Everybody’s talking but noone says a word“ [Nobody Told Me].
    Würden das nur alle beherzigen!

    Und zum Thema ‚Shakespeare‘ hat meiner Ansicht nach John Michell sehr viel [wenn nichts alles] (Wesentliche[s]) gesagt: „Wer schrieb Shakespeare“ (ISBN 3-86150-368-9).
    Hier nun eine weitere Bewertung der Werke dieses Autors (wenn es denn [nur] einer war) kennzulernen, ist doch sehr erhellend. Ich finde zwar die Bewertung durch mehrsilbige Worte charakteristischer [a.a.O.], aber dies Verfahren gefällt mir durchaus.

    Danke.

 

Bitte melden Sie sich an, um zu kommentieren.

Anmelden Registrieren