- weblog.histnet.ch - http://weblog.hist.net -

Historisch-statistische Analysen mit Google Books

[1]

Passend zum kürzlich an dieser Stelle erfolgte Hinweis [2] von Kollega Haber zum zahlenbasierten Charakter digitaler Geschichte hat Mills Kelly in seinem Blog an drei einfachen Beispielen erläutert [3], wie er die neue Funktion Ngram Viewer [4] aus den Google Labs in seinen Einführungskursen zu verwenden beabsichtigt. Den Studierenden könne er so einen ersten Einblick in die Möglichkeiten statistischer Auswertungen von historischen Texten verschaffen.

Der vom Ngram Viewer erschlossene Fundus besteht aus einer Auswahl von 5.2 Millionen Bücher aus den rund 15 Millionen in Google Books gescannt vorliegenden Publikationen. Dieser Fundus umfasst 500 Milliarden Wörter in Englisch (361 Mia Wörter), Französisch (45 Mia), Spanisch (45 Mia), Deutsch (37 Mia), Russisch (35 Mia), Chinesisch (13 Mia) und Hebräisch (2 Mia).1 [5] Kelly zeigt mit einigen Beispiel-Abfragen, wie anhand des unterschiedlichen Vorkommens von Begriffen im Lauf der Jahrhunderte Fragen an die kulturelle Bedeutung von Begriffen und deren Wandel gestellt werden können.

Die Graphen selbst, so hält er fest, vermögen hierzu keine Antworten zu geben. Auch verweist Kelly auf gewisse Vorbehalten [6] gegenüber dieser Form der statistischen Auswertung von publiziertem Material, zu der (unter Umständen relevante) Kontextdaten fehlen. Doch betont Kelly seine Überzeugung, dass diese Einführung mit dem Ngram Viewer aus den Studierenden wohl noch keine Statistiks-Cracks à la Edward Tufte [7] macht, aber doch als ein erster Schritt zu einer spielerischen, explorativ-erprobenden Auseinandersetzung mit den Möglichkeiten der Datenanalyse im digitalen Zeitalter dienen könne, gemäss Steve Ramsays Überlegungen zu einer „hermeneutics of screwing around [8]„.

P.S. Der Graph zu Beginn des Eintrags (hier eine Grossansicht [9]) zeigt die Verteilung des Vorkommens der Namen einiger Schweizer Persönlichkeiten: Henri Guisan, Alfred Escher, Max Frisch und Jacob Burckhardt. Es ist zwar erfreulich, dass der Historiker Burckhardt hier obenaus schwingt – die Häufung des Vorkommens in den 1940er Jahren deutet aber darauf hin, dass hier ein statistischer Artefakt vorliegt.

  1. eine genaue Aufteilung der Bücher auf die verschiedenen Sprachen ist weder auf der Erläuterungsseite [10] noch im Beitrag [11] im Google-Books-Blog noch im soeben erschienenen Science-Artikel [12] zu finden [ [13]]