weblog.hist.net

Daten, Daten, Daten – überall sind Daten!

Wir hatten ja unter dem Stichwort Data Driven History ja bereits mehrfach auf die wachsende Bedeutung von Daten auch für die Historische Forschung hingewiesen und unter anderem auch die Möglichkeiten und Grenzen des Google-Projektes Ngram diskutiert.

Nun steht bei JSTOR unter dem Titel Data for Research (DFR) ein neues, speziell auf geisteswissenschaftliche Analysen zugeschnittenes Tool zur Verfügung. Das Prinzip von DFR ist das gleiche wie von Google Ngram, indem grosse Textcorpora nach verschiedenen Häufigkeiten und Wortmustern durchsucht und graphisch dargestellt werden können. Anders als Ngram verwendet aber JSTOR einen klar umrissenen Textcorpus, nämlich die eigenen rund sechs Millionen Volltexte von wissenschaftlichen Aufsätzen, die in den eigenen Kollektionen enthalten sind. Anders als bei Google sind diese Texte sehr präzise metadatiert und erlauben deshalb wesentlich präzisere Abfragen.
(mehr …)

JSTOR hoch 10: HathiTrust

hathitrust
In wenigen Monaten werden wir nicht mehr von JSTOR reden, sondern nur noch von HathiTrust. HathiTrust nennt sich selbstbewusst das „grösste Unternehmen der Bibliotheksgeschichte“. HathiTrust wurde 2008 als Verbundprojekt von 25 US Universitätsbibliotheken lanciert. HathiTrust gibt bereits heute Zugang zu Millionen von digitalisierten Buchbeständen, ist aber nicht eine blosse Meta-Plattform, sondern eine robuste und dauerhafte Speicherinfrastruktur für die digitalen Bestände aller beteiligten Bibliotheken. HathiTrust hat ausserdem eine Langzeitarchivierungslösung und wird somit auch das weltweit grösste digitale Archiv sein.

Im Moment sind „erst“ 2.5 Mio Bände online. Ende Jahr werden es 5 Mio sein, 18 Mio sind auf Ende 2012 erwartet. HathiTrust umfasst die digitalisierten Bestände, welche die Bibliotheken zum Teil in Zusammenarbeit mit Google digitalisiert haben und umfasst unter zahlreichen anderen Unternehmen JSTOR und die Humanities Text Initiative der University of Michigan. Last not Least: HathiTrust ist ausschliesslich von den teilnehmenden Bibliotheken finanziert.

Und hier gibt es einen Podcast zum Thema: The Hathi Trust and „The Silence of the Archive“ – ein Interview mit John Price Wilkin, Executive Director, Hathi Trust.

JSTOR legt nochmals zu

JSTOR, die führende Anbieterin von digitalisierten Zeitschriften, hat wieder einige nette, kleine Verbesserungen an ihren Dienstleistungen vorgenommen. So sind neu die PDF-Dateien, die heruntergeladen werden können, im Volltext durchsuchbar. Dies war bisher erst nach einer lokalen Nachbearbeitung mit einem Texterkennungsprogramm (OCR) möglich. Neu können auch Textpassagen mittels Copy/Paste in andere Anwendungen wie etwe Word oder Litlink übernommen werden. Verbssert wurde auch die Darstellung von Suchbegriffen auf den JSTOR-Seiten.