weblog.hist.net

HOK Lesen: Suchen und Finden und Archivieren von digitalisierten Dokumenten

Gefunden beim Recherche-Blog: ein Hinweis auf das Zentrale Verzeichnis Digitalisierter Drucke (zvdd), das dabei helfen soll (und kann), die zahlreichen, über verschiedene Anbieter verstreuten Dokumente aus den zahlreichen Digitalisierungsprojekten aufzufinden. Mit dabei: Links zu Nestor, dem Kompetenznetzwerk für Langzeitarchivierung, und einem Artikel über die Problematik der Archivierung digitaler Daten. Das Problem wird noch verschärft, da neuerdings (auch ein Hinweis beim Recherche-Blog) in Deutschland auch Websites an die Nationalbibliothek abgeliefert werden müssen.

HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Ich bin nur eine Maschine!

Eine interessante Mitteilung bei Heise:
Die Suchmaschinen-Betreiber verlangen eine Änderung der gesetzlichen Grundlagen für ihre Dienstleistung, denn:

“Suchmaschinen werden in einem zunehmenden Maße mit der Entscheidung in Anspruch genommen, ob einzelner Inhalte im Internet auffindbar und zugänglich sein sollten oder nicht”, monieren die Anbieter. Sie sähen sich dabei angesichts der sehr weitgehenden zivilrechtlichen (Störer-) Haftung dazu gezwungen, bereits von der Mitteilung einer rein behaupteten Rechtsverletzung einzelne Suchtreffer aus ihren Ergebnislisten zu löschen. Diese Situation machten sich “zahlreiche Akteure” durch bewusstes Abmahnen missliebiger Inhalte etwa von Konkurrenten zunutze. Die Praxis zeige, dass hinter den angeblichen Rechtsverstößen häufig seriöse und vollkommen legale Inhalte steckten.

Daraus folgt:

“Auf Verdacht” hin vorgenommene Maßnahmen von Suchmaschinen stellten auch einen “starken Eingriff” in die grundgesetzlich geschützten Informationsinteressen der Nutzer dar.

Mit anderen Worten: Manipulationen der Suchmaschinen-Indices (also der in Datenbanken abgelegten Verweise auf Websites, die als Ergebnisse bei Suchanfragen ausgewiesen werden) sind an der Tagesordnung.

Soweit so gut. Eine Änderung der Rechtslage weg von einer “vorauseilenden Gehorsams-Zensur” wäre wohl wünschenswert; obwohl unklar bleibt, wie gross der Schaden sein könnte, der durch die Verzögerungen entsteht, wenn illegale Inhalte erst nachträglich, auf Antrag und womöglich mit richterlicher Anordnung gelöscht werden können.

Erstaunlich finde ich die Argumentation der Suchmaschinen-Betreiber. Suchmaschinen böten…

(…) wie Zugangs- oder Hostprovider keinen eigenen Content an, sondern machten Inhalte Dritter auf “Milliarden unterschiedlicher und sich permanent verändernder Webseiten” ausfindig, indexierten sie und verschafften dem Nutzer Zugang dazu.
“Suchmaschinen im eigentlichen Sinne sind keine redaktionell gestalteten Link-Kataloge”, heißt es in dem Positionspapier, das AOL, Google, Lycos, MSN, T-Info, T-Online und Yahoo gemeinsam verfasst haben. Die unüberschaubare Anzahl an Informationen im Internet könne auch gar nicht auf der Basis persönlicher Prüfung und Zusammenstellung der Suchergebnisse strukturiert werden, wehren sich die Anbieter vor einer Haftung für die von ihnen gelisteten Online-Materialien. Nur technische und “voll automatisierte Suchverfahren” könnten zum Einsatz kommen, weshalb die Betreiber sich auch “zwangsläufig” als “rein technische Infrastrukturdienstleister” sehen. (Hervorhebungen durch jh)

Da kann ich nur sagen: “Ich bin nur eine Maschine!” Aber warum bloss verkaufen die Suchmaschinen massenweise Werbung auf ihren Seiten? Hier wird doch ein klarer Mehrwert angeboten, der nicht nur mit “rein technischer Infrastruktur” zu umschreiben ist. Maschinell ist ja lediglich die Ausführung des intellektuellen Ansatzes, die Ergebnisse zu sammeln, auszuwerten, zu gewichten und sortiert auszugeben (Stichwort “PageRank”).

Hier machen es sich die Suchmaschinen-Betreiber meiner Ansicht nach zu einfach. Sie sind mehr als reine technische Dienstleister, sondern zentrale Aggregatoren von Inhalten und recht eigentliche “Gatekeeper”. Dass keine inhaltlichen, sondern “nur” ökonomische Interessen handlungsleitend sind, mag ein Trost sein. Die Suchmaschinenbetreiber wollen keine Inhalte ausschliessen, weil es nicht im Interesse des Nutzer liegt und folglich dem Geschäft schadet – das klingt einleuchtend. Aber wie können wir sicher sein, dass sie auch wirklich keine Inhalte ausschliessen oder sonstwie manipulieren? Und: ist es wirklich in jedem Fall im Interesse der Nutzer/innen, dass Inhalte nicht ausgeschlossen werden? Oder gibt es hier nicht eher doch konkurrierende Interessen?

Übersicht HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Google News II

Bei Google passiert so viel, dass ich nur mit Sammeleinträgen hinterherkomme (und auch nur mit Hinweisen auf die für mich relevantesten Aspekte):

  • Google News bietet nun auch Suchen im Archiv verschiedener Zeitungen, etwa des Wall Street Journal, der New York Times oder der Washington Post. Recherche-Blog zeigt das am Beispiel von Jimmy Carter. Auch die Darstellunge einer Zeitleiste (allerdings nicht in der in einem früheren Eintrag besprochenen grafischen Form) ist möglich.
  • Ein weiterer Hinweis via Recherche-Blog: Google Scholar bietet bei der Suche nach wissenschaftlichen Artikeln auch die Option, nach “ähnlichen/verwandten” Einträgen zu suchen (“related articles”).
  • Nochmals via Recherche-Blog: Hinweise zum Thema Klickbetrug, das ich hier auch schon thematisiert habe. Interessante Links finden sich auch in den Kommentaren.
  • Google Books bietet nun erste Bücher zum (Gratis-)-Download an, zumeist ältere Bücher aus US-amerikanischen Bibliotheken, auf die keine urheberrechtlichen Ansprüche mehr bestehen.
  • Google führt den “Image Labeler” ein: ein Spiel, bei welchem die Spieler Bilder aus dem Fundus der Google-Datenbank mit treffenden Stichworten versehen. Absicht: Google verbessert die Stichwort-Suche nach Bildern. Kommentar von Heise: “Google Image Labeler führt das so genannte Folksonomy-Prinzip des Web 2.0 auf perfide Weise weiter. Bei anderen Projekten, bei denen die Benutzer eine Datenbasis gemeinschaftlich indexieren, haben sie direkten Nutzen davon. Bei sozialen Bookmarking-Diensten zum Beispiel finden sie im gemeinsamen Datenbestand ähnliche Seiten, wenn sie ihre Bookmarks mit Labeln versehen. Beim Image Labeler “profitieren” sie nur in Form des Punktestands; die Nutzzung der von fleißigen Spielern angelegten Bilderindexes bleibt Google vorbehalten” (vgl. auch meinen früheren Eintrag zu “Tagging“).

Übersicht: HOK Lesen Suchen und Finden

HOK Lesen: Suchen und Finden: Das unsichtbare Web (Nachtrag)

Wer sich nicht durch den englischen, fachwissenschaftlichen Text von Landowski und Mayr zum unsichtbaren Web mühen mag, hat auch die Möglichkeit, sich das Feature “Was die Suchmaschine nicht findet” des Deutschlandradios (dr) zu Gemüte zu führen (schriftlich oder als Audio-Datei). Zitat:

Google hat in vielen Köpfen die Illusion festgesetzt, mit der simplen Eingabe eines Stichwortes könne man die Weisheit der Welt aus dem Internet saugen. Das unsichtbare Netz zeigt, dass die Dinge komplizierter liegen, auch die beste Suchsoftware kann nicht Erfahrungswissen und Fingerspitzengefühl bei der Recherche ersetzen. Letztlich ist die elektronische Welt des Internets, ob sichtbar oder unsichtbar, auch nicht so viel anders als die wirkliche Welt: Sich darin zu orientieren ist eine Lebensaufgabe.

Übersicht: HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Meta-Suchmaschine Kartoo visualisiert Ergebnisse

Die Meta-Suchmaschien Kartoo fasst, wie andere Suchmaschinen auch, die gefundenen Seiten zu einer Abfrage in Gruppen zusammen. Kartoo zeigt diese “Begriffsgruppen” unter dem verbindenden ergänzenden Stichwort in einem Ordner, ähnlich dem Finder/Explorer auf dem Desktop. Ausserdem zeigt Kartoo diese so genannten Such-Cluster auch als “Begriffs-Karte” mit Verbindungen zwischen den Clustern und einer Darstellungsgrösse, welche die Relevanz dieses Clusters für die Suchabfrage darstellen soll. Anbei ist das Ergebnis für die Suche nach “Historische Online Kompetenz” zu sehen (Klick führt zu Kartoo).

Ich finde vor allem das Konzept interessant (weniger die konkrete Nutzung): es zeigt die Verlagerung zu neuen Formen, wie in Zukunft die Navigation im Web stärker visuell geprägt sein wird – ähnlich wie die Backup-Software Time-Machine.
(via Rechercheblog)

Übersicht: HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Keine Anzeichen für eine “Googlearchy”

Die Popularität von Google führte einige Beobachter/innen zur Annahme, dass die Suchmaschine einen selbstverstärkenden Effekt erzeugen könnte: Populäre Websites (also solche, auf die viele Links führen) tauchten weiter oben in den Suchergebnissen auf, was wiederum ihre Popularität (also ihre Verlinkung) steigerte – es entsteht eine so genannte “Googlearchy“.

Doch eine Studie der Indiana University School of Informatics hat ergeben, dass diese selbstverstärkenden Effekte viel weniger zum Tragen kommen, als vermutet, ja dass die Suchmaschinen sogar eher einen ausgleichenden Effekt bewirkten.

“Our study demonstrates that popular sites receive on average far less traffic than predicted by the Googlearchy theory and that the playing field is more even.” (Filippo Menczer)

Dennoch lässt sich eine Verteilung der “Popularität” in den Suchmaschinen-Rankings zeigen, die den Erwartungen der Netzwerk-Theorie entspricht: eine langsam auslaufende Kurve mit wenigen sehr populären und vielen wenig populären Websites. Trotz des Wachstums des Webs verändert sich an dieser Verteilung wenig. Die Netzwerk-Theorie ist fasziniert, weil sich das Web ähnlich wie ein soziales Netzwerk verhält, bzw. beschreiben lässt. Es gibt Anzeichen, die von den Teilnehmer/innen richtig gedeutet werden – so können Menschen in ihrer Gesellschaft erkennen, wer über mehr und wer über weniger Einkommen verfügt, ohne das genaue Vermögen oder Einkommen der entsprechenden Personen zu kennen. Ähnlich, so die Aussage der Studie, verhält es sich mit der Popularität von Websites: Suchmaschinen zeigen auf, wer populärer ist, ohne die genaue Zahl und die genaue Herkunft der Links zu zeigen, die auf die Websites führen.
(via Recherchen-Blog.)

Übersicht: HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Das unsichtbare Web

Die Informationswissenschaftler Mayr und Lewandowski nehmen in einer aktuellen Publikation das Thema des “unsichtbaren Webs” oder des “Deep Web” (oder in ihrem Fall präziser: des “invisible academic web”) auf: jener Teil des Webs, der von Suchmaschinen nicht erfasst wird und damit für die meisten Nutzer/innen des Internets unsichtbar bleibt. Dazu gehören einerseits Seiten, die aus technischen Gründen von den Suchrobotern nicht gefunden werden oder deren Inhalte nicht indiziert werden können. Nicht gefunden werden Seiten, zu welchen keine oder falsche Links führen, aber auch Bereiche oder ganze Websites, deren Betreiber willentlich die Suchroboter mit entsprechenden Einstellungen ausschliessen und ihre Inhalte nicht in die Suchmaschinen indiziert haben wollen (ein Umstand, den Mayr und Lewandowski in ihren Übelegungen nicht berücksichtigen). Zu den nicht indizierbaren Dateien gehörten früher auch PDF-Dateien, heute sind es Musik-, Video- aber auch Flash-Dateien, während Bild-Dateien ja schon ziemlich gut in die Suchmaschinen-Abfragen eingebunden wurden.

Zum unsichtbaren Web (und hierauf konzentrieren sich Mayr und Lewandowski) gehören auch die zahlreichen via Web erreichbaren Datenbanken: angefangen von öffentlich zugänglichen Bibliothekskatalogen bis hin zu kostenpflichtigen Text- und Bilddatenbanken. Nicht (mehr) dazu gehören datenbankbasierte Web-Angebote wie etwas Amazon, deren Inhalte durch zahlreiche dynamische Verlinkungen von den Suchrobotern umfassend indiziert werden können.

Eine Studie von Michael K. Bergman aus dem Jahr 2001 schätzte, dass die Datenmenge in den Datenbanken jene des in Suchmaschinen indizierten Webs um das 550-fache (!) übersteige. Mayr und Lewandowski kommen bei einer kritischen Würdigung nun zum Schluss, dass die wirklich für wissenschaftliche Zwecke interessanten und relevanten Text-Datenbanken vielleicht gleich viel Daten beherbergen wie das “offene Web” auch: also in der Grössenordnung von einigen Milliarden Dokumenten. Weggerechnet wären dabei Datenbanken mit technischen Inhalten oder Rohdaten und Bilder (zum Beispiel Satellitenbilder). Ob sie beispielsweise Patentrecht- oder Zeitungsvolltext-Datenbanken auch zu der relevanten Menge gezählt haben, erläutern Mayr und Lewandowski nicht näher.

Sie gehen auch nicht näher auf den (von ihnen erwähnten) Umstand ein, dass im “offenen Web” nur ein Bruchteil der Inhalte wissenschaftlichen Ursprungs sind. Eine Schätzung von Lawrence und Giles (aus dem Jahr 1999) geht davon aus, dass 6% der im Web auffindbaren Inhalte als wissenschaftlich bezeichnet werden können. Folglich sind im unsichtbaren Web fast zwanzigmal mehr wissenschaftlich relevanten Daten vorhanden als im offenen Web.

Natürlich versuchen die Suchmaschinen, die sich als Suchinstrumente zu stark etabliert haben, um den Nutzer/innen wieder Datenbankabfragen beliebt machen zu können, die Inhalte des unsichtbaren Webs zu erschliessen: Google Scholar oder Scirus suchen gezielt Inhalte dieser Datenbanken ab und sind zu diesem Zweck Kooperationen mit wissenschaftlichen Verlagen und Datenbankbetreibern eingegangen. Oftmals kann man Inhalte zwar finden, muss diese aber bezahlen, wenn man sie einsehen will.

Mayr und Lewandowski plädieren einerseits dafür, genauere Untersuchungen über Art und Umfang des unsichtbaren Webs anzustellen (sie selber stellen nach eigener Deklaration nur plausible Überlegungen an), und andererseist, dass sich verschiedene Körperschaften und Institution in Kooperationen zur Erschliessung des unsichtbaren Webs zusammenschliessen sollten (ähnlich dem von ihnen erwähnten, aber nicht sehr erfolgreichen Projekt Vascoda). Ähnliche Forderungen zu europäischen Gegeninitiativen zu den US-amerikanischen Projeken zur Erschliessung des Webs (insbesondere durch Google) sind auch schon erhoben worden, etwa im Zusammenhang mit dem Buch-Digitalisierungsprojekt von Google.

Literatur:

Übersicht: HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Google News

Google ist derzeit sehr präsent in den Medien. Da gibt es eine Ankündigung der Zusammenarbeit mit Associated Press; Google will Urheberrechtsstreitigkeiten mit den Medienunternehmen vermeiden. Ausserdem wird Google in Zukunft beim virtuellen Treffpunkt MySpace die Suchtechnologie beisteuern und die Werbeplätze verkaufen dürfen. Weiter will Google in den Ergebnislisten vor Websites mit schlechtem Ruf warnen (immer noch besser, als diese aus dem Index auszuschliessen) und die Zugänglichkeit für Behinderte zu den Suchergebnissen verbessern. In Sachen Klickbetrug hat sich Google nun mit den werbetreibenden und sich betrogen geglaubten Firmen eine aussergerichtliche Einigung erzielt, die mehr Transparenz bei der Abrechnung der Klicks vorsieht, und anschliessend Kritik an den Firmen geäussert, die behaupten, Klickbetrug nachweisen zu können. Ausserdem will die Universität von Kalifornien mit Google bei der geplanten Digitalisierung von Büchern zusammenarbeiten.

Übersicht: HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: TimeMachine

Darauf haben wir Historiker doch schon lange gewartet: Dass die Informatiker mit einer Zeitmaschine aufwarten! Nun ist sie da: TimeMachine von Apple! Ok, ist eigentlich nur ein aufgemotztes Backup-Programm; aber doch in zweierlei Hinsicht interessant.

Zum einen: Versionierung wird Mainstream (merci Beat!). Was Wikis schon lange vorführen, kann nun auf jedem Desktop Einzug halten – und damit die Art der Arbeit verändern. Bislang haben wir (ich darf doch für alle sprechen?) die Dokumente vor lauter Angst, versehentlich ein Original zu löschen, ja ständig dupliziert oder ewig aufbewahrt. Dank TimeMachine lässt sich bei Bedarf relativ einfach noch einmal die Version von vorvorgestern zurückholen.

Zum andern: Man mag die Visualisierung gar trivial finden – doch hier kündigt sich (meines Erachtens) eine Veränderung der Benutzeroberfläche für das Durchforsten von Daten an. Nicht lange, und auch Bibliothekskataloge und Suchmaschinen werden wir mit dieser Form “virtueller Karteikärtchen” durchblättern statt mit den heutigen Listendarstellungen und “Next/Previous”-Navigationshilfen.

Übersicht: HOK Lesen: Suchen und Finden

HOK Lesen: Suchen und Finden: Meta-Tag-Regelungen

Meta-Tags (Definition bei Suchfibel.de) sind Schnippsel im HTML-Code einer Website, die vom Browser nicht dargestellt werden (ausser, man ruft den Quelltext auf). Suchmaschinen (bzw. die Suchroboter, welche für die Suchmaschinen das Internet abgrasen) sehen diese Meta-Tags nicth nur, sie nutzen die Informationen darin für die Gewichtung bei Suchanfragen. Denn Meta-Tags werden in der Regel genutzt, um die wichtigsten Schlagworte aufzuführen, die den Inhalte der entsprechenden Seite zusammenfassen.

Nun wird immer wieder mit diesen Meta-Tags Schindluder getreiben – gerade, weil dies eine beliebte und einfache Möglichkeit bietet, die Trefferanzeige in Suchmaschinen zu manipulieren. Pornoseiten etwa schreiben “Golf, Auto, Fussball” und so weiter in die Meta-Tags. Die Suchmaschinenbetreiber haben dazu gelernt, diese Art von Manipulation funktionert praktisch nicht mehr.

Anders sieht dies aus, wenn Namen in den Meta-Tags genannt werden. Auch hier kann manipuliert werden: BMW setzt zum Beispiel VW, Opel, General Motors in seine Meta-Tags und wird zuoberst angezeigt, wenn jemand ein Suche nach Opel in der Suchmaschine absetzt (das Beispiel ist natürlich fingiert).

Diese Praxis ist schon eine Weile verboten. Neuerdings dürfen nebst Markennamen auch bürgerliche Namen nicht missbräuchlich in Meta-Tags verwendet werden: das ist etwa bei Anwaltskanzleien oder anderen Branchenein Problem, wo die Anbieter mit ihrem bürgerlichen Namen auftreten.

Metadaten (und Meta-Tags gehören dazu) sind Hoffnungsträger für die Strukturierung des Internets, zum Beispiel auch für das Anliegen des “Semantic Web“. Sie sind attraktiv – auch für Tricksereien. Nutzer/innen von Suchmaschinen sollten die Bedeutung dieser Metadaten daher kennen. Und: es gibt Verbindungen zur Problematik des Urheberrechts. Sowohl Markennamen, aber erst recht bürgerliche Namen sind nicht immer eindeutig. Was macht ein Anwalt mit dem Namen Müller?

Übersicht: HOK: Lesen: Suchen und Finden

 

Wechsle zu unserer Mobil-Seite