Kostenlos und gemeinfrei: 2,6 Millionen Bilder aus 500 Jahren Buchgeschichte
Historische Zeichnungen, Werbeanzeigen, zeitgenössische Fotoaufnahmen: Ein US-amerikanischer Wissenschaftler hat, unterstützt von Yahoo, sagenhafte 2,6 Millionen gemeinfreie Bilder bei Flickr hochgeladen und verschlagwortet. Und das ist erst der Anfang.
Kalev H. Leetaru ist an der Georgetown University Lehrbeauftragter unter anderem für Big Data, finanziert wird sein Institut vom Internetkonzern Yahoo. Entsprechend nutzte Leetaru den Fotodienst Flickr zur praktischen Relisierung seines Mammutprojektes Internet Archive Book Images.
Aktuell gibt es dort 2,6 Millionen Abbildungen aus Büchern, Zeitungen, Zeitschriften und sonstigen Dokumenten, die in den letzten 500 Jahren erschienen – zwischen 1500 und 1922. Die Bilder wurden aus 600 Millionen Textseiten extrahiert, die vom Internet Archive eingescannt wurden. Der Algorithmus versucht den Inhalt eines bildes mit Hilfe des umfließenden Textes zu erkennen und verschlagwortet die Dateien entsprechend, was naturgemäß mal gut, mal weniger gut klappt.
Erstmalig Bilder im Fokus
Im Gespräch mit der BBC (die richtigerweise darauf hinweist, dass es somit noch mehr Katzenbilder im Internet gibt) erklärt Leetaru die Intension seines Projektes. Seit Jahren würden Bibliotheken ihre Bestände digitalisieren, sie konzentrierten sich dabei aber nur auf durchsuchbaren Text. Bilder seien bei den Digitalisierungsbemühungen von öffentlicher und privater (Google) Seite bislang weitgehend ignoriert worden. Das betrifft übrigens auch kostenlose eBooks aus dem Belletristik-Bereich: Viele bemerkenswerte Illustrationen gibt es ausschließlich im Paket mit dem Buchtext, separat indexiert sind sie nicht.
Die aktuell 2,6 Millionen Dokumente sollen erst ein Anfang sein, das Bildarchiv soll auf 12 Millionen Dokumente wachsen. Schon jetzt ist die Flickr-Collection ein Paradies für historisch Interessierte, angesichts der Gemeinfreiheit aber auch für alle, die mit dieser Art von Bildern arbeiten wollen (Journalisten, Werbetreibende, Verlage, …). Aus dem aktuell noch recht unsortierten Datenmaterial werden bestimmt noch einige interessante Projekte entstehen, kommerziell wie wissenschaftlich.
<thanks Open Culture>
Kommentare
Gemeinfreier Freitag mit Umfrage | Suschna – Textile Geschichten 26. September 2014 um 08:30
[…] gehören. Bilder, für die kein Urheberrecht mehr besteht. Wie schon erwähnt, wurden gerade 2,6 Millionen Abbildung aus 500 Jahren Buchgeschichte online gestellt. Da die Fotos automatisiert aus Büchern gezogen wurden, hat man bei den Funden […]
Fundstück der Woche Nr. 40: Internet Archive Book Images | Digitur – Literatur in der digitalen Welt 28. September 2014 um 19:11
[…] stammen aus Büchern, Zeitungen und Zeitschriften, die zwischen 1500 und 1922 erschienen sind. Laut lesen.net soll das Archiv noch auf Millionen Dokumente […]
Fundstück der Woche Nr. 40: Internet Archive Book Images | Digitur 9. März 2015 um 21:52
[…] stammen aus Büchern, Zeitungen und Zeitschriften, die zwischen 1500 und 1922 erschienen sind. Laut lesen.net soll das Archiv noch auf 12 Millionen Dokumente […]