Dieses Semester schreibe ich im Seminar “Medienkommunikation” eine Hausarbeit über die Kommunikation via Mailinglisten am Beispiel von InetBib. Da ich keine Zahlen zu den über InetBib verschickten Mails gefunden habe und mich mal wieder der Programmier-Fimmel gepackt hat, besorgte ich mir die Daten selbst:
Im Modul “Informationsressourcen” meines Studiums habe ich etliche wichtige Recherche-Werkzeuge kennengelernt, besonders für das Fachgebiet “Bibliothek– und Information”. Nun. Die Links zu den Online-Portalen landeten brav in meinen Lesezeichen, aber in der Realität benutze ich nur ~3 davon. Ursache: Ich konnte mir nicht merken, was wo wie zu finden ist.
N-Gramme sind in Fragmente zerlegte Texte mit einer Länge von n Einheiten. Diese N-Gramme werden in Datensätzen gespeichert und können dann nach verschiedenen Mustern durchsucht werden. Dieses Verfahren wird z.B. in der Computerlinguistik oder Kryptologie verwendet.
Das Internet Archive in San Francisco ist ein gemeinnütziges Projekt, das sich der Langzeitarchivierung und der möglichst barrierefreien Zugänglichmachung von digitalen Daten verschrieben hat. Es hat ein jährliches Budget von 10 Millionen Dollar (Spenden, Stiftungen und Partnerschaften) und kann damit unter anderem 200 Angestellte beschäftigen.[1]

