Hierarchiestufe höher

Manfred Koltes
Literarische Texte im Internet
Auffinden - Nutzen - Bedeutung

Computer wurden nicht für Philologen erfunden! Die ersten Aufgaben, die die Computer, damals auch in der Regel "Rechner" genannt, erfüllen sollten, waren daher auch Rechenaufgaben - die Berechnung ballistischer Flugbahnen für Geschosse und Raketen, von Mehrwertsteuersätzen auf Rechnungsbeträge oder die Ermittlung der größtmöglichen Primzahl. Es dauerte eine ganze Weile, bis Texte eine Rolle im Computerwesen zu spielen begannen, aber dann handelte es sich in der Regel um die automatische Abfassung von gleichlautenden Mahnschreiben, etwa an unterschiedliche säumige Strom- oder Gaskunden. Jedem, der sich bereits eingangs der 70er Jahre - wohlgemerkt dieses Jahrhunderts - mit Computern beschäftigte, liegen die Gründe dafür klar auf der Hand. Rechenzeit war teuer, die Computer selbst vergleichsweise langsam, die zu rechnenden Aufgaben mußten den Operateuren, die über diese sündhaft teueren Anlagen wachten, in direkter Auseinandersetzung abgerungen werden, indem man den "Kernspeicherbedarf", den "Trommelspeicherbedarf" und nicht zuletzt den "Plattenspeicherbedarf" scharf kalkulierte und auf diese Weise sicherstellte, daß der "Batch-Job"1) im Verlauf der Nacht abgewickelt werden konnte und die Ausdrucke am frühen Morgen bereitlagen. Die Daten selbst wurden über Lochkarten erfaßt, bei denen man erst feststellen konnte, ob man sich vertippt hatte, nachdem der Lochkartenstanzer nach 80 Anschlägen die Karte mit den erfaßten Daten sowohl im Lochkartencode als auch im Klartext am oberen Rand der Karte ausgeworfen hatte. Computermythen der frühen Jahre erzählen immer wieder von Operateuren, die in der Lage waren, bei Lochkarten unmittelbar aus dem Lochmuster den zugehörigen "Text" zu lesen. Herr des Verfahrens war zu diesem Zeitpunkt ganz unstreitig die Maschine, die von ihrem unterwürfigen Benutzer das letzte an Selbstaufgabe verlangte - und sehr häufig auch bekam.

Angesichts der sperrigen Schnittstellen zwischen dem Menschen und dem Computer lag es auf der Hand, daß die Operationen, mit denen man die Maschine betraute, stets von der Art waren, daß die Eingabe der Daten im Vergleich zum Rechenbedarf einen nur vergleichsweise geringen Arbeitsaufwand bedeutete, die Operationen also weitgehend redundant waren. Angesichts dieser Arbeitsweise muß es insbesondere dem Geisteswissenschaftler heute sehr merkwürdig vorkommen, daß man ausgerechnet die leistungsfähigeren dieser sperrigen Maschinen auch noch mit der Bezeichnung "Superhirn" titulierte.

Bereits zu diesen frühen Zeiten gab es unerschrockene Männer und vereinzelt auch Frauen, die die Möglichkeiten dieser stocksteifen, ausgesprochen unflexiblen Maschinen auch für die Verarbeitung von größeren Textmengen einzusetzen versuchten. Von diesen, nahezu ausschließlich an den Universitäten initialisierten Unternehmungen, zeugen häufig noch die in den Fakultätskellern lagernden Kisten mit Lochkarten, die aus Gefühlen von Pietät mit der physischen Arbeit der Datenverarbeitungspioniere immer noch aufbewahrt werden, obwohl die Lochkarten selbst schon physisch kaum noch gelesen werden können.2) Angesichts des vergleichsweise hohen Speicherbedarfs und Papierverbrauchs waren zu diesem Zeitpunkt die Textdatenverarbeiter die natürlichen Feinde eines jeden Rechenzentrums, auch wenn sich die Situation mit dem verstärkten Aufkommen von Terminals, von höheren Plattenspeicherkapazitäten durch "Wechselplattentürme" und die Möglichkeit, Daten auf Magnetbändern dauerhaft "wegzuschreiben" und später wieder "zurückzuspielen", bereits leicht entspannte.

Selbst diese technischen Innovationen der späten siebziger und frühen achtziger Jahre führten nicht schlagartig zu einer Veränderung im Anwenderprofil für die Geisteswissenschaften. Große Textmengen im Computer zu halten, war nach wie vor die Ausnahme und die Verwendungsmöglichkeiten für diese Daten waren sehr eingeschränkt. Bei den Philologen waren es in erster Linie die Editoren und die Linguisten, die sich dieser neuen Möglichkeiten annahmen und ihre Texte in den Computer einlasen.3) Diese Texte konnten nun immer wieder, unter verschiedenen Gesichtspunkten, reproduziert und analysiert werden. War das angewendete Verfahren zur Datenhaltung bereits einigermaßen ausgefeilt, konnte auch eine Vorbereitung zur Publikation in Buchform aus den abgespeicherten Daten mit mehr oder weniger manueller Nacharbeit realisiert werden. Kannte man den Kollegen sehr gut, ließ sich auch auf der Basis eines persönlichen Kontakts ein Datenaustausch realisieren, so daß das Corpus der eingegebenen Daten auch in kleinem Kreis zirkulierte. Eine eigentliche elektronische Publikation dieser Daten erfolgte in der Regel nicht.

Neben den technischen Problemen, aber wohl auch als Folge dieser Probleme, hat sich der Publikationsmarkt im geisteswissenschaftlichen Bereich zunächst nicht verändert. Ziel aller Texterfassung war eine, wie auch immer geartete Bearbeitung der Daten mit dem Computer, die im Idealfall durch eine anschließende Publikation in einem traditionellen Printmedium abgeschlossen wurde. Eine elektronische Publikation scheiterte sowohl an den Kosten für die Speichermedien als auch an der extrem großen Inkompatibilität der damaligen Großrechner. Ein externer Zugriff auf die Daten eines anderen Rechners blieb, wo technisch überhaupt realisierbar, zu teuer und zu umständlich. Fragen des Copyrights sowohl der zugrundeliegenden als auch der elektronischen Texte stellten sich kaum, da eindeutig der wissenschaftliche Umgang mit den Daten im Vordergrund und kommerzielle Interessen von Verlagen angesichts der exklusiven Gemeinschaft einiger weniger Universitätsangehöriger4) nicht berührt waren.

Der Siegeszug der Personal Computer änderte zunächst wenig an diesem Bild. Zwar hatte sich mit einem Schlag die komplette Arbeitsumgebung für den Philologen, der gewillt war, die elektronische Datenverarbeitung in seine Arbeit einzubeziehen, geändert, und der technische Fortschritt bereitete auch in immer kürzeren Zyklen den Weg für einen wesentlich vereinfachten Umgang mit den elektronischen Daten. Die Austauschbarkeit und die Bereitstellung der einmal erfaßten Daten war nun zwar durch die Entwicklung immer leistungsfähiger und preiswerterer Disketten erleichtert, aber immer noch viel zu umständlich, um einen großen Markt zu erreichen.

1. Erste Text-Projekte in Deutschland

Das Schicksal von zwei der ersten großen Projekte in Deutschland, die elektronische Texte publizierten, illustriert die damalige Situation sehr gut. Es handelt sich hierbei um die Goethe-Werkausgabe von Helmut Schanze auf der Basis der Hamburger Ausgabe5) und um die Musil-Werkausgabe6) von Karl Eibl und anderen. Selbst die in diese Arbeiten angesichts der damaligen vielfältigen Beschränkungen investierten philologisch und technisch innovativen Elemente sind in der einschlägigen Fachwissenschaft angesichts der zügig voranschreitenden technischen Entwicklung nahezu völlig ignoriert worden, obwohl sie gerade für die heutige Diskussion über Datenpräsentation und Datenhaltung vielfach beispielhafte Lösungsansätze vorweggenommen haben.

Dies zeigt aber bereits eine der großen Gefahren auf, die der Philologie aus den elektronischen Möglichkeiten erwachsen. Wenn die Valenz eines elektronischen Produkts - in unserem Falle eines elektronischen Texts - abhängig ist vom jeweiligen Stand der Hard- und Software, wird das Produkt selbst zu einem schnellebigen Gegenstand, der immer weniger die in ihn investierte Arbeit rechtfertigt. Die traditionelle Kritik im Fach richtete sich gegen einen Vertreter, der nicht mehr auf dem aktuellen Stand der Diskussion in seiner Disziplin war; derjenige, der sich auf einem neuen Feld der Technik zu bewähren versucht, wird mit dem Vorwurf der Verwendung veralteter Versionen einer Software konfrontiert. Diese Vorgehensweise birgt ganz offensichtliche Gefahren für die Fachwissenschaft.

Ein Meilenstein für den Umgang mit maschinenlesbaren literarischen Texten kam für die Wissenschaftler durch die Weiterentwicklung der Textverarbeitungsprogramme, die weitere Verbilligung von Massen- und Arbeitsspeicherkapazitäten und - Gegenstand dieses Bandes - die Intensivierung der Vernetzung von Großrechnern mit Personal Computern bis hin zum Internet. Obwohl der Siegeszug des letzteren ohne die vorgenannten Entwicklungen nicht in dieser Form denkbar gewesen wäre,7) waren es die Möglichkeiten des unscharf als "Internet" bezeichneten weltweiten Datennetzes, das ohne große Vorkenntnisse dazu einlud, graphisch aufgemachte Daten ohne eine komplizierte Befehlssyntax auf den eigenen Computer zu übermitteln.

Auch wenn diesem Entwicklungsstand nur für eine kurze Zeit Erfolg beschieden war, so lohnt es sich in unserem Zusammenhang doch, noch einmal einen Schritt in der Entwicklung zurückzugehen und einen Blick auf die Anfänge der Vernetzung der Computer untereinander zu werfen. Bis die Browser, beginnend bei Mosaic bis hin zum Netscape Navigator oder zum Microsoft Internet Explorer, die "Arbeit" im Netz kinderleicht und unabhängig von EDV-Kenntnissen machten, bildeten die Gopher-Systeme für viele EDV-Nutzer den Einstieg in die Welt der vernetzten Computer, und sie nahmen im kleinen das vorweg, was die Browser später im großen taten. Diese einfachen Textsysteme, die zusammen mit dem File Transfer Protocol (FTP) gemeinsame Schnittstellen auf relativ niedrigem Niveau anboten, brachten viele Wissenschaftler dazu, ihre Daten der wissenschaftlichen Gemeinde allgemein darzubieten. Zum ersten Mal war es durch sie möglich geworden, gespeicherte Texte im Netz zu publizieren und ohne persönliche Betreuung weiterzugeben. Wenngleich heute nur noch wenige dieser Gopher-Systeme aktiv sind, so bilden doch die hier eingespeicherten und angebotenen Daten vielfach die Grundlage für das, was heute von ihren Nachfolgern im Internet angeboten wird.

Das Internet hat sich binnen weniger Jahre zu dem Medium entwickelt, an dem niemand mehr vorbeikommt, wie auch der vorliegende Band belegt. Der vereinfachte Zugang zum Netz, aber auch die verbesserten Möglichkeiten, sich dort zu präsentieren, haben vielerorts eine wahre Goldgräberstimmung - auch im wissenschaftlichen Bereich - ausgelöst, aber auch, um im Bild zu bleiben, zahlreiche Geisterstädte hinterlassen. Marshall McLuhans "globales Dorf" ist entstanden, hat sich aber binnen kurzer Zeit als eine Gegend erwiesen, in der eine hohe Mobilität herrscht und die Einwohner nur kurz verweilen. Im ersten Elan wurden Projekte mit hochgesteckten Zielen ausgerufen; die Möglichkeit zu publizieren, ohne sich den Beschränkungen eines Verlegers zu unterwerfen, ließen die Kontrollmechanismen der Zunft als lästige Barrieren der Vergangenheit erscheinen. Ein typisches Beispiel für diese Einstellung ist das an der Reed University beheimatete "Kassandra-Project. Visionary German Women Around 1800", das sehr früh die Publizität des Internets suchte. Diese Projekt versuchte seit 1995 ein Netz von Webseiten über deutsche Schriftstellerinnen, Künstlerinnen und Philosophinnen im Umkreis der Person von Karoline von Günderode aufzubauen. Die Homepage8) des Projekts zeigt heute mit der gleichen Offenheit auf, was erreicht wurde und was als Torso bestehen blieb. Ein Großteil der gegenwärtig etwa 9000 "Web Hits" dürfte dazu vermutlich noch auf die Meldung von der Einstellung des Projekts in Willard McCarthys Mailing Liste "Humanist"9) hin erfolgt sein. Symptomatisch in unserem Zusammenhang ist nicht das einstweilige Scheitern dieses Projekts - dieses Schicksal teilt es mit vielen andern aus vielerlei Gründen - symptomatisch ist, daß im Internet dieses Scheitern zum öffentlichen Akt wird. Während bei traditionell organisierten Projekten erst die Endergebnisse, oder zumindest präsentabel erscheinende Zwischenergebnisse, publiziert werden, bedeutet die Erarbeitung eines Projekts im Internet, daß alles von der ersten Sekunde an publiziert wird, gegebenenfalls mit den aufgezeigten Folgen. Projekte, die stillschweigend nach der Förderungshöchstdauer eingestellt wurden, standen nun als Torsi für jedermann sichtbar da, bis eine mildtätige Seele am Universitätsrechenzentrum den Server abschaltete und nur noch ein "Error 401 - File not found" den endgültigen Abschluß der Arbeiten signalisierte.

Im weiteren Verlauf dieses Aufsatzes soll daher nun die Frage im Vordergrund stehen, wie man die dauerhafteren und langfristig erfolgreicheren Projekte unter den im Internet angesiedelten finden und nutzbar machen kann. Bei der Anzahl der gegenwärtig existierenden Web-Seiten kann an dieser Stelle natürlich keine Auflistung aller für Germanisten relevanten Seiten stehen. Vielmehr soll versucht werden, einige Suchstrategien zu vermitteln, die dem jeweiligen Interessenten einige von vielen möglichen Wegen aufzeigen, das Gesuchte im Netz auch zu finden.

2. Der Zugang über "Suchmaschinen"

Eine der naheliegendsten Möglichkeiten zum Auffinden von Textangeboten sind die sogenannten Suchmaschinen oder Webcrawler, die eigenständig das weltweite Internetangebot durchsuchen und die gefundenen Seiten indizieren. Auf diese Indizes greifen die Maschinen anschließend für die Suchanfragen der Benutzer zurück. Im Gegensatz zu den vielfältigen Beteuerungen der Betreiber, schaffen es diese Maschinen aber längst nicht mehr, alle verfügbaren Web-Seiten in der zur Verfügung stehenden Zeit auszuwerten. Schätzungen gehen heute davon aus, daß nur noch etwa ein Drittel bis ein Fünftel des Angebots berücksichtigt werden kann, Tendenz fallend. Der technische Fortschritt auf der einen Seite wird durch das ständig wachsende Angebot auf der anderen mehr als aufgehoben.10) Die "Treffer" der Maschinen sind, je nach verwendetem Suchalgorithmus, zudem abhängig von der Plazierung bestimmter indizierbarer Wörter innerhalb der Web-Seite. Auch wenn die Suchmechanismen nur zu einem geringen Teil in der Lage sind, zuverlässige Suchergebnisse bezüglich des gesamten Internetangebots zu liefern, stellen sie dennoch die beste Möglichkeit dar, aktuelle Seiten zu ermitteln. Aus diesem Grund sollen hier zunächst einige der wichtigsten Suchmaschinen und ihre Eigenarten vorgestellt werden.

Hierbei ist zu unterscheiden zwischen reinen Suchmaschinen, die lediglich das World Wide Web nach bestimmten Kriterien durchsuchen und solchen Anbietern, die darüber hinaus auch bereits redaktionell bearbeitete Link-Sammlungen anbieten. Unter diesen Sammlungen findet sich in der Regel auch die Rubrik "Literatur" bzw. "literature", in der dann unter anderem retrospektiv erfaßte Volltexte aus dem Bereich der Literatur verzeichnet sind. Der Wert dieser redaktionellen Seiten hängt stark vom Engagement der jeweiligen Betreiber ab, wobei der Benutzer sich immer darüber im klaren sein muß, daß die Aktualität dieser Links deutlich hinter den reinen Suchmaschinen zurückfällt und auch eine Vollständigkeit nicht einmal im Ansatz gewährleistet werden kann.

Eine der interessantesten, aber auch der unbekanntesten Suchmaschinen ist All-In-One,11) die strukturiert nach Interessensbereichen andere Suchmaschinen auswählt und so eine detailliertere Suche ermöglicht. Bei "All-In-One" werden redaktionell bearbeitete Link-Seiten nicht angeboten. Die Funktionsweise des Suchdienstes "Metacrawler" ist ähnlich strukturiert. Diese Maschine "fragt" selbständig andere Suchmaschinen ab, wobei die Trefferliste häufig reichlich interpretationsbedürftig ist. Der Suchdienst "Altavista" bietet nach meiner Erfahrung auf seiner internationalen Seite auch für deutsche Angebote eine sehr leistungsfähige Suchoption an. Allerdings gibt es auch hier nur sehr eingeschränkte Möglichkeiten, die Suchanfrage so zu strukturieren, daß eine aussagekräftige Trefferliste entsteht.

Die Suchmaschine "Yahoo" bietet sowohl eine deutsche als auch ein amerikanische Adresse.12) Dies ist um so interessanter, als "Yahoo" neben der normalen Suchfunktion auch eine auf den jeweiligen Sprachgebrauch abgestimmte redaktionelle Literaturseite anbietet. Es genügt allerdings nicht, auf der Suche nach deutschen Texten nur die deutsche "Yahoo"-Site abzufragen, da deutsche Angebote auf amerikanischen Servern in der Regel nur auf den amerikanischen Link-Seiten angeboten werden.

"Lycos" bietet bei seiner Suchmaschine ebenfalls eine deutsche und eine amerikanische Site13) mit redaktionellem Teil, wobei hier die Navigation zum Link "Bildung" eher weniger gelungen scheint. Trotz allem findet man auch hier, wenn man alles richtig gemacht hat, einen Hinweis auf die an der Universität Erlangen gepflegte Linkliste "Germanistik im Internet" - bei "Lycos" als "übersichtlicher Index für Fach- und Hobby-Philologen" charakterisiert - mit weiterführenden Adressen. Der Vollständigkeit halber soll hier bei den internationalen Suchmaschinen lediglich noch auf "Excite"14) verwiesen werden, die ebenfalls eine deutsche Web-Site und redaktionelle Link-Listen, allerdings aus dem kommerziellen und Freizeitbereich, bereitstellen.

Für unsere Fragestellung haben die eigenständigen deutschen Suchmaschinen - wenngleich unter der oben gemachten Einschränkung - durchaus Vorteile. "Dino-Online" verbindet sowohl eine Suchmaschine mit einer großen Zahl redaktionell bearbeiteter Link-Listen, darunter auch "Kunst und Kultur/Literatur" mit den Unterstichpunkten "Allgemeines und Übersichten", "Projekte", "Schriftsteller" und "Virtuelle Literatur", die jeweils mehr oder weniger gültige Link-Listen enthalten. Ähnlich, wenngleich ohne strukturierte, redaktionelle Seiten arbeitet "Aladin", wobei Stichproben ergaben, daß ein relativ hoher Anteil der gefundenen Links nicht mehr aktuell war. Der "Web"-Dienst verfügt zwar unter der Rubrik "Das Wichtigste auf einen Blick" über eine eigene Seite zur Germanistik, diese kann aber keinen gehobenen Ansprüchen genügen.15) Bei "Crawler" wird die Suche nach Stichworten durch einen Einblick in den Index unterstützt, d.h., bei einer erfolgreichen Suche kann man die erfaßten Erweiterungen des Suchbegriffs gleich mit ansehen, z.B. bei "Goethe" auch "Goethehaus".

Praktische Tests, auch über einen längeren Zeitraum hinweg, haben gezeigt, daß gerade einige der großen Unternehmungen auf diese Weise nicht gefunden wurden, wobei die Gründe sicherlich auch in der Selbstindexierung der Seiten durch die Betreiber, in erster Linie aber in den Suchstrategien der großen Suchmaschinen liegen. Wonach aber soll man dann suchen? Die Begriffe "Text" oder "Literatur" sind zu ambivalent, als daß sie zu einem brauchbaren Ergebnis führen würden. Der Autorennamen als Suchbegriff führt - neben den oben angeführten Problemen mit den Suchmaschinen - häufig zu viel zu großen Treffermengen,16) die dann nicht mehr ausgewertet werden können. Eine Eingrenzung der Trefferzahl durch eine Verfeinerung der Suche, beispielsweise durch die Hinzufügung weiterer Suchwörter, führt wieder zu dem Problem, daß alle diese Begriffe in der Suchmaschine indexiert sein müßten, um als Treffer in Frage zu kommen. Um aus diesem Dilemma herauszukommen gibt es gegenwärtig keinen Königsweg. In vielen Fällen wird die "wilde Suche" nach einem Autor über die Suchmaschinen die einzige Möglichkeit sein, zu entlegenen Textquellen zu kommen. Handelt es sich um Autoren, die dem geläufigen Kanon angehören, stehen die Chancen für den Nutzer nicht schlecht, Texte in einer der größeren, dann meist auch langfristiger angelegten Sammlungen zu finden.

3. Textarchive als Langzeitspeicher

Aus diesem Grund soll hier ausführlicher auf eine Einrichtung eingegangen werden, die die Entwicklung der elektronischen Texte fast von Anfang an in allen Stationen durchlaufen hat und aus diesem Grund für Philologen eines der interessantesten Angebote zur Verfügung stellen kann - das "Oxford Text Archive" (OTA).17) Das Oxford Text Archive wurde 1976 von Lou Burnard gegründet und verfügt somit heute über 20 Jahre Erfahrung mit dem Archivieren elektronischer Texte - insbesondere auch mit den dabei auftretenden Problemen. Gegenwärtig sind beim OTA etwa 2500 elektronische Texte unterschiedlicher Länge und Provenienz abgespeichert und können von dort auch unmittelbar oder über Anfrage heruntergeladen werden. Im Gegensatz zu vielen anderen Einrichtungen und Einzelpersonen, die elektronische Texte bereitstellen, legt das OTA größten Wert auf die Qualität der Texte, wozu in erster Linie eine ausführliche Dokumentation der Vorlage gehört. Seine erzieherische Aufgabe sieht das Archiv zudem darin, auf die Einsender solcher Texte hinzuwirken, gewisse Mindestanforderungen zu erfüllen. Seit vielen Jahren bemüht sich Lou Burnard im Rahmen seiner Arbeiten, Codierungsstandards bei der Texterfassung durchzusetzen, nicht zuletzt im Zuge der Bestrebungen der "Text Encoding Initiative".18) Das OTA bietet verschiedene Suchmöglichkeiten innerhalb seiner Bestände sowie zusätzlich die Suchhilfe "Bookstack",19) die einen eigenen Index von "On-Line"-Büchern auswertet. In diesem Zusammenhang sei auch auf "Alex"20) hingewiesen, der elektronische Texte indiziert und, wenngleich in seiner Form ein wenig veraltet, dennoch immer noch gute Dienste leistet.

Eine ähnliche Zielsetzung wie das OTA verfolgt die Bibliothek der University of Virginia mit Ihrem "E-Text"-Projekt,21) das in seiner jetzigen Form seit 1992 besteht. Auch hier sind die Mitarbeiter bestrebt, den Standard SGML durchzusetzen, um den Wartungsaufwand bei der Datenmigration der etwa 20000 Texte auf Rechner einer neuen Generation zu minimieren. Ein Teil dieser Texte ist nicht unmittelbar online abrufbar, sondern muß über gezielte Anfragen angefordert werden. Bemerkenswert ist auch die Link-Sammlung zu den verschiedenen Sprachen. Viele dieser Links der größeren Anbieter sind redundant, sichern aber dadurch in gewisser Weise bei einer Adressenänderung weiter den Zugang zu den Texten, da höchstwahrscheinlich zumindest einer der Anbieter den Adressenwechsel rechtzeitig in seiner Link-Sammlung berücksichtigt hat. Ebenfalls an der University of Virgina befindet sich die "Western European Specialists Section" (WESS),22) unter anderem mit Verweisen auf Angebote zu deutschsprachiger Literatur.

Die bekannteste Sammlung elektronischer Texte ist zweifellos das "Project Gutenberg" von Michael Hart und seine deutsche Ergänzung das "Projekt Gutenberg-DE. Die digitale Bibliothek" von Gunter Hille. Beide Unternehmungen leben vom hohen persönlichen Engagement ihrer Betreiber, aber auch dem der zahlreichen Zulieferer. Während Michael Hart bereits 1971 mit einem 100 Millionen Dollar "Rechenzeitstipendium" seine Arbeit begann, rief Gunter Hille das deutsche Pendant erst 1993 ins Leben, als sich der HTML-Standard herauskristallisierte. Beiden Projekten ist gemein, daß die Zielsetzung darin besteht, Texte, für die das Copyright erloschen ist oder deren Copyright abgetreten wurde, einer breiten Nutzergemeinde zur Verfügung zu stellen.23) Auf eine direkte Abbildung der ursprünglichen Vorlagen zum Zwecke der Zitierbarkeit wurde dabei keinen Wert gelegt. Die hohen Zugriffszahlen bei beiden Projekten geben den Initiatoren dabei zweifelsohne bezüglich ihrer Konzeption recht. Die auf den ersten Blick anonymen Einsender und die gedruckte Quelle der Texte werden in der Regel sichtbar, wenn man am Browser die Option "Seitenquelltext" aufruft und sich den Header der HTML-Datei ansieht.

Eine weitere größere Sammlung elektronischer Texte findet sich im "E-Text-Archiv", wo sich auf einer eher weniger literarisch ausgerichteten Homepage Informationen über in elektronischer Form vorliegende Texte finden. Die Texte selbst sind auf einer CD-ROM gespeichert, die recht günstig über den Betreiber der Homepage erworben werden kann.

An der Universität Gießen findet sich eine größere von Magnus Müller zusammengestellte Liste deutscher Gedichte unter dem aussagekräftigen Titel "Willkürliche Auswahl deutscher Gedichte", in der die Texte von nahezu 500 Gedichten vorliegen. Eine kleine, aber sehr schön illustrierte Sammlung deutscher Gedichte und Märchen findet sich an der Virginia Commonwealth University in der Rubrik "19th-Century German Stories". Wer seinen "Struwwelpeter" oder "Max und Moritz" nicht mehr findet hat hier die Gelegenheit, Kindheitserinnerungen aufzufrischen. Eine gute Sammlung deutscher Gedichte bietet die "Literature online. Deutsche Lyrik der Jahrhunderte" an der Carleton University. Leider finden sich hier auch im Header zu den Texten allenfalls Hinweise auf den Einsender, nicht aber zur Textgrundlage des Werkes.

Der Vollständigkeit halber soll an dieser Stelle noch auf die umfangreiche, gut gegliederte Link-Sammlung zu "British and Irish Authors on the Web" hingewiesen werden, die auch für Germanisten durchaus von Nutzen sein kann.

4. Sonstige Online-Texte in Auswahl

Im folgenden sollen noch einige Web-Angebote zu einzelnen Autoren vorgestellt werden, wobei selbstverständlich kein Anspruch auf Vollständigkeit angestrebt werden kann. Andererseits wird die Auswahl von der Hoffnung getragen, daß diesen Seiten eine längere Existenz beschieden ist. Passenderweise an der Universität Tübingen angesiedelt ist ein Projekt, das sich Leben und Werk des Dichters Friedrich Hölderlin widmet. Bei diesem übersichtlich gegliederten Angebot, das neben den Volltexten der Werke auch Informationen zur Person und zur Hölderlin-Forschung enthält, wurde darauf geachtet, daß die Vorlage für den digitalen Text zumindest erkennbar bleibt. Verwiesen sei bei dieser Quelle, die noch nicht abgeschlossen ist, besonders auf das gute Link-Verzeichnis, das unter anderem auf Texte weiterer Autoren verweist. Eine ähnliche Seite zu Franz Kafka enthält, allerdings auch hier ohne Quellenangabe, die Texte des "Prozesses" sowie des "Schlosses und anderer Geschichten". Das Heilbronner Kleist-Archiv hat inzwischen damit begonnen, Texte des Dichters im Volltext anzubieten. Der Text von "Effi Briest" wird von Jörg Steinbrenner auf seiner Homepage in zwei Formaten angeboten. Reinhard Wissdorf stellt unter "Wissdorf Online" einige klassische und zeitgenössische Kurzgeschichten bereit.

Der Vollständigkeit halber muß hier auch auf einige kommerzielle Angebote eingegangen werden. Die angesprochenen Probleme mit Links, die auf nicht mehr verhandene Internet-Seiten verweisen, haben zu Überlegungen geführt, auch im elektronischen Bereich zu dauerhafteren Lösungen zu kommen. Im Bereich der Printmedien waren es die Verlage, die über die Produktion, Lagerhaltung und den Vertrieb der Bücher, wo nicht für eine dauerhafte, so doch für eine langfristige Datensicherung gesorgt haben. Mit dem self publishing im Internet schien diese langfristige Sicherung zunächst gefährdet. Inzwischen haben aber viele Verlage ihre Rolle als Wissensvermittler neu definiert und den elektronischen Markt als Chance erkannt. Neben der Produktion von CD-ROMs parallel zur traditionellen Buchpublikation sind inzwischen einzelne Verlage dazu übergegangen, unmittelbar online zu publizieren. Exemplarisch soll hier auf das für unsere Fragestellung einschlägige Angebot des Marktführers in diesem Bereich, Chadwyck-Healey, hingewiesen werden. Die erste Produktion, mit der dieser Verlag auf dem deutschen Markt aus dem Bereich der Insider-Produktionen, wie zahlreicher Mikro-Fiche-Ausgaben, herausgetreten ist, war 1996 die Präsentation der CD-ROM mit der Weimarer Ausgabe von Goethes Werken.24) Auch wenn diese CD zu einem respektablen Preis angeboten wurde, haben dennoch zahlreiche Bibliotheken sich für eine Anschaffung entschieden und damit sichtbar auch ein neues Zeitalter der Informationsbereitstellung in wissenschaftlichen Bibliotheken eingeleitet. Inzwischen ist die CD-ROM besonders im angelsächsischen Raum eindeutig als Übergangsmedium erkannt - die deutschen Erwerbungsstrategien verzögern hier offenbar noch diese Erkenntnis - und der Wechsel zur Online-Information in den Vordergrund gerückt worden. Der Verlag hat dieser Forderung Rechnung getragen und bietet seit geraumer Zeit die Goethe-Ausgabe auch Online auf einer Subskriptionsbasis an.25) Der Vorteil der Online-Ausgabe gegenüber der CD-ROM ist für Bibliotheken offensichtlich, da für die Pflege der Daten bei diesem Angebot ausschließlich der Verlag verantwortlich ist und technisches upgrading der Hardware die Lauffähigkeit der Datenbank nicht beeinflußt. Zudem werden bei der Online-Ausgabe ständig Erfassungsfehler der Bearbeiter korrigiert.

Ein neueres Produkt, das besonders für Germanisten interessant werden dürfte, ist "Die deutsche Lyrik im WWW", die sich gegenwärtig erst im Aufbau befindet, aber bereits auf Subskriptionsbasis abrufbar ist. Die "deutsche Lyrik" soll am Ende die Werke von über 100 deutschsprachigen Autoren des 17. bis 20. Jahrhunderts umfassen. Die Texte der Gedichte, die in der Datenbank enthalten sind, beruhen auf einer Auswahl, die sich auf Gero von Wilpert / Adolf Gühring, "Erstausgaben deutscher Dichtung" (Stuttgart 1992) stützt, und sind nach Stichworten und Autoren recherchierbar. Ebenso wie beim zweiten großen Literaturprojekt, "Literature Online", das im Prinzip eine Zusammenfassung von etwa 250000 Werken der englischsprachigen Literatur auf unterschiedlichen Servern ist, besteht die Arbeit des Verlags darin, die Informationen einheitlich zu präsentieren und dauerhaft abrufbar zu halten.26)

Zum Schluß soll noch auf einige ausgewählte, aber keineswegs repräsentative Angebote auf CD-ROM eingegangen werden. Mit "Nietzsche Werke. Historisch-kritische Ausgabe"27) liegt der komplette Text der Nietzsche Studienausgabe vor, vertrieben, aber nicht produziert, von dem Verlag, der auch die dem elektronischen Text zugrundeliegenden Printmedien im Angebot hat. Die von Leonhard Friedrich und Sylvia Springer bearbeitete CD-ROM zu "Sämtlichen Werken und Briefen"28) Pestalozzis bietet durch ihre Suchfunktionen ebenfalls einen schnellen und gezielten Zugriff auf das umfangreiche Werk des Pädagogen und Philosophen. Während diese beiden CDs in erster Linie eine reine Textpräsentation bieten und sich durch Präsentation und Ladenpreis eindeutig an eine akademische Nutzerschaft wenden, erscheinen in der jüngeren Zeit immer häufiger "Edutainment"-CDs, die die neuen multimedialen Möglichkeiten auch der PCs nutzen. Zum Heine-Jahr erschien "Heinrich Heine. Zeit - Leben - Werk"29) mit dem vielversprechenden Zusatz auf der Hülle "Erstmals alles von und über Heinrich Heine auf CD-ROM". Als Zielgruppe wird deutlich sichtbar für den Käufer der Bereich "Jugendliche und Erwachsene" anvisiert, was auch bereits erste Rückschlüsse auf die zu erwartende Präsentation bietet. Immerhin findet sich aber neben didaktisch aufbereiteten Spielereien auch der elektronisch recherchierbare Text der Heine-Gesamtausgabe. Noch intensiver auf der multimedialen Schiene arbeitet die "Multimedia CD-ROM Martin Luther",30) die eine "interaktive Reise durch Leben und Schaffen des Reformators und die Ereignisse der Reformation" verspricht. Bei dieser CD stehen die eingespeicherten Texte eindeutig im Hintergrund.

Eine Gefahr, die im Umgang mit elektronischen Texten immanent vorhanden ist, auf die hier aber nicht weiter eingegangen werden kann, ist das Verhältnis zu den Texten selbst, wenn diese im neuen Medium präsentiert werden. Die Rezeption eines traditionellen Printmediums erfolgt in aller Regel über das Lesen, d.h., eine sukzessive kognitive Aufnahme eines Textes. Dies gilt selbst bei dem aus Zeitgründen oft vorgenommenen schnellen "Diagonal-Lesen". Bei elektronischen Texten läuft der "User" dagegen Gefahr, gar nicht erst zum "Leser" zu werden, wenn der Rezeptionsvorgang mit dem (neudeutschen) "Downloaden" abgeschlossen ist und Textbesitz an die Stelle der Textaufnahme tritt.

Im Rahmen dieses Aufsatzes wurden verschiedene Möglichkeiten aufgezeigt, sich literarische Texte, die in elektronischer Form vorliegen, zugänglich zu machen. Dennoch muß auch an dieser Stelle gefragt werde, welchen Sinn diese Texte, die oft mit großer Mühe und hohem Eigenengagement erfaßt wurden, für die wissenschaftliche Beschäftigung machen. Es braucht an dieser Stelle nicht eigens betont zu werden, daß diejenigen Wissenschaftler, denen der Umgang mit dem Computer als Arbeitsinstrument fremd geblieben ist, selbstverständlich auch auf die in elektronischer Form vorliegenden Texte nicht mit Euphorie reagieren werden. Was aber geben die Texte den übrigen Wissenschaftlern? Was passiert mit den Texten, die man sich auf den eigenen Computer lädt? Werden sie am Bildschirm gelesen oder druckt man sie sich in einer beliebigen Punktgröße aus, bevor man sie liest? Weshalb besorgt man sich dann nicht ein gedrucktes Buch, daß in der Regel als Paperback vorliegt? Oder liest man in erster Linie Texte, die im Buchhandel vergriffen sind? Nutzt man die Texte, um aus ihnen Zitate zu ziehen, mit denen man eigene wissenschaftliche Arbeiten vervollständigt, ohne die Zitate abtippen zu müssen? Es wird sehr schnell deutlich, daß, wie immer man diese Fragen beantwortet, die Qualität der Texte eine wesentliche Rolle spielt. Wer schon immer einmal wissen wollte, wer den Hund von Baskerville ermordete, wird keinen oder nur geringen Wert auf die Frage legen, auf welcher Ausgabe der digitalisierte Text beruhte. Wortschatzanalysen, Interpretationen des Textes oder andere wissenschaftliche Beschäftigungen müssen dagegen großen Wert auf die Qualität des Textes legen; hier kann es dem Wissenschaftler nicht gleichgültig sein, welche Qualität der Text hat. Sicherlich wird sich hier mit der Zeit die Spreu vom Weizen trennen. Einen Vorteil bieten im Internet gefundene Texte aber allemal. Wissenschaftler auf der ganzen Welt benötigen lediglich einen ans Internet angeschlossenen Computer, um sich einen Text zu besorgen, den die eigene Bibliothek auf traditionellem Wege kaum bereitstellen oder besorgen könnte, insbesondere wenn der Wissenschaftler in einem der sogenannten Entwicklungsländer lebt. Was ein Leser in Ländern mit einer ausgeprägten Bibliothekslandschaft mit solchen Texten anfangen kann, wird jeder für sich entscheiden müssen.

1) Der englische Begriff "batch" für Stapel verweist auf den virtuellen Stapel von auf Lochkarten gespeicherten Befehlen und Daten, die sukzessive abgearbeitet wurden.

2) Immer mehr zum Geheimtip für das Lesen ungewöhnlicher Formate entwickelt sich für Insider nicht etwa das Deutsche Museum in München, sondern das Bundeskriminalamt in Karlsruhe.

3) An dieser Stelle kann natürlich nicht geklärt werden, ob das von David Lodge in seinem unvergleichlichen Universitätsroman Small World, Harmondsworth 1985, 183ff. parodistisch beschriebene Beispiel so oder so ähnlich passiert ist oder nicht. Dort hatte ein Computerwissenschaftler das gesamte Werk eines noch lebenden Schriftstellers in den Computer eingegeben und diesem die Analyse seines Wortschatzes präsentiert - und damit eine Schreibblockade ausgelöst.

4) Generell muß festgehalten werden, daß fast alles, was hier gesagt wurde, sich ausschließlich im universitären Rahmen abspielte. Nur die Universitäten waren in der Lage - und gewillt - die teuren Anlagen und die Zeit für derartige akademische Projekte zur Verfügung zu stellen.

5) Goethe Werke. Hamburger Ausgabe. Elektronische Version. Bearb. von Helmut Schanze. Tübingen 1989. Diese Ausgabe wurde aus Kompatibilitätsgründen auf über 50 Disketten mit niedriger Schreibdichte ausgeliefert und erforderte zudem "Word Cruncher" als Retrieval-Software. Auch das Angebot des Bearbeiters, den lizensierten Nutzern (den offiziellen Käufern), die Daten alternativ zum Selbstkostenpreis auf einer CD-ROM anzubieten, erhöhten die Akzeptanz nur unwesentlich.

6) Robert Musil. Der literarische Nachlaß. Bearb. von Karl Eibl, Walter Fanta et al. CD-ROM und Handbuch. Reinbeck 1992.

7) Die Vorläufer des World Wide Web, nämlich das Arpa-Net oder die Datenfernübermittlung (DFÜ) per Modem über bestehende Telefonleitungen, funktionierten bereits über Jahre in der wissenschaftlichen Datenübermittlung, ohne daß ihnen auch ein größerer Publikumserfolg beschieden gewesen wären.

8) Der "einstweilige Abschlußbericht" und eine Dokumentation des in der Laufzeit Erreichten finden sich unter http://www.reed.edu/~ccampbel/tkp/ [gesehen am 30.6.1998]. Eine Anspielung auf die Namensgeberin des Projekts verkneife ich mir.

9) Nähere Informationen zu dieser sehr gut moderierten Mailing List findet sich unter http://www.princeton.edu/~mccarty/humanist/ [gesehen am 30.6.1998] oder http://www.kcl.ac.uk/humanities/cch/humanist/ [gesehen am 30.6.1998]. In dieser Mailing List werden auch immer wieder von den Betreibern neue Datenbanken angekündigt, so daß auch auf diesem Wege Zugang zu Texten gefunden werden kann.

10) Vgl. den Beitrag von C.M. Sperberg-McQueen in "Humanist" vom 7.10.1997, archiviert unter http://lists.village.virginia.edu/lists_archive/Humanist/v11/0313.html [gesehen am 30.6.1998].

11) Die Adresse für die Suche im WWW lautet: http://www.albany.net/allinone/all1www.html#WWW [gesehen am 30.6.1998] und für die Suche im gesamten Internet: http://www.albany.net/allinone/all1gen.html#General [gesehen am 30.6.1998]. Darüber hinaus führen Links zu weiteren Spezialanfragen.

12) Die deutsche Site findet sich unter http://www.yahoo.de/ [gesehen am 30.6.1998], die amerikanische unter http://www.yahoo.com/ [gesehen am 30.6.1998].

13) Die deutsche, etwas reißerisch aufgemachte Site findet sich unter http://www.lycos.de/ [gesehen am 30.6.1998], die amerikanische unter http://www-english.lycos.com/ [gesehen am 30.6.1998].

14) Die deutsche Adresse lautet http://www.excite.de/ [gesehen am 30.6.1998], die amerikanische http://www.excite.com/ [gesehen am 30.6.1998].

15) Die diesbezüglichen Erläuterungen von Dirk Jasper, Die Welt des Buches im Internet. Bibliotheken, Kataloge, Anbieter. Düsseldorf und München 1998, S. 24ff. sind, wie so manches in diesem Band, schlicht unrichtig.

16) Altavista liefert beim Stichwort "Goethe" über 150000 Treffer, darunter durchaus kuriose, läßt aber eine Auswertung von mehr als den ersten 2000 nicht zu.

17) Das Oxford Text Archive (http://ota.ahds.ac.uk) hat seine Benutzerschnittstelle erst vor kurzem den aktuellen Browser-Entwicklungen angepaßt und erscheint nun auch in angemessenem Äußeren. Unter der Adresse http://ota.ahds.ac.uk/about.html umreißt das OTA seine Funktion: "The Oxford Text Archive works to identify, collect, and preserve high-quality, well-documented electronic texts and linguistic corpora, which it then makes available to others."

18) Informationen über die TEI finden sich unter http://www.uic.edu/orgs/tei/ [gesehen am 30.6.1998]. Eine sehr gute deutsche Einführung in diese Problematik stammt von Fotis Jannidis, "Wider das Altern elektronischer Texte: philologische Textauszeichnung mit TEI", in: Editio 11 (1997), S. 152-177.

19) Diese Suchmaschine findet sich unter http://users.ox.ac.uk/~anat0010/bookstack/ [gesehen am 30.6.1998].

20) Die Adresse, die wie eine Internet-Adresse in das Adressfenster eingegeben wird, lautet gopher://rsl.ox.ac.uk:70/11/lib-corn/hunter [gesehen am 30.6.1998].

21) Dieses Projekt ist Teil der digitalen Projekte der Bibliothek, darunter auch digitale Bildarchive, und findet sich unter http://etext.lib.virginia.edu/ [gesehen am 30.6.1998].

22) Die Adresse lautet http://www.lib.virginia.edu/wess/ bzw. http://www.lib.virginia.edu/wess/germtext.html für die deutschen Seiten. [gesehen am 30.6.1998].

23) Michael Harts erste elektronischen Texte waren die amerikanische Unabhängigkeitserklärung und die Bill of Rights, bei Gunter Hille bildeten die Schwäbischen Volksmärchen den Einstieg in die digitalen Texte.

24) Goethes Werke auf CD-ROM. Weimarer Ausgabe. SGML-Datenbank. o.O. (Cambridge) 1995. Diese CD war nicht die erste Produktion dieser Art, aber sowohl der Migne (Patrologia Latina) als auch die English Poetry spielten auf dem deutschen Markt eine eher untergeordnete Rolle.

25) Die Adresse lautet http://goethe.chadwyck.co.uk/ [gesehen am 30.6.1998]. Die meisten Datenbanken des Verlags können auch für eine limitierte Zeit kostenlos getestet werden.

26) Über Nacht laufen beim Verlag eigene Suchmaschinen, die überprüfen, ob die angebotenen Links noch aktiv sind, so daß es hier im Prinzip nicht zu toten Links kommen kann. Dies heißt aber nicht, daß Informationen, die heute zugänglich waren, morgen nicht verschwunden sein können.

27) Nietzsche Werke. Historisch-kritische Ausgabe. Windows Version. Berlin, New York 1995. Vgl. hierzu auch meine ausführlichere Rezension, die prinzipielle Probleme dieser Literaturdarbietung anspricht, in Editio 10 (1996), S. 223-227.

28) Johann Heinrich Pestalozzi. Sämtliche Werke und Briefe auf CD-ROM. MS-DOS und Windows. Hg. vom Pestalozzianum Zürich. Bearb. von Leonhard Friedrich und Sylvia Springer. Osnabrück 1994.

29) Heinrich Heine. Zeit - Leben - Werk. 1 CD-ROM. Stuttgart 1997. Die CD ist von einem Autorenteam als Zusammenarbeit des Metzler Verlags mit dem Softwarehaus Heureka Klett und dem Süddeutschen Rundfunk entstanden. Dem Vernehmen nach sollen in diesem Rahmen weitere "Klassiker"-CDs produziert werden, wenn die nächsten Jubiläen anstehen.

30) Multimedia CD-ROM Martin Luther. Stuttgart o.J. (1996). Für diese CD, an deren Entstehen IBM im Rahmen des Projekts Luther Digital an der Lutherhalle Wittenberg erheblichen Anteil hatte, wurden Originalhandschriften eingescannt und medial erschlossen.


Stand: 25.1.99
Seitenanfang