zurück zum Inhaltsverzeichnis
Expertengespräch zur genetischen Textkritik im Bereich Musik

Das textgenetische Modell der TEI.
Impulsreferat im Rahmen des Expertengespräches zur genetischen Textkritik im Bereich Musik

von Joshua Schäuble

Vorbemerkung

Bevor ich im Folgenden versuche, Ihnen einen groben, möglichst wenig auf die technischen Details eingehenden Überblick zum „Textgenetischen Modell der TEI“ zu geben, gestatten Sie mir einen kurzen Hinweis zum Hintergrund meiner Erfahrungen mit diesem Modell. Ich arbeite als Wissenschaftlicher Mitarbeiter für Malte Rehbein (den ich heute hier vertrete) am Lehrstuhl für Digital Humanities der Universität Passau, wo ich für Kodierungs- und Visualisierungsaufgaben in einem DFG/NEH geförderten Kooperationsprojekt „Diachronic Markup and Presentation Practices for Text Editions in Digital Research Environments“ zuständig bin. Die drei kooperierenden Projektpartner sind in diesem Falle das Freie Deutsche Hochstift Frankfurt, von dessen Konzeption zur in Kürze erscheinenden digitalen Faust-Edition das heute präsentierte Modell wesentlich geprägt wurde, das Walt Whitman Archive der Universität von Nebraska Lincoln sowie drittens die Universität Passau in Zusammenarbeit mit Hans Walter Gabler, der uns textgenetische Daten aus dem Nachlass von Virginia Woolf und seine synoptisch-kritische Edition von James Joyces Ulysses aus dem Jahr 1984 zur Verfügung stellt.

In meinem Impulsreferat sollen Details der Kodierung (soweit möglich) ausgeblendet bleiben, dennoch möchte ich in einem ersten Schritt anhand sehr einfacher Beispiele erläutern, wie Textkodierung mit den XML-basierten TEI Guidelines grundlegend funktioniert. Schließlich ist es kaum möglich, ein Modell, das von der Funktionsweise bestimmter Technologien (hier TEI/XML) abhängt, zu erläutern, ohne dabei wenigstens basal auf diese Technologien einzugehen. Von diesen Grundlagen ausgehend möchte ich in einem zweiten Punkt auf die Neuerungen eingehen, die die Integration des textgenetischen Modells in die TEI-Guidelines ab Version P5v2 1 mit sich brachte. Dabei will ich vor allem auf die dokumentenorientierte Auszeichnung von Textzeugen (im Gegensatz zur bis dahin eher textuellen oder linearen Auszeichnung) eingehen, sowie auf die Möglichkeiten, den prozessualen Charakter der Textgenese in Form von Textstufen zu erfassen.

1. Textkodierung mit (XML)-TEI

Zunächst zu TEI, mit dem vermutlich die meisten der hier Anwesenden bereits eine Vorstellung verbinden, denn schließlich wurde MEI, mit dem auch Beethovens Werkstatt kodiert, analog zur TEI entwickelt. TEI steht also für die Text Encoding Initiative. Auf die Geschichte und Struktur dieser Organisation will ich an dieser Stelle nicht eingehen, relevant ist für uns, dass die TEI einen „de-Facto Standard“ zur Textkodierung geschaffen hat, der in den sogenannten TEI Guidelines beschrieben ist. Der Name „Guidelines“ unterstreicht meine Betonung auf „de-facto Standard“, denn auch wenn TEI als erste Wahl zur Textkodierung zu betrachten ist, so macht es die Komplexität der Aufgabenstellung unmöglich, einen eindeutigen und einheitlichen Standard im informatischen Sinne herauszugeben. Es handelt sich bei den TEI Guidelines also um Richtlinien zur Textkodierung, die in sogenannten „Proposals“ (Vorschlägen) erscheinen. Die Guidelines beinhalten seit Version P5v2 erstmalig ein Modell zur Kodierung von Textgenese und eben dieses soll heute besprochen werden. Zunächst jedoch sei demonstriert, wie die Textkodierung mittels TEI allgemein funktioniert.

Abb. 1: Virginia Woolf, A Sketch of the Past, MS Sg. 6, S. 3, Z. 14–17, Faksimile.

Hierzu ein kleines Beispiel: Sie sehen hier einen Ausschnitt aus einer Handschrift von Virginia Woolf. Es ist ein halber Absatz aus Segment 6 ihrer unvollendeten autobiografischen Notizensammlung A Sketch of the Past, an der sie von 1939 bis zu ihrem Suizid 1941 arbeitete. Für den überwiegenden Anteil dieses Textes liegen zwei Textzeugen vor: Ein Manuskript und ein von der Autorin selbst angefertigtes Typoskript. Das hier gegebene Beispiel entstammt, wie unschwer zu erkennen ist, dem Manuskript. Sie beschreibt an dieser Stelle einen potenziellen Heiratskandidaten ihrer Halbschwester Stella.

Diesen Text wollen wir mit TEI kodieren. Zunächst erfassen wir den Rohtext, sofern wir ihn entziffern können:

He went to Norway to fish; later perhaps they met,
in a completely formal way, at parties. Negotiations
were kept alive through my mother. All this
covered love & engagement & marriage with

Ein bloßes Transkript, also das Abschreiben der Glyphen in der richtigen Reihenfolge, gibt unserem Text im Digitalen jedoch noch keinen Mehrwert. Hierzu, und genau das ist der Sinn der Textauszeichnung, müssen wir das Transkript mit weiteren Informationen anreichern. Eine erste derartige Information, die jedes TEI-Dokument enthalten muss, ist die bloße Information, dass es sich beim gegebenen Transkript um ein TEI-Dokument handelt.

Dies gibt man durch Umschließung – im Deutschen spricht man auch von „Schachtelung“ – des Textes in vordefinierte „Elemente“, kenntlich gemacht durch spitze Klammern, an. Einige dieser Elemente sind, wie das hier angegebene <TEI> obligatorisch, beispielsweise um Metadaten (z. B. bibliografische Angaben) zu erfassen, andere beschreiben Struktur oder Semantik des individuellen Textes. Das gegebene Textfragment ist beispielweise Teil eines Absatzes. Absätze werden mit dem TEI Element <p> für paragraph kodiert.

Abb. 2: TEI-Grundstruktur.

Der gegebene Absatz (wir gehen für den Moment davon aus, er wäre vollständig) muss also von einem öffnenden und einem schließenden <p> bzw. </p> umgeben werden, um seinen Anfang und sein Ende zu markieren.

Analog können auch weitere strukturelle, dokumentarische und semantische Textmerkmale ausgezeichnet werden, in Abbildung 2 ist beispielsweise zu sehen, wie der dokumentspezifische Zeilenfall durch <lb/> -Elemente (engl. für linebreak) ausgezeichnet worden ist. Diese Zeilenumbrüche umschließen keinen Text, weswegen sie öffnendes und schließendes Element in einem sind. Man spricht von einem Standalone-Element, kenntlich gemacht durch das / (Slash) vor der schließenden Klammer. – Soviel zur grundlegenden Funktionsweise der Textauszeichnung mittels TEI.

Ein zweites Beispiel, das interessanter für den heutigen Kontext ist, soll uns der Auszeichnung von Textgenese einen Schritt näherbringen: Dem findigen Leser der Handschrift ist vielleicht aufgefallen, dass ich bei der Transkription zwei Stellen „ausgelassen“ habe (siehe Markierungen):

Abb. 3: V. Woolf, A Sketch of the Past, MS Sg. 6, S. 3, Z. 14–17, Faksimile, hervorgehobene Streichungen.

Hier nahm Virginia Woolf currente calamo Streichungen vor, Streichungen im Schreibfluss also. Sie strich die Formulierungen „by“ und „had a“. Nach der soeben erläuterten Funktionsweise der Textkodierung unter Kenntnis der richtigen Elementbezeichnung, können wir dieses Phänomen in TEI erfassen:

Abb. 4: TEI-Kodierung zu Abb. 3 mit Markup der Streichungen (rot hervorgehoben).

Wir fügen an den entsprechenden Stellen ein Element <del> für deletion an, welches den gestrichenen Text nestet. Mit „Attributen“, wie Sie sie beispielsweise zur Nummerierung der Zeilenumbrüche sehen, könnten wir diese Streichungen noch weiter qualifizieren, sie beispielsweise als „currente calamo“ kategorisieren.

All diese Beispiele, inklusive der Streichung, waren jedoch bereits vor P5v2 Teil der TEI-Guidelines umsetzbar. Fassen wir nochmals kurz zusammen, ehe wir zu den Neuerungen und damit zum Textgenetischen Modell der TEI kommen:

Was bietet die TEI? Zunächst einmal stellt die TEI ein Vokabular zur Auszeichnung und damit zur Anreicherung von linearem Text mit strukturellen, semantischen und dokumentarischen Informationen zur Verfügung. Mit Vokabular ist hier die Vorgabe von Element- und Attributnamen gemeint. Im gegebenen Beispiel hatten wir <p> für Paragraphen/Absätze, <lb> für den Zeilenumbruch mit dem Attribut „zahl“ für die Nummerierung sowie <del> für eine Streichung.

Die TEI stellt nun eine Vielzahl solcher Vokabeln und Schachtelungsregeln (welche Vokabel darf in welcher geschachtelt werden) zur Verfügung, um Texte verschiedenster Gattungen auszuzeichnen und mit Meta- und Korpusdaten zu verbinden. Ferner existiert ein umfangreiches Vokabular zum kritischen Edieren, das Ihnen beispielweise das Kenntlichmachen von Emendationen, editorischen Kommentaren und Apparat-Einträgen ermöglicht.

2. Das textgenetische Modell der TEI

Kommen wir nun zum eigentlichen textgenetischen Modell der TEI. Als erstes wollen wir uns hier die neuen Möglichkeiten zur dokumentenorientierten Auszeichnung (in Ergänzung zur bisher üblichen textuellen Auszeichnung) anschauen. Die Bedeutung des Dokumentes für die Auszeichnung textgenetischer Prozesse ist dadurch zu erklären, dass wir Textgenese überwiegend an den Spuren, die der Autor auf den Textzeugen hinterlässt, erörtern können. Es ist also zunächst wichtig, den Text und seine Struktur auf dem Dokument zu erfassen.

Abb. 5: Faksimile S. 44 des Tagebuchs (A-Fassung) von Anne Frank.

Um dies zu erklären, beziehe ich mich auf eine Handschrift aus Anne Franks Tagebuch. Etwas genauer handelt es sich um Seite 44 des ersten von drei überlieferten Büchern der A-Fassung. Die A-Fassung war nicht zur Veröffentlichung vorgesehen und ist intimer als die später entstandene B-Fassung, welche Anne Frank durch Überarbeitung der A-Fassung auf losen Blättern anfertigte, nachdem sie beschlossen hatte, eine Fassung ihres Tagebuches nach dem Zweiten Weltkrieg zu veröffentlichen. In Abbildung 5 sehen Sie einen Scan dieser Seite als Rastergrafik, ein Faksimile. Die TEI gibt nun ein XML-Vokabular, um die Textualität solcher Faksimiles (oder auch <sourceDocs> ) über die Rastergrafik hinaus auszuzeichnen. Das äußerste Element ist hierbei das <facsimile> (wahlweise <sourceDoc> ) Element, welches als Container für sämtliche erfassten Daten mit Dokumentenbezug steht. Das hier grün dargestellte <facsimile> ist dabei von der eigentlichen Oberfläche zu unterscheiden. Um dies zu verdeutlichen, stellen wir uns das Tagebuch so vor, wie es vor Anne Frank gelegen hat, als sie seine 44. Seite zu füllen begann.

Abb. 6: Faksimile S. 44 TB A. Frank.

Die Oberfläche, welche in TEI durch das in <facsimile> genestete Element <surface> ausgezeichnet wird (gelbe Markierung), beschreibt hierbei einen Bereich innerhalb des digitalen Faksimiles (grüne Markierung), der beispielsweise eine physische Einheit darstellt: in diesem Fall die Oberfläche einer zunächst leeren Einzelseite. Im selben Faksimile könnten mehrere (ggf. ineinander verschachtelte) Oberflächen unterschieden werden, wenn beispielsweise eine Notizseite oder ein Bild auf einen Zeugen aufgeklebt wird. Die Oberfläche <surface> ist also vom allgemeineren <facsimile>-Container zu unterscheiden.

Abb. 7: Faksimile S. 44 TB A. Frank.

Innerhalb einer solchen Oberfläche kann das Dokument nun in Zonen, in Form von <zone> -Elementen (vgl. blaue Markierungen) und Zeilen, in Form von <line> -Elementen (vgl. rote Markierung der Zeilen) unterteilt werden. Im gegebenen Beispiel füllte Anne Frank eine Zone, die etwas mehr als die Hälfte der Seitenoberfläche einnimmt, zeilenweise mit Text. Ob man Zeilen in Zonen nestet, Zeilen ohne Zonen direkt innerhalb des <surface> anlegt, oder gar, für eine noch feinere Granularität etwa auf Wortbasis, Zonen in Zeilen nestet, steht hierbei offen. Im gegebenen Beispiel würde man vermutlich den kohärenten Textbereich als eine Zone und darin genestet die einzelnen Zeilen auszeichnen. Innerhalb des <line>-Elements kann dann der Text transkribiert werden, oder von einem textuellen Transkript auf das <line>-Element verlinkt werden. Um die Unterscheidung dieser Elemente noch etwas klarer zu veranschaulichen, folgen wir den Spuren von Anne Franks Schreibprozess noch für einen weiteren Moment.

Abb. 8: Faksimile S. 44 TB A. Frank.

Nachdem dieser obere Bereich der Oberfläche mit Text gefüllt war, klebte Anne Frank einen Passbildstreifen ein. Wie dieser im Rahmen der TEI auszuzeichnen ist, bleibt eine editorische Entscheidung. Ich für meinen Teil würde ihn als eine weitere Oberfläche mit <surface>, genestet (da aufgeklebt) in dem <surface> der Seite, auszeichnen (gelbe Markierung um den Bildstreifen), es wäre aber auch denkbar, auf ein zweites <surface> zu verzichten und stattdessen eine <zone> zu verwenden. Innerhalb dieser gelb markierten Oberfläche könnten dann wiederum Zonen für die einzelnen Bilder kodiert werden (hier blau dargestellt).

Abb. 9: Faksimile S. 44 TB A. Frank.

Nicht auf dem in dieser Folie ausgeblendeten <surface>-Element des Fotostreifens, sondern auf dem umgebenden <surface> der Seite, finden sich nun weitere Zonen, die ihrerseits zeilenweise strukturiert werden können. Hiervon sind mehrere identifizierbar. Erwähnenswert ist vorausgreifend, dass zumindest für die Entstehung von Teilen dieser Beschriftungen keine chronologische Reihenfolge ersichtlich ist.
Insgesamt ergeben sich sechs Zonen, jeweils eine für die Beschriftung jedes Bildes des aufgeklebten Fotostreifens. Zusammen mit der ersten Zone für den Textbereich, die wir bereits zuvor identifiziert haben, ergeben sich so sieben Zonen auf dem <surface> der 44. Seite.

Abb. 10: Faksimile S. 44 TB A. Frank.

Auch wenn die Chronologie einiger dieser Zonen nicht genau bestimmt werden kann, so ist doch davon auszugehen, dass die Bilder eingeklebt wurden, nachdem der obere Text geschrieben wurde und ebenfalls können wir anhand der kleinen Pfeile darauf schließen, dass die Bilder beschriftet wurden, nachdem sie eingeklebt waren. Anne Frank selbst interessiert sich natürlich weder für diese Chronologie noch für die hier ausgezeichneten Zonen. Sie selbst unterscheidet in einem letzten Schritt, welchen Bereich sie vom Text abheben will, indem sie einen (in Abbildung 10 blau nachgezeichneten) Rahmen um den unteren Teil der Seite zieht, der diesen Bereich vom Text abheben soll. Wohlgemerkt: dies ist weder eine rechteckige Zone, noch eine Zone, die chronologisch vor den zuvor identifizierten Zonen festgelegt wurde. Man könnte (und ich würde sogar sagen: man sollte) diese Zone nun so kodieren, dass die kleinen Zonen für die Bildbeschriftung in der großen, später hinzugefügten, siebeneckigen Zone geschachtelt sind, obwohl diese Schachtelung dann nur das grafische Ergebnis, nicht aber die Genese der Zonen repräsentiert. Hierauf komme ich zurück, wenn ich die Erläuterung der grafischen Kodierung von digitalen Faksimiles abgeschlossen habe.

Einfügungen und Transpositionen

Zunächst aber wollen wir weitere am Zeugen identifizierbare Spuren der Textgenese und deren Kodierungsmöglichkeiten in TEI betrachten. Dabei soll es vornehmlich um Einfügungen und Transpositionen gehen.

Abb. 11: James Joyce, Ulysses, Typoskript V.B.6 (Ausschnitt) (Lestrygonians, LVL8D).

Hier sehen Sie einen winzigen Ausschnitt aus einem Typoskript von James Joyces Ulysses, aus dem achten Kapitel „Lestrygonians“. Joyce überarbeitet diese Typoskripte mehrfach handschriftlich. Hierbei kann es zu kleineren und größeren Eingriffen kommen. Im gegebenen Beispiel fügt er handschriftlich ein „A“ über den Punkt zwischen „more. Get“ (rot markiert) ein. Über der Seite schreibt er ebenfalls ein „A“ und fügt dort den Text „Fellow sharpening knife and fork to eat all before him, old chap picking his tootles. […]“ ein. (Als kleine Randnotiz: Man könnte sich natürlich fragen, ob dieses „A“ als Referenz der Verknüpfung überhaupt notwendig gewesen wäre. Der Pfeil allein hätte hier genügt, um zu wissen, wo die Einfügung hingehört. Joyce arbeitete jedoch sehr systematisch und er wusste um die Vielzahl seiner Einfügungen und die Unfähigkeit vieler Typisten, seine Anmerkungen korrekt umzusetzen.)
Dieses „A“ und den dazugehörigen (rot markierten) Pfeil bezeichnen wir als „Metamark“. Gehen wir davon aus, dass das eigentliche Typoskript als dokumentenorientiertes Transkript in Zonen und Zeilen vorliegt, wie wir es bereits am Beispiel Anne Franks gesehen haben. An der entsprechenden Textstelle kodieren wir nun ein <metamark> -Element wie hier eingeblendet. Logischerweise erhält es als Funktion die Einfügung (type=’insertion‘) und als Ziel einen Verweis auf die xml:id der Zone, mit welcher wir die Einfügung kodieren. Als Textknoten umschließt dieses <metamark> das eingefügte A. An anderer Stelle, genestet nach den projekteigenen Regeln unserer Edition, kodieren wir nun diese Einfügung als Zone mit mehreren Lines (siehe oberer Bereich, blau). Relevant zur technischen Verlinkung ist nun nur, dass diese Zone als xml:id-Attribut jene ID zugewiesen bekommt, auf welche wir mit dem <metamark>-Element verweisen, hier xml:id=’zoneA‘:

Abb. 12: James Joyce, Ulysses, Kodierung des Typoskripts aus Abb. 11.

Analog hierzu könnten auch Transpositionen kodiert werden, indem die beiden auszutauschenden Bereiche gekennzeichnet, mit der entsprechenden Funktion versehen und verlinkt werden.

Kodierung von Varianten (Alternative Lesarten)

Als letztes Beispiel möchte ich Ihnen die Kodierung von Varianten, sogenannter Alternativer Lesarten, ab TEI P5v2 zeigen. Hierzu habe ich Ihnen nochmals ein Beispiel aus Virginia Woolfs A Sketch of the Past mitgebracht, dieses Mal jedoch aus dem Typoskript des fünften Textsegmentes.

Abb. 13: Virginia Woolf, A Sketch of the Past, Typoskript Segment 5 Seite 2 (Ausschnitt).

Zunächst muss ich hierzu erläutern, was wir über das Typoskript zu wissen glauben: Es ist gewiss, dass Virginia Woolf dieses eigenhändig vom Manuskript abtippte. Sie sehen auf diesem Ausschnitt nun Hinzufügungen in zwei verschiedenen Händen: die eine in Virginia Woolfs Hand in Bleistift, die andere hingegen in Leonard Woolfs Hand, der den Text nach Virginia Woolfs Tod in blauer Tinte lektorierte. Denken Sie sich also für einen Moment die blaue Tinte weg. Was bleibt, ist das Satzfragment „she was severe, because she felt Stella ‚part of myself’“, über welches Virginia Woolf, ohne das Wort „severe“ zu streichen, „hard on Stella“ schreibt (in Bleistift); „she was hard on Stella“ stellt also eine Variante zu „she was severe“ dar. Virginia Woolf sollte sich nicht mehr für eine der beiden Varianten entscheiden, erst Leonard Woolf führt die Streichung aus und bestätigt die Variante „hard on Stella“, indem er sie nochmals in Tinte wiedergibt.

Eine Kodierung dieses Sachverhalts könnte in TEI etwa so aussehen, wie nachfolgend wiedergegeben:

Abb. 14: Virginia Woolf, A Sketch of the Past, Kodierung des Ausschnitts aus Abb. 13.

Wir finden erneut die bekannten Zonen und Zeilen. Innerhalb der zweiten Zeile markieren wir das Wort „severe“ als Textsegment ( <seg> ) und versehen es mit der xml:id=“alt1″ für die erste Alternative. Danach kodieren wir mit <add> eine Hinzufügung (auch eine <zone> wäre denkbar), welche die xml:id=“alt2″ für die zweite Alternative erhält. Mit einem <alt>-Element zeichnen wir nun den Zusammenhang dieser beiden Alternativen aus. Über das target-Attribut bringen wir alt1 und alt2 in eine Verbindung, die wir mittels mode="excl" als exklusiv beschreiben: Nur eine der beiden Varianten kann im Text stehen, da beide gleichzeitig keinen grammatikalischen Sinn ergeben. Mit dem weights-Attribut können wir nun den beiden Alternativen Gewichtungen (im Sinne von Wahrscheinlichkeiten) zuweisen. Folgen wir hierbei Leonard Woolfs Sicht der Dinge, so erhält Alternative 1 ein Gewicht von „0“ während Alternative 2 ein Gewicht von „1“ erhält. Man könnte im Zweifel mittels eines resp-Attributes (für responsibility) auszeichnen, dass diese Gewichtung die Sichtweise eines bestimmten Editors widerspiegelt.

Soviel als Einführung in die Auszeichnung Dokumente beschreibender Aspekte nach TEI P5v2. An einigen Stellen sprach ich bereits die Chronologie der Textentstehung an, ohne jedoch darauf einzugehen, wie diese im textgenetischen Modell der TEI festgehalten wird. Dies sei abschließend noch kurz erläutert:

Textgenetische Prozesse (Textstufen, Änderungskampagnen)

Abb. 15: Anne Frank, Faksimile S. 44 TB A. Frank.

Kommen wir noch einmal zurück zu dem Beispiel von Anne Frank. Sie erinnern sich an die zwei Hauptzonen. Auf die kleineren, darin genesteten Zonen möchte ich zur Vereinfachung jetzt nicht eingehen. Wir können die Annahme begründen, dass die untere Zone, bestehend aus einem Bildstreifen und 6 kleinen Zonen zur Beschriftung, nach der oberen Zone erstellt wurde und wir wissen, wie wir die Zonen in TEI kodieren können. Es gilt nun die Genese festzuhalten, sofern sie ermittelt werden kann. Hierzu kodieren wir zunächst die erste Zone etwa wie im Beispiel oben umgesetzt und weisen ihr ein sogenanntes change-Attribut zu. Dieses Attribut erhält als Wert die ID einer in den Metadaten beschriebenen Textstufe. Es handelt sich also um einen Verweis auf eine an anderer Stelle definierte Ordnung. Die Namen der IDs, hier „p44st1“ für „page 44 stage 1“ können selbst vergeben werden, es empfiehlt sich natürlich selbsterklärende, sogenannte „sprechende“ ID-Namen zu vergeben. Für Zone2 gehen wir analog vor (vgl. unterer Teil des Beispiels), wir verweisen nur auf eine andere in den Metadaten kodierte Textstufe mit der ID p44st2. (Verweise erkennt man im übrigen an dem Zeichen # zu Beginn des Attributwertes.) Als kleine Zusatzinformation: Wir wissen bereits aus den vorherigen Erläuterungen, dass die in Zone2 genesteten kleinen Zonen eigentlich vor der übergeordneten Zone entstanden sind, folgerichtig müssten diese eigentlich auf p44st2 bis p44st7 verlinkt werden, und die übergeordnete siebeneckige Zone erhielte dann p44st8 – aber wir verzichten hier auf diese genaue Wiedergabe. Ich erwähne dies dennoch, um zu verdeutlichen, dass die Zuordnung von Textstufen nicht der Schachtelung der Elemente entsprechen muss.

Wie Sie diese Textstufen nun in den Metadaten beschreiben und anordnen können, stellt folgender Kode dar:

Abb. 16: Kodierung der Textstufen aus Abb. 15.

In einem sogenannten <listChange>-Element sammeln Sie die einzelnen Textstufen, die mittels <change>-Elementen kodiert werden. Das <listChange>-Element erhält ein Attribut ordered=“true“, um anzugeben, dass die Reihenfolge der enthaltenen <change> -Elemente relevant ist und, wie in diesem Fall, die Chronologie vorgibt. Wir könnten hier auch ungeordnete <listChange> -Elemente in geordneten <listChange> -Elementen nesten. So können wir ausdrücken, dass wir für die kleinen Beschriftungen innerhalb der unteren großen Zone keine Genese bestimmen können, wohl jedoch für die großen Zonen zueinander. Mit weiteren Attributen könnten wir auch Daten für einzelne <change> Elemente festlegen, wo bekannt. Wichtig ist nun, dass die einzelnen Textstufen, also <change> -Elemente, identifizierbar sind. Sie erhalten als xml:id-Attribut den eindeutigen Namen, auf den wir auf der vorherigen Folie mittels Hashtag (#) verwiesen haben. Im jeweiligen <change> -Element können Sie nun in Prosa die Änderung beschreiben. Für die erste Textstufe beispielsweise „Anne filled half the page with text in black ink.“ und für die zweite „Anne glued pictures under the text and wrote a comment to each picture.“ Die Chronologie sollte jedoch nicht nur aus der Prosa, sondern aus der Ordnung der Listen hervorgehen!

Wir haben nun gesehen, wie sich die Textgenese am überlieferten Dokument mittels TEI beschreiben lässt. Als letzten kurzen Ausblick möchte ich noch ein kleines Beispiel aus Hans Walter Gablers aktueller Arbeit geben. Die bisherigen Beispiele zeigten Textgenese als einen Sachverhalt, den wir nur anhand der Spuren auf dem Dokument erschließen können. Problematischer wird es jedoch, wenn sich die Textgenese „zwischen den Dokumenten“, nämlich beim Übertrag von einem auf das andere Dokument vollzieht. Tatsächlich ist dies der „natürlichere Fall“, schließlich manifestiert sich die Textentwicklung zunächst im Kopf der Autorin und erst dann auf dem Dokument.

Abb. 16: Virginia Woolf, A Sketch of the Past, Seg5 MS S1 und TS S1 (Ausschnitte).

Im gegebenen Beispiel sehen Sie den selben Text von Virginia Woolf in zwei Fassungen auf zwei Zeugen. Oben das zuerst gefertigte Manuskript, darunter das im Anschluss von der Autorin eigenhändig angefertigte Typoskript. Die interessantesten textuellen Änderungen vollziehen sich nun eben nicht „sichtbar“ auf einem der beiden Dokumente, sondern im Prozess des Abschreibens im Kopf der Autorin. Virginia Woolf formuliert hier Sätze um, transpositioniert Formulierungen oder verschiebt ganze Absätze. Im abgebildeten Textsegment beschreibt sie, wie sie sich beim Überqueren des Kanals an ihre Halbschwester Stella erinnert. Sie ist hierbei keinesfalls planlos und versonnen, wie sie manchmal dargestellt wird. Sie hängt ebenso sehr an ihren Erinnerungen, wie sie an den wohlbedachten Worten hängt, welche diese Erinnerungen beschreiben. Der Moment des Erinnerns wird ebenso detailreich wiedergegeben, wie die Erinnerungen selbst. Die Wahrnehmungen, welche die beschriebenen Erinnerungen auslösen, sind also nicht willkürlich für Woolf, sondern ihrerseits eigene, wertvolle Erinnerungen. So wird im gegebenen Beispiel aus „with the boat train arriving, people talking loudly, chains being dropped“ bei der Transkription „with people quarreling outside the door, the boat train arriving; chains clanking“. Sie sehen selbst, dass die Invarianz, also die Worte, die in beiden Fassungen vorkommen, sehr groß ist, und doch ist der textuelle Eingriff schon bei diesem sehr einfachen Beispiel nicht einfach zu fassen. In einigen Fällen könnten wir Tilgungen und Hinzufügungen ganz einfach über die Dokumentengrenze hinweg kodieren. So wird beispielsweise das zweite „thinking“ des Manuskriptes im Typoskript ersatzlos getilgt (rote Markierung) oder ein „very“, das im Manuskript nicht vorhanden ist, wird beim Abschreiben hinzugefügt (blaue Markierung).

Hinzufügungen, Tilgungen und einfache Substitutionen konnten so von Hans Walter Gabler mittels halbautomatischer Kollation der beiden Zeugen identifiziert, von uns gemeinsam in TEI kodiert und anschließend visualisiert werden, womit wir uns erstmals dem textgenetischen Prozess, der sich in Virginia Woolfs Kopf abspielt, annähern können. Diese Arbeit erfordert jedoch eine nicht zu unterschätzende philologische Expertise bei der manuellen Steuerung der Kollationierungssoftware (in unserem Falle wird TUSTEP verwendet) und bei der aus den Ergebnissen erzeugten Kodierung in TEI. Gerade für komplexere Eingriffe (z. B. Kombinationen aus Transpositionen und Substitutionen) kommt hierbei sowohl die verwendete Kollationierungssoftware, als auch das textgenetische Modell der TEI in seiner momentanen Ausgestaltung an seine Grenzen.

Mit diesem Ausblick schließe ich die Vorstellung des textgenetischen Modells der TEI und fasse nochmals kurz zusammen: Mit dem textgenetischen Modell der TEI können Textzeugen strukturell in Oberflächen, Zonen und Zeilen erfasst werden. Einfügungen und Transpositionen können durch die Verbindung solcher Oberflächen, Zonen und Zeilen mittels sogenannter Metamarks ausgezeichnet werden. Ferner können in geordneten und ungeordneten Listen Textstufen/Entstehungsstufen in den Metadaten beschrieben werden, welche durch IDs mit den kodierten strukturellen Elementen verknüpft werden können.

So ist es einerseits möglich, die Ergebnisse der philologischen Untersuchung zur Textgenese zu formalisieren, und andererseits – eben Dank dieser Formalisierung – statistische Analysen und dynamische Visualisierungen aus den erhobenen Daten abzuleiten.

P5v2 steht für „Proposal 5, Version 2“. P5, Version 3 erschien im März 2016, also erst nach diesem Vortrag. Zu TEI P5v3 vgl. http://www.tei-c.org/release/doc/tei-p5-doc/en/html/.