Version vom 13. Februar 2025, 15:40 Uhr

Worum geht es: Wir kommen wir von einem transkribus-Export zu den finalen TEI-Daten?

Diskussionen zu Datenmodell, Kuratierung und Export

Inhaltsverzeichnis

1 Kontrolle
2 Transkribus-Export
3 Kuratierung des Exports
4 Datenanreicherung

Kontrolle

(wie stellen wir sicher, dass ein Band Exportreif ist? Was ist zu prüfen?)

Die ersten 3 Punkte (Vollständigkeit der Transkription, richtige Erfassung der Textregionen & Zeilen und Markierung der Sitzungs- und Eintragsstruktur) sollten vor einem ersten Export überprüft und korrigiert werden. Im Anschluss kann das Transkribus-Dokument exportiert und transformiert werden. Anhand des XML-Dokuments wird auch ein Kontrollbericht erstellt, der bei der weiteren Fehlersuche hilft.

Vollständigkeit der Transkription

Transkription augenscheinlich vollständig und "gut"?
Fragezeichen im Text, die noch zu klären sind? Können die noch gelöst werden? (ggf. Markierung als `unclear`)
Suche nach tag "unclear" um Unklarheiten in der Transkription direkt zu finden (Suche dabei auf Dokument beschränken)
Überflüssiges gelöscht?
- erstes Wort der nächsten Seite steht oft am unteren Seitenrand -> Zeile löschen, falls transkribiert!
- Nachträglich eingefügte Seitenzahlen müssen nicht transkribiert werden.

Erfassung der Textregionen & Zeilen

Titel und Überschriften(heading)
- Sitzungsnummer Teil des Titels, da sie sich auf die ganze Sitzung bezieht (Bsp. in Band 40)
Marginalien (marginalia)
- vor den Eintrag auf den sie sich beziehen, wenn sie als Überschrift/Kurzzusammenfassung fungieren
Absätze (paragraph, ggf. paragraph-continued)
Wenn eine Zeile nicht durch Export und Transformation kommt, dann fehlt vermutlich das Baseline-Element in Transkribus. Das Line-Element, das in Transkribus als Kasten/geschlossenes Polygon eine Zeile umfasst, reicht nicht.

Markierung der Sitzungs- und Eintragsstruktur

Zuständige Person/en aus der Tabelle übernommen?
Am Anfang einer Sitzung (type=session)
Am Anfang eines Eintrags (type=entry nicht zwingend notwendig, ohne type wird der Abschnitt in der XSLT-Transformationen als entry erkannt)
Am Anfang des Sitzungsabschlusses (type=closer)

Textauszeichnung

Alle Personen, Orte, Berufe und Institutionen ausgezeichnet?
- Keys vergeben?
- Suche nach Registertags (person, place, organization, occupation) und Ergebnis nach Eigenschaften sortieren (Suche dabei auf Dokument beschränken)
Alle Textphänomene ausgezeichnet?
- durchgestrichen
- unterstrichen
- fett
- hochgestellt
- tiefgestellt
- Abkürzungen

Transkribus-Export

Oben links auf das "Export Document"-Icon klicken (gelber Ordner mit grünem Pfeil nach rechts). In dem sich dann öffnenden Fenster oben links von "Server export" auf "Client export" wechseln.

Über "Client export" exportiert man es im "Transkribus Document" Format und bei "Export page" wählt man nur "Export Page" aus:

Transkribus Export

Beim Client-Export entsteht standardmäßig ein Ordner mit dem Dokumentnamen (B_01_01-[Bandnummer]). Beim Export als "Transkribus Document" befindet sich in diesem Ordner ein Unterordner, der gleichfalls nach dem Dokumentnamen benannt ist. Darin sind die Daten enthalten ("mets.xml", "metadata.xml" und der Unterordner "page" mit XML-Dateien (eine pro Dokumentseite).

Der gegenwärtige Stand des Exportworkflows sieht vor, dass man das Xproc-Skript `Transkribus2TEI.xpl` auf das `mets.xml` eines Bandes anwendet. Durch die Transformation entsteht ein XML-Dokument mit der xml-kodierten Transkription des Bandes und ein Kontrollbericht mit einer kurzen statistischen Auswertung und einer Liste automatisch erkannter Fehler.

B_01_01-##
- B_01_01-##
  - mets.xml
  - metadata.xml
  - page
    - B_01_01-##-0001.xml
    - B_01_01-##-0002.xml
    - etc.
- Band_##.xml
- Band_##_ControlReport.html

Siehe die Bände in CC-GitLab-Repository für die nächsten Arbeitsschritte und die entsprechenden Readme.md Dateien für weitere Informationen zur Ordnerstruktur.

Kuratierung des Exports

Die Tags in Transkribus (strukturelle und textuelle) müssen einheitlich verwendet werden!
Die bestimmten Kombinationen von Tags können zu unerwarteten Problemen führen (z. B. in Person-Tag wird einen Place-Tag verwendet, der über zwei Seiten hinausgeht o.ä.) Ähnlich sieht es mit neuen Tags aus, die in den Workflow vor kurzem eingeführt wurden, aber in XSLT-Skripten noch nicht beachtet werden. Solche Phänomene bzw. Probleme müssen entdeckt und behoben werden.
Die Daten müssen am Ende nach TEI valid sein. Die Fehlermeldungen in Oxygen helfen, verschiedene Phänomene bzw. Probleme zu entdecken. Wenn sie vorkommen, dann müssen die XSLT-Skripte angepasst oder neue zusätzliche geschrieben werden.

Datenanreicherung

Die XML-TEI-Daten liegen in CC-GitLab-Repository in entsprechenden Band-Ordnern

@@ Zeile 6: / Zeile 6: @@
 (wie stellen wir sicher, dass ein Band Exportreif ist? Was ist zu prüfen?)
-Die ersten 3 Punkte (Vollständigkeit der Transkription, richtige Erfassung der Textregionen und Markierung der Sitzungs- und Eintragsstruktur) sollten vor einem ersten Export überprüft und korrigiert werden. Im Anschluss kann das Transkribus-Dokument exportiert und transformiert werden. Anhand des XML-Dokuments wird auch ein Kontrollbericht erstellt, der bei der weiteren Fehlersuche hilft.
+Die ersten 3 Punkte (Vollständigkeit der Transkription, richtige Erfassung der Textregionen & Zeilen und Markierung der Sitzungs- und Eintragsstruktur) sollten vor einem ersten Export überprüft und korrigiert werden. Im Anschluss kann das Transkribus-Dokument exportiert und transformiert werden. Anhand des XML-Dokuments wird auch ein Kontrollbericht erstellt, der bei der weiteren Fehlersuche hilft.
 == Vollständigkeit der Transkription ==
@@ Zeile 17: / Zeile 17: @@
 ** Nachträglich eingefügte Seitenzahlen müssen nicht transkribiert werden.
-== Erfassung der Textregionen ==
+== Erfassung der Textregionen & Zeilen ==
 * Titel und Überschriften(heading)
@@ Zeile 24: / Zeile 24: @@
 ** vor den Eintrag auf den sie sich beziehen, wenn sie als Überschrift/Kurzzusammenfassung fungieren
 * Absätze (paragraph, ggf. paragraph-continued)
+* Wenn eine Zeile nicht durch Export und Transformation kommt, dann fehlt vermutlich das Baseline-Element in Transkribus. Das Line-Element, das in Transkribus als Kasten/geschlossenes Polygon eine Zeile umfasst, reicht nicht.
 == Markierung der Sitzungs- und Eintragsstruktur ==

Exportworkflow: Unterschied zwischen den Versionen

Version vom 13. Februar 2025, 15:40 Uhr

Inhaltsverzeichnis

Kontrolle

Vollständigkeit der Transkription

Erfassung der Textregionen & Zeilen

Markierung der Sitzungs- und Eintragsstruktur

Textauszeichnung

Transkribus-Export

Kuratierung des Exports

Datenanreicherung

Navigationsmenü

Meine Werkzeuge

Namensräume

Varianten

Ansichten

Mehr

Suche

Navigation

Werkzeuge