Exportworkflow: Unterschied zwischen den Versionen

Aus Consilium Communis Neuss
Zur Navigation springen Zur Suche springen
(→‎Kontrolle: Neue Anforderungen ergänzt.)
 
(8 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 3: Zeile 3:
  
 
= Kontrolle =
 
= Kontrolle =
 +
 
(wie stellen wir sicher, dass ein Band Exportreif ist? Was ist zu prüfen?)
 
(wie stellen wir sicher, dass ein Band Exportreif ist? Was ist zu prüfen?)
  
* alle Seiten transkribiert?
+
Die ersten 3 Punkte (Vollständigkeit der Transkription, richtige Erfassung der Textregionen & Zeilen und Markierung der Sitzungs- und Eintragsstruktur) sollten vor einem ersten Export überprüft und korrigiert werden. Im Anschluss kann das Transkribus-Dokument exportiert und transformiert werden. Anhand des XML-Dokuments wird auch ein Kontrollbericht erstellt, der bei der weiteren Fehlersuche hilft.
** Transkription augenscheinlich vollständig und "gut"?
+
 
** Fragezeichen im Text, die noch zu klären sind? Können die noch gelöst werden?
+
== Vollständigkeit der Transkription ==
*** Alternativ Suche nach tag "unclear" um Unklarheiten in der Transkription direkt zu finden (Suche dabei auf Dokument beschränken)
+
 
** Überflüssiges gelöscht?
+
* Transkription augenscheinlich vollständig und "gut"?
*** erstes Wort der nächsten Seite steht oft am unteren Seitenrand -> Zeile löschen, falls transkribiert!
+
* Fragezeichen im Text, die noch zu klären sind? Können die noch gelöst werden? (ggf. Markierung als `unclear`)
*** Nachträglich eingefügte Seitenzahlen
+
* Suche nach tag "unclear" um Unklarheiten in der Transkription direkt zu finden (Suche dabei auf Dokument beschränken)
* Entsprechen die Textregionen der Textstruktur, wurden entsprechende Strukturtypen vergeben?
+
* Überflüssiges gelöscht?
** Titel und Überschriften(heading)
+
** erstes Wort der nächsten Seite steht oft am unteren Seitenrand -> Zeile löschen, falls transkribiert!
*** Sitzungsnummer Teil des Titels, da sie sich auf die ganze Sitzung bezieht (Bsp. in Band 40)
+
** Nachträglich eingefügte Seitenzahlen müssen nicht transkribiert werden.
** Marginalien (marginalia)
+
 
*** vor den Eintrag auf den sie sich beziehen, wenn sie als Überschrift/Kurzzusammenfassung fungieren
+
== Erfassung der Textregionen & Zeilen ==
** Absätze (paragraph, ggf. paragraph-continued)
+
 
* alle Personen und Orte ausgezeichnet?  
+
* Titel und Überschriften(heading)
** Keys vergeben? (Suche nach Registertags person, place, organization & occupation und Ergebnis nach Eigenschaften sortieren, Suche dabei auf Dokument beschränken)
+
** Sitzungsnummer Teil des Titels, da sie sich auf die ganze Sitzung bezieht (Bsp. in Band 40)
** Einheitlich (großzügig) gemacht? ("Bürgermeister Momm" statt nur "Momm", "Director Meis" statt nur "Meis")
+
* Marginalien (marginalia)
* alle Textphänomene (welche gibt es) ausgezeichnet?
+
** vor den Eintrag auf den sie sich beziehen, wenn sie als Überschrift/Kurzzusammenfassung fungieren
 +
* Absätze (paragraph, ggf. paragraph-continued)
 +
* Wenn eine Zeile nicht durch Export und Transformation kommt, dann fehlt vermutlich das Baseline-Element in Transkribus. Das Line-Element, das in Transkribus als Kasten/geschlossenes Polygon eine Zeile umfasst, reicht nicht.
 +
 
 +
== Markierung der Sitzungs- und Eintragsstruktur ==
 +
 
 +
* Zuständige Person/en aus der [https://docs.google.com/spreadsheets/d/19qr3S-WZK8oukHYKnU29ErrjGUMXSAcRzkicX9VKnJw/edit?usp=sharing Tabelle] übernommen?
 +
* Am Anfang einer Sitzung (type=session)
 +
* Am Anfang eines Eintrags (type=entry nicht zwingend notwendig, ohne type wird der Abschnitt in der XSLT-Transformationen als entry erkannt)
 +
* Am Anfang des Sitzungsabschlusses (type=closer)
 +
 
 +
== Textauszeichnung ==
 +
 
 +
* Alle Personen, Orte, Berufe und Institutionen ausgezeichnet?  
 +
** Keys vergeben?
 +
** Suche nach Registertags (person, place, organization, occupation) und Ergebnis nach Eigenschaften sortieren (Suche dabei auf Dokument beschränken)
 +
* Alle Textphänomene ausgezeichnet?
 
** durchgestrichen
 
** durchgestrichen
 
** unterstrichen
 
** unterstrichen
Zeile 28: Zeile 45:
 
** tiefgestellt
 
** tiefgestellt
 
** Abkürzungen
 
** Abkürzungen
* alle gap tags gesetzt? Zuständige Person/en aus der [https://docs.google.com/spreadsheets/d/19qr3S-WZK8oukHYKnU29ErrjGUMXSAcRzkicX9VKnJw/edit?usp=sharing Tabelle] übernommen?
 
** Am Anfang einer Sitzung mit type=session
 
** Am Anfang eines Eintrags (type=entry nicht zwingend notwendig, ohne type wird der Abschnitt in der XSLT-Transformationen als entry erkannt)
 
** Am Anfang des Sitzungsabschlusses mit type=closer (Unterschriften etc.)
 
  
= transkribus-Export =
+
= Transkribus-Export und Transformation =
  
Oben links auf das "Export Document"-Icon klicken (gelber Ordner mit grünem Pfeil nach rechts). In dem sich dann öffnendem Fenster oben links von "Server export" auf "Client export" wechseln.
+
== Transkribus ==
 +
Oben links auf das "Export Document"-Icon klicken (gelber Ordner mit grünem Pfeil nach rechts). In dem sich dann öffnenden Fenster oben links von "Server export" auf "Client export" wechseln.
  
 
Über "Client export" exportiert man es im "Transkribus Document" Format und bei "Export page" wählt man nur "Export Page" aus:
 
Über "Client export" exportiert man es im "Transkribus Document" Format und bei "Export page" wählt man nur "Export Page" aus:
Zeile 41: Zeile 55:
 
[[Datei:CC-Transkribus-Export.png|mini|zentriert|600px|Transkribus Export]]
 
[[Datei:CC-Transkribus-Export.png|mini|zentriert|600px|Transkribus Export]]
  
 +
Beim Client-Export entsteht standardmäßig ein Ordner mit dem Dokumentnamen (B_01_01-[Bandnummer]). Beim Export als "Transkribus Document" befindet sich in diesem Ordner ein Unterordner, der gleichfalls nach dem Dokumentnamen benannt ist. Darin sind die Daten enthalten ("mets.xml", "metadata.xml" und der Unterordner "page" mit XML-Dateien (eine pro Dokumentseite).
 +
 +
== Transformation ==
 +
 +
Es gibt zwei Möglichkeiten die Transkribusexporte zu transformieren. Dazu befinden sich im GitLab-Repo [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/SSG/scripts consilium-communis/scripts] zwei XProc-Skripte und mehrere XSLT-Skripte.
 +
 +
* "Transkribus2TEI.xpl" kann auf auf das "mets.xml" eines Transkribusexports angewendet werden, um die TEI-XML-kodierte Transkription des entsprechenden Bandes (Band_##.xml) und einen Kontrollbericht (Band_##_report.html) zu erzeugen.
 +
* "Transkribus2TEI_all.xpl" kann mehrere Transkribusexporte in einem Durchgang verarbeiten. Dazu muss in dem Skript die Variable "data_directory" den Pfad zum Verzeichnis mit den Transkribusexporten enthalten.
  
Damit ist der Export aus Transkribus abgeschlossen und es gilt als nächstes die Daten in im Rahmen des Projekts genutztes XML-TEI zu transformieren.
+
== Ordnerstrkutur eines Band mit Input und Output ==
  
Dafür muss in GitLab die Ordnerstruktur zum jeweiligen Band heruntergeladen (sowie möglicherweise erst noch angelegt und aus einem anderen Band kopiert und eingefügt) werden. Der Export aus Transkribus ("mets.xml", "metadata.xml" und der Unterordner "page" mit XML-Dateien) werden darin im Ordner 0_Input_Transkribus-PAGE-Output gespeichert. Dann kann das XProc-Skript "Transkribus2TEI-Publisher.xpl" in Oxygen ausgeführt werden. Der Ordner "0_Input_Transkribus-PAGE-Output" wird nur lokal gespeichert und ist mit dem Gitlab nicht synchronisiert (d.h. der Inhalt vom "0_Input_Transkribus-PAGE-Output" kann nach der Generierung der XML-Datei bzw. vor dem Laden der Daten bei Gitlab gelöscht werden). Die so generierte TEI-XML-Datei wird im Ordner "3_Output" gespeichert. Wenn nicht schon innerhalb des XProc-Skripts in Zeile 9 geschehen, muss dann der Dateiname noch an den Band angepasst werden, dessen Daten bearbeitet wurden.  
+
* B_01_01-##
 +
** B_01_01-##
 +
*** mets.xml
 +
*** metadata.xml
 +
*** page
 +
**** B_01_01-##-0001.xml
 +
**** B_01_01-##-0002.xml
 +
**** etc.
 +
** Band_##.xml
 +
** Band_##_report.html
  
Siehe die Bände in [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/main/data-export2tei/volumes/ CC-GitLab-Repository] für die nächsten Arbeitsschritte und die entsprechenden Readme.md Dateien für weitere Informationen zur Ordnerstruktur.
+
Siehe auch das [https://git.uni-wuppertal.de/buw-dh/consilium-communis-data/-/tree/main/baende Daten-Repo].
  
 
= Kuratierung des Exports =
 
= Kuratierung des Exports =
Zeile 54: Zeile 85:
  
 
= Datenanreicherung =
 
= Datenanreicherung =
Die XML-TEI-Daten liegen in [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/main/data-export2tei/volumes/ CC-GitLab-Repository] in entsprechenden Bänden-Ordnern
+
Die XML-TEI-Daten liegen in [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/main/data/ CC-GitLab-Repository] in entsprechenden Band-Ordnern

Aktuelle Version vom 7. April 2025, 09:42 Uhr

Worum geht es: Wir kommen wir von einem transkribus-Export zu den finalen TEI-Daten?

Kontrolle

(wie stellen wir sicher, dass ein Band Exportreif ist? Was ist zu prüfen?)

Die ersten 3 Punkte (Vollständigkeit der Transkription, richtige Erfassung der Textregionen & Zeilen und Markierung der Sitzungs- und Eintragsstruktur) sollten vor einem ersten Export überprüft und korrigiert werden. Im Anschluss kann das Transkribus-Dokument exportiert und transformiert werden. Anhand des XML-Dokuments wird auch ein Kontrollbericht erstellt, der bei der weiteren Fehlersuche hilft.

Vollständigkeit der Transkription

  • Transkription augenscheinlich vollständig und "gut"?
  • Fragezeichen im Text, die noch zu klären sind? Können die noch gelöst werden? (ggf. Markierung als `unclear`)
  • Suche nach tag "unclear" um Unklarheiten in der Transkription direkt zu finden (Suche dabei auf Dokument beschränken)
  • Überflüssiges gelöscht?
    • erstes Wort der nächsten Seite steht oft am unteren Seitenrand -> Zeile löschen, falls transkribiert!
    • Nachträglich eingefügte Seitenzahlen müssen nicht transkribiert werden.

Erfassung der Textregionen & Zeilen

  • Titel und Überschriften(heading)
    • Sitzungsnummer Teil des Titels, da sie sich auf die ganze Sitzung bezieht (Bsp. in Band 40)
  • Marginalien (marginalia)
    • vor den Eintrag auf den sie sich beziehen, wenn sie als Überschrift/Kurzzusammenfassung fungieren
  • Absätze (paragraph, ggf. paragraph-continued)
  • Wenn eine Zeile nicht durch Export und Transformation kommt, dann fehlt vermutlich das Baseline-Element in Transkribus. Das Line-Element, das in Transkribus als Kasten/geschlossenes Polygon eine Zeile umfasst, reicht nicht.

Markierung der Sitzungs- und Eintragsstruktur

  • Zuständige Person/en aus der Tabelle übernommen?
  • Am Anfang einer Sitzung (type=session)
  • Am Anfang eines Eintrags (type=entry nicht zwingend notwendig, ohne type wird der Abschnitt in der XSLT-Transformationen als entry erkannt)
  • Am Anfang des Sitzungsabschlusses (type=closer)

Textauszeichnung

  • Alle Personen, Orte, Berufe und Institutionen ausgezeichnet?
    • Keys vergeben?
    • Suche nach Registertags (person, place, organization, occupation) und Ergebnis nach Eigenschaften sortieren (Suche dabei auf Dokument beschränken)
  • Alle Textphänomene ausgezeichnet?
    • durchgestrichen
    • unterstrichen
    • fett
    • hochgestellt
    • tiefgestellt
    • Abkürzungen

Transkribus-Export und Transformation

Transkribus

Oben links auf das "Export Document"-Icon klicken (gelber Ordner mit grünem Pfeil nach rechts). In dem sich dann öffnenden Fenster oben links von "Server export" auf "Client export" wechseln.

Über "Client export" exportiert man es im "Transkribus Document" Format und bei "Export page" wählt man nur "Export Page" aus:

Transkribus Export

Beim Client-Export entsteht standardmäßig ein Ordner mit dem Dokumentnamen (B_01_01-[Bandnummer]). Beim Export als "Transkribus Document" befindet sich in diesem Ordner ein Unterordner, der gleichfalls nach dem Dokumentnamen benannt ist. Darin sind die Daten enthalten ("mets.xml", "metadata.xml" und der Unterordner "page" mit XML-Dateien (eine pro Dokumentseite).

Transformation

Es gibt zwei Möglichkeiten die Transkribusexporte zu transformieren. Dazu befinden sich im GitLab-Repo consilium-communis/scripts zwei XProc-Skripte und mehrere XSLT-Skripte.

  • "Transkribus2TEI.xpl" kann auf auf das "mets.xml" eines Transkribusexports angewendet werden, um die TEI-XML-kodierte Transkription des entsprechenden Bandes (Band_##.xml) und einen Kontrollbericht (Band_##_report.html) zu erzeugen.
  • "Transkribus2TEI_all.xpl" kann mehrere Transkribusexporte in einem Durchgang verarbeiten. Dazu muss in dem Skript die Variable "data_directory" den Pfad zum Verzeichnis mit den Transkribusexporten enthalten.

Ordnerstrkutur eines Band mit Input und Output

  • B_01_01-##
    • B_01_01-##
      • mets.xml
      • metadata.xml
      • page
        • B_01_01-##-0001.xml
        • B_01_01-##-0002.xml
        • etc.
    • Band_##.xml
    • Band_##_report.html

Siehe auch das Daten-Repo.

Kuratierung des Exports

  • Die Tags in Transkribus (strukturelle und textuelle) müssen einheitlich verwendet werden!
  • Die bestimmten Kombinationen von Tags können zu unerwarteten Problemen führen (z. B. in Person-Tag wird einen Place-Tag verwendet, der über zwei Seiten hinausgeht o.ä.) Ähnlich sieht es mit neuen Tags aus, die in den Workflow vor kurzem eingeführt wurden, aber in XSLT-Skripten noch nicht beachtet werden. Solche Phänomene bzw. Probleme müssen entdeckt und behoben werden.
  • Die Daten müssen am Ende nach TEI valid sein. Die Fehlermeldungen in Oxygen helfen, verschiedene Phänomene bzw. Probleme zu entdecken. Wenn sie vorkommen, dann müssen die XSLT-Skripte angepasst oder neue zusätzliche geschrieben werden.

Datenanreicherung

Die XML-TEI-Daten liegen in CC-GitLab-Repository in entsprechenden Band-Ordnern