Exportworkflow: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Zeile 38: | Zeile 38: | ||
Für weitere Workflows s. die Bände in [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/main/data-export2tei/volumes/ CC-GitLab-Repository] und die entsprechenden Readme.md Dateien | Für weitere Workflows s. die Bände in [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/main/data-export2tei/volumes/ CC-GitLab-Repository] und die entsprechenden Readme.md Dateien | ||
− | |||
− | |||
= Kuratierung des Exports = | = Kuratierung des Exports = |
Version vom 4. April 2023, 15:11 Uhr
Worum geht es: Wir kommen wir von einem transkribus-Export zu den finalen TEI-Daten?
Inhaltsverzeichnis
Kontrolle
(wie stellen wir sicher, dass ein Band Exportreif ist? Was ist zu prüfen?)
- alle Seiten transkribiert?
- Transkription augenscheinlich vollständig und "gut"?
- Fragezeichen im Text, die noch zu klären sind? Können die noch gelöst werden?
- Überflüssiges gelöscht?
- erstes Wort der nächsten Seite steht oft am unteren Seitenrand -> löschen, falls transkribiert!
- Nachträglich eingefügte Seitenzahlen
- Entsprechen die Textregionen der Textstruktur, wurden entsprechende Strukturtypen vergeben?
- Titel und Überschriften(heading)
- Sitzungsnummer Teil des Titels, da sie sich auf die ganze Sitzung bezieht (Bsp. in Band 40)
- Marginalien (marginalia)
- vor den Eintrag auf den sie sich beziehen, wenn sie als Überschrift/Kurzzusammenfassung fungieren
- Absätze (paragraph, ggf. paragraph-continued)
- Titel und Überschriften(heading)
- alle Personen und Orte ausgezeichnet?
- Keys vergeben?
- Einheitlich (großzügig) gemacht? ("Bürgermeister Momm" statt nur "Momm", "Director Meis" statt nur "Meis")
- alle Textphänomene (welche gibt es) ausgezeichnet?
- durchgestrichen
- unterstrichen
- fett
- hochgestellt
- tiefgestellt
- Abkürzungen
- anfang jedes Eintrags mit gap gekennzeichnet? Zuständige Person/en aus der Tabelle übernommen?
transkribus-Export
Oben links auf das "Export Document"-Icon klicken (gelber Ordner mit grünem Pfeil nach rechts). In dem sich dann öffnendem Fenster oben links von "Server export" auf "Client export" wechseln.
Über "Client export" exportiert man es im "Transkribus Document" Format und bei "Export page" wählt man nur "Export Page" aus:
Für weitere Workflows s. die Bände in CC-GitLab-Repository und die entsprechenden Readme.md Dateien
Kuratierung des Exports
- Die Tags in Transkribus (strukturelle und textuelle) müssen einheitlich verwendet werden!
- Die bestimmten Kombinationen von Tags können zu unerwarteten Problemen führen (z. B. in Person-Tag wird einen Place-Tag verwendet, der über zwei Seiten hinausgeht o.ä.) Ähnlich sieht es mit neuen Tags aus, die in den Workflow vor kurzem eingeführt wurden, aber in XSLT-Skripten noch nicht beachtet werden. Solche Phänomene bzw. Probleme müssen entdeckt und behoben werden.
- Die Daten müssen am Ende nach TEI valid sein. Die Fehlermeldungen in Oxygen helfen, verschiedene Phänomene bzw. Probleme zu entdecken. Wenn sie vorkommen, dann müssen die XSLT-Skripte angepasst oder neue zusätzliche geschrieben werden.
Datenanreicherung
Die XML-TEI-Daten liegen in CC-GitLab-Repository in entsprechenden Bänden-Ordnern