Exportworkflow: Unterschied zwischen den Versionen
Zur Navigation springen
Zur Suche springen
Admin (Diskussion | Beiträge) |
Admin (Diskussion | Beiträge) |
||
Zeile 43: | Zeile 43: | ||
= Datenanreicherung = | = Datenanreicherung = | ||
− | Die TEI-Daten liegen in [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/main/data-export2tei/volumes/ CC-GitLab-Repository] | + | Die XML-TEI-Daten liegen in [https://git.uni-wuppertal.de/dhsfu/consilium-communis/-/tree/main/data-export2tei/volumes/ CC-GitLab-Repository] in entsprechenden Bänden-Ordnern |
Version vom 13. Januar 2023, 16:00 Uhr
Worum geht es: Wir kommen wir von einem transkribus-Export zu den finalen TEI-Daten?
Inhaltsverzeichnis
Kontrolle
(wie stellen wir sicher, dass ein Band Exportreif ist? Was ist zu prüfen?)
- alle Seiten transkribiert?
- Transkription augenscheinlich vollständig und "gut"?
- Fragezeichen im Text, die noch zu klären sind? Können die noch gelöst werden?
- Überflüssiges gelöscht?
- erstes Wort der nächsten Seite steht oft am unteren Seitenrand -> löschen, falls transkribiert!
- Nachträglich eingefügte Seitenzahlen
- Entsprechen die Textregionen der Textstruktur, wurden entsprechende Strukturtypen vergeben?
- Titel und Überschriften(heading)
- Sitzungsnummer Teil des Titels, da sie sich auf die ganze Sitzung bezieht (Bsp. in Band 40)
- Marginalien (marginalia)
- vor den Eintrag auf den sie sich beziehen, wenn sie als Überschrift/Kurzzusammenfassung fungieren
- Absätze (paragraph, ggf. paragraph-continued)
- Titel und Überschriften(heading)
- alle Personen und Orte ausgezeichnet?
- Keys vergeben?
- Einheitlich (großzügig) gemacht? ("Bürgermeister Momm" statt nur "Momm", "Director Meis" statt nur "Meis")
- alle Textphänomene (welche gibt es) ausgezeichnet?
- durchgestrichen
- unterstrichen
- fett
- hochgestellt
- tiefgestellt
- Abkürzungen
- anfang jedes Eintrags mit gap gekennzeichnet? Zuständige Person/en aus der Tabelle übernommen?
transkribus-Export
Über "Client export" exportiert man es im "Transkribus Document" Format und bei "Export page" wählt man nur "Export Page" aus:
Für weitere Workflows s. die Bände in CC-GitLab-Repository und die entsprechenden Readme.md Dateien
Kuratierung des Exports
- Die Tags in Transkribus (strukturelle und textuelle) müssen einheitlich verwendet werden!
- Die bestimmten Kombinationen von Tags können zu unerwarteten Problemen führen (z. B. in Person-Tag wird einen Place-Tag verwendet, der über zwei Seiten hinausgeht o.ä.) Ähnlich sieht es mit neuen Tags aus, die in den Workflow vor kurzem eingeführt wurden, aber in XSLT-Skripten noch nicht beachtet werden. Solche Phänomene bzw. Probleme müssen entdeckt und behoben werden.
- Die Daten müssen am Ende nach TEI valid sein. Die Fehlermeldungen in Oxygen helfen, verschiedene Phänomene bzw. Probleme zu entdecken. Wenn sie vorkommen, dann müssen die XSLT-Skripte angepasst oder neue zusätzliche geschrieben werden.
Datenanreicherung
Die XML-TEI-Daten liegen in CC-GitLab-Repository in entsprechenden Bänden-Ordnern