Textregionen: Unterschied zwischen den Versionen

Aus Consilium Communis Neuss
Zur Navigation springen Zur Suche springen
 
(2 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
== Allgemein ==
+
== Was ist eine Textregion? ==
 +
* Jede Seite besteht aus mehreren Strukturelementen. Das können Seitennummern, Überschriften, Absätze, Tabellen etc. sein.
 +
* Für jedes dieser Elemente erstellen wir eine '''Textregion'''.
 +
* Eine Textregion umfasst folgende Daten:
 +
** '''Koordinaten''', die bestimmen, wo sich der Textabschnitt auf dem Bild befindet
 +
** '''Zeilenregionen''', aus denen sich der Textabschnitt zusammensetzt
 +
** '''Strukturtyp'''
  
Jede Seite besteht aus mehreren Strukturelementen. Das können Seitenzahl, Eintrag, Absätze, Überschriften, Tabellen etc. sein.
+
== Textregionen zeichnen und markieren ==
 +
[[Datei:Transkribus Webapp Textregionen.png|mini]]
  
Für jedes dieser Elemente erstellen wir eine Textregion.
+
* Textregionen werden bei uns manuell gezeichnet und mit einem '''Strukturtyp''' versehen.
 
+
* [https://help.transkribus.org/de/manuelle-layout-erkennung Informationen zur Manuellen Layouterkennung auf transkribus.org]
[https://help.transkribus.org/de/manuelle-layout-erkennung Informationen zur Manuellen Layouterkennung auf transkribus.org]
+
* Zur Vergabe des Strukturtyps: Rechtsklick > 'Assign structure type'.
 
+
* Nach der Einzeichnung der Textregionen kann es notwendig sein, die '''Layoutreihenfolge (layout order)''' im Texteditor anzupassen. Zur Aktivierung dieser Reihenfolge müssen Sie am rechten Rand den Knopf mit den drei horizontalen Balken anklicken. Dann können Sie im Texteditor die Einordnung der Textregionen anpassen.
=== Strukturtypen ===
+
* Wenn die Textregionen erfasst wurden können Sie zur [[Zeilenerkennung]] übergehen.
  
 +
'''Strukturtypen'''
 
; <code>heading</code>
 
; <code>heading</code>
 
: Überschrift
 
: Überschrift
Zeile 18: Zeile 26:
 
: Marginalie/Randbemerkung
 
: Marginalie/Randbemerkung
 
; <code>page-number</code>
 
; <code>page-number</code>
: Seitennummer
+
: historische Seiten-/Blattnummer
 
; <code>signature-mark</code>
 
; <code>signature-mark</code>
: Unterschriftenblock am Ende einer Sitzung (nicht innerhalb einer Randbemerkung).
+
: Unterschriftenblock am Ende einer Sitzung (nicht innerhalb einer Randbemerkung). Damit entfällt die Notwendigkeit die Unterschriften als solche (per 'gez.' z. B.) zu markieren, wenn jede Unterschrift in einer eigenen Zeilenregion steht.
: Damit entfällt die Notwendigkeit die Unterschriften als solche (per 'gez.' z. B.) zu markieren.
+
: [https://en.wikipedia.org/wiki/Signature_mark Signature mark] hat eigentlich eine speziellere Bedeutung. Da diese Textregion voreingstellt ist und die zentrale Verwaltung von Textregionen für alle Nutzer in der Desktopversion nicht möglich ist, haben wir sie für unsere Zwecke adaptiert.
: [https://en.wikipedia.org/wiki/Signature_mark Signature mark] hat eigentlich eine speziellere Bedeutung.
 
: Da diese Textregion voreingstellt ist und die zentrale Verwaltung von Textregionen für alle Nutzer in der Desktopversion nicht möglich ist, haben wir sie für unsere Zwecke adaptiert.
 
 
 
  
Wenn die Textregionen erfasst wurden können Sie zur [[Zeilenerkennung]] übergehen.
+
'''Reihenfolge der Textregionen'''
 +
* Generell gilt die Reihenfolge in der man ließt: von oben nach unten, von links nach rechts.
 +
* Im Zweifelsfall orientieren wir uns an der inhaltlich-logischen Reihenfolge der Textabschnitte.
 +
* Text in den Marginalien kann häufig zu Zweifelsfällen führen.
 +
** Randbemerkungen, die als Eintragseinleitung dienen, werden vor dem ersten Absatz des Eintrags einsortiert.
 +
** Randbemerkungen, die eine nachträglich eingefügte Anmerkung darstellen, werden nach dem Absatz, auf den sie sich beziehen, eingeordnet.
  
 
== Spezialfall: Tabelle ==
 
== Spezialfall: Tabelle ==
  
* Tabellen werden als speziell als Tabellenregion ausgezeichnet.
+
* Tabellen werden speziell als '''Tabellenregion''' ausgezeichnet.
* Nach der initialen Markierung der Tabellenregion müssen die einzelnen Spalten und Zeilen durch vertikale und horizontale Schnitte in die Region eingepflegt werden.
+
* Nach der initialen Markierung der Tabellenregion müssen die einzelnen Spalten und Zeilen durch vertikale und horizontale Schnitte eingeteilt werden.

Aktuelle Version vom 8. April 2026, 11:37 Uhr

Was ist eine Textregion?

  • Jede Seite besteht aus mehreren Strukturelementen. Das können Seitennummern, Überschriften, Absätze, Tabellen etc. sein.
  • Für jedes dieser Elemente erstellen wir eine Textregion.
  • Eine Textregion umfasst folgende Daten:
    • Koordinaten, die bestimmen, wo sich der Textabschnitt auf dem Bild befindet
    • Zeilenregionen, aus denen sich der Textabschnitt zusammensetzt
    • Strukturtyp

Textregionen zeichnen und markieren

Transkribus Webapp Textregionen.png
  • Textregionen werden bei uns manuell gezeichnet und mit einem Strukturtyp versehen.
  • Informationen zur Manuellen Layouterkennung auf transkribus.org
  • Zur Vergabe des Strukturtyps: Rechtsklick > 'Assign structure type'.
  • Nach der Einzeichnung der Textregionen kann es notwendig sein, die Layoutreihenfolge (layout order) im Texteditor anzupassen. Zur Aktivierung dieser Reihenfolge müssen Sie am rechten Rand den Knopf mit den drei horizontalen Balken anklicken. Dann können Sie im Texteditor die Einordnung der Textregionen anpassen.
  • Wenn die Textregionen erfasst wurden können Sie zur Zeilenerkennung übergehen.

Strukturtypen

heading
Überschrift
paragraph
Absatz
paragraph-continued
Fortsetzung eines Absatzes der vorherigen Seite
marginalia
Marginalie/Randbemerkung
page-number
historische Seiten-/Blattnummer
signature-mark
Unterschriftenblock am Ende einer Sitzung (nicht innerhalb einer Randbemerkung). Damit entfällt die Notwendigkeit die Unterschriften als solche (per 'gez.' z. B.) zu markieren, wenn jede Unterschrift in einer eigenen Zeilenregion steht.
Signature mark hat eigentlich eine speziellere Bedeutung. Da diese Textregion voreingstellt ist und die zentrale Verwaltung von Textregionen für alle Nutzer in der Desktopversion nicht möglich ist, haben wir sie für unsere Zwecke adaptiert.

Reihenfolge der Textregionen

  • Generell gilt die Reihenfolge in der man ließt: von oben nach unten, von links nach rechts.
  • Im Zweifelsfall orientieren wir uns an der inhaltlich-logischen Reihenfolge der Textabschnitte.
  • Text in den Marginalien kann häufig zu Zweifelsfällen führen.
    • Randbemerkungen, die als Eintragseinleitung dienen, werden vor dem ersten Absatz des Eintrags einsortiert.
    • Randbemerkungen, die eine nachträglich eingefügte Anmerkung darstellen, werden nach dem Absatz, auf den sie sich beziehen, eingeordnet.

Spezialfall: Tabelle

  • Tabellen werden speziell als Tabellenregion ausgezeichnet.
  • Nach der initialen Markierung der Tabellenregion müssen die einzelnen Spalten und Zeilen durch vertikale und horizontale Schnitte eingeteilt werden.