Textregionen: Unterschied zwischen den Versionen

Aus Consilium Communis Neuss
Zur Navigation springen Zur Suche springen
 
(4 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
== Wiki Überarbeitungen [intern] ==
+
== Allgemein ==
Im Artikel zur Indexierung steht, dass Überschriften auch Einträge seien?
+
 
 +
Jede Seite besteht aus mehreren Strukturelementen. Das können Seitenzahl, Eintrag, Absätze, Überschriften, Tabellen etc. sein.
 +
 
 +
Für jedes dieser Elemente erstellen wir eine Textregion.
  
== Allgemein ==
+
[https://help.transkribus.org/de/manuelle-layout-erkennung Informationen zur Manuellen Layouterkennung auf transkribus.org]
  
Jede Seite besteht aus mehreren Elementen. Das können Seitenzahl, Eintrag, Absätze, Überschriften, Tabellen etc. sein.
+
=== Strukturtypen ===
  
Für jedes Element wird eine Textregion erstellt.
+
; <code>heading</code>
 +
: Überschrift
 +
; <code>paragraph</code>
 +
: Absatz
 +
; <code>paragraph-continued</code>
 +
: Fortsetzung eines Absatzes der vorherigen Seite
 +
; <code>marginalia</code>
 +
: Marginalie/Randbemerkung
 +
; <code>page-number</code>
 +
: Seitennummer
 +
; <code>signature-mark</code>
 +
: Unterschriftenblock am Ende einer Sitzung (nicht innerhalb einer Randbemerkung).
 +
: Damit entfällt die Notwendigkeit die Unterschriften als solche (per 'gez.' z. B.) zu markieren.
 +
: [https://en.wikipedia.org/wiki/Signature_mark Signature mark] hat eigentlich eine speziellere Bedeutung.
 +
: Da diese Textregion voreingstellt ist und die zentrale Verwaltung von Textregionen für alle Nutzer in der Desktopversion nicht möglich ist, haben wir sie für unsere Zwecke adaptiert.
  
Innerhalb eines Eintrags gibt es (meistens) mehrere Textregionen = Absätze, die in den Metadaten als "Paragraph" ausgezeichnet werden.
 
  
Überschriften werden als eigene Textregion erfasst und in den Metadaten als "Heading" ausgezeichnet.
+
Wenn die Textregionen erfasst wurden können Sie zur [[Zeilenerkennung]] übergehen.
  
Marginalien (die kleinen Texte, die in manchen Bänden noch am Rand stehen) werden als "marginalia" ausgezeichnet.
+
== Spezialfall: Tabelle ==
  
Vor dem ersten Paragraph eines jeden Eintrags sollte ein Gap-Tag gesetzt werden. Darin kann die verantwortliche Person sich unter "resp." mit ihrem Kürzel eintragen.
+
* Tabellen werden als speziell als Tabellenregion ausgezeichnet.
 +
* Nach der initialen Markierung der Tabellenregion müssen die einzelnen Spalten und Zeilen durch vertikale und horizontale Schnitte in die Region eingepflegt werden.

Aktuelle Version vom 27. März 2026, 15:54 Uhr

Allgemein

Jede Seite besteht aus mehreren Strukturelementen. Das können Seitenzahl, Eintrag, Absätze, Überschriften, Tabellen etc. sein.

Für jedes dieser Elemente erstellen wir eine Textregion.

Informationen zur Manuellen Layouterkennung auf transkribus.org

Strukturtypen

heading
Überschrift
paragraph
Absatz
paragraph-continued
Fortsetzung eines Absatzes der vorherigen Seite
marginalia
Marginalie/Randbemerkung
page-number
Seitennummer
signature-mark
Unterschriftenblock am Ende einer Sitzung (nicht innerhalb einer Randbemerkung).
Damit entfällt die Notwendigkeit die Unterschriften als solche (per 'gez.' z. B.) zu markieren.
Signature mark hat eigentlich eine speziellere Bedeutung.
Da diese Textregion voreingstellt ist und die zentrale Verwaltung von Textregionen für alle Nutzer in der Desktopversion nicht möglich ist, haben wir sie für unsere Zwecke adaptiert.


Wenn die Textregionen erfasst wurden können Sie zur Zeilenerkennung übergehen.

Spezialfall: Tabelle

  • Tabellen werden als speziell als Tabellenregion ausgezeichnet.
  • Nach der initialen Markierung der Tabellenregion müssen die einzelnen Spalten und Zeilen durch vertikale und horizontale Schnitte in die Region eingepflegt werden.