3. ALTO
• ALTO = Analyzed Layout and Text Object
• Standard der Library of Congress
• Wird meist in Kombination mit METS verwendet
• loc.gov/standards/alto/
4.
5. hOCR
• hOCR = Google OCR Format
• HTML-basiert
• kba.cloud/hocr-spec/1.2/
6.
7. PAGE
• PAGE = Page Analysis and Ground Truth
Environment
• De-facto Standard für Ground Truth
• Verwendung in wiss. Wettbewerben
• Verwendung in DFG-Projekt „OCR-D“
• github.com/PRImA-Research-Lab/PAGE-XML
8.
9. FRXML
• FRXML = ABBYY FineReader XML
• abbyy.technology/en:features:ocr:xml
10.
11. TEI
• TEI = Text Encoding Initiative
• Standard für Transkriptionen, dig. Editionen
• Breite Verwendung in den Digital Humanities
• tei-c.org
• DTABf = Deutsches TextArchiv Basisformat
• deutschestextarchiv.de/doku/basisformat/