PAGE (XML)PAGE (Page Analysis and Ground truth Elements) ist ein XML-Standard für die Kodierung von gescannten Dokumenten[1]. Er ist mit dem ALTO-Format vergleichbar und ermöglicht es, die Organisation und Struktur einer Seite und ihrer Inhalte wiederzugeben. PAGE XML kann verwendet werden, um zu beschreiben:
Das Format wurde 2010 vom Pattern Recognition & Image Analysis Lab (PRIMA) an der Salford University in Manchester entwickelt. Das Schema wurde für die Verwendung in Verbindung mit automatischen Segmentierungs- und Transkriptionstechniken (OCR und HTR (automatische Erkennung von Handschriften)) konzipiert: PAGE soll jeden einzelnen Schritt der Verarbeitungskette für die Analyse von Bilddokumenten unterstützen (von der Bildverbesserung über die OCR bis hin zur Layoutanalyse). Das PAGE XML-Schema wird insbesondere als Export- und Importformat von Software für die automatische Transkription wie eScriptorium[2] und Transkribus[3] verwendet. Es ist auch ein Exportformat, das von Kraken verwendet wird, einem schlüsselfertigen OCR-System, das für Dokumente in historischen und nicht-lateinischen Schriftzeichen optimiert ist[4]. Weblinks
Einzelnachweise |
Portal di Ensiklopedia Dunia