imported>VanGore: Kategorie:Freie Texterkennungssoftware

2025-06-04T16:58:59Z

Kategorie:Freie Texterkennungssoftware

Neue Seite

{{Infobox Software
|Logo =
|Screenshot = [[Datei:OCRopus Texterkennung.png|320x178px]]
|Beschreibung =
|Maintainer =
|Hersteller = Thomas Breuel, [[Deutsches Forschungszentrum für Künstliche Intelligenz|DFKI]]
|Management =
|Erscheinungsjahr = 2007
|AktuelleVersion =
|AktuelleVersionFreigabeDatum =
|Betriebssystem =
|Programmiersprache =
|Kategorie = [[Texterkennung]]
|Lizenz =
|Deutsch =
|Website = [https://github.com/ocropus/ocropy github.com/ocropus/ocropy]
}}
'''OCRopus''' (auch '''ocropy''') ist eine [[freie Software]] zur Dokumentanalyse und [[Texterkennung]] mit einem sehr modularen Entwurf.
OCRopus wurde mit Unterstützung von [[Google Inc.]] unter Leitung von Thomas Breuel vom [[Deutsches Forschungszentrum für Künstliche Intelligenz|Deutschen Forschungszentrum für Künstliche Intelligenz]] (DFKI) in Kaiserslautern entwickelt und als freie Software unter den Bedingungen von Version 2.0 der [[Apache-Lizenz]] veröffentlicht.

== Beschreibung ==
OCRopus wurde insbesondere für die Anwendung in großflächigen [[Retrodigitalisierung]]sprojekten von Büchern etwa bei [[Google Books]], [[Internet Archive]] oder Bibliotheken konzipiert. Dabei sollen eine Vielzahl von Sprachen und Schriften unterstützt werden.<ref>{{Literatur |Autor=Thomas Breuel |Titel=Recent Progress on the OCRopus OCR System |Sammelwerk=Proceedings of the International Workshop on Multilingual OCR |Reihe=MOCR ’09 |Verlag=ACM |Ort=New York |Datum=2009 |ISBN=978-1-60558-698-4 |Seiten=2:1–2:10 |DOI=10.1145/1577802.1577805}}</ref> Es kann aber auch für Anwendungen im Bürobereich oder für Sehgeschädigte eingesetzt werden.

Die Hauptkomponenten bei OCRopus bilden:
* Analyse des Dokumentenaufbaus
* [[Texterkennung|optische Zeichenerkennung]]
* Nutzung von statistischen Sprachmodellen

Für diese Komponenten stehen einzelne oder auch mehrere Skripte zur Verfügung. Der modulare Ansatz erlaubt es individuelle Workflows zu nutzen und einzelne Schritte auszutauschen.

Standardmäßig kommt OCRopus mit einem Modell für englische Texte und einem Modell für Texte in [[Fraktur (Schrift)|Fraktur]]. Diese Modelle beziehen sich auf die [[Schriftart]] und sind weitestgehend unabhängig von der eigentlichen Sprache.<ref>{{Internetquelle |autor= |url=https://github.com/ocropus/ocropy/wiki/Models |titel=Models |werk=ocropy wiki |hrsg=GitHub |datum= |abruf=2017-12-29}}</ref> Neue Schriftzeichen oder Sprachvarianten können entweder neu oder zusätzlich trainiert werden.

Die tatsächliche Erkennung basiert auf [[Rekurrentes neuronales Netz|rekurrenten neuronalen Netzen]] (LSTM) und kommt gänzlich ohne Sprachmodell aus. Damit können sprachunabhängige Modelle trainiert werden, für welche gute Erkennungsergebnisse für Englisch, Deutsch, Französisch zugleich gezeigt wurden.<ref>{{Literatur |Autor=Adnan Ul-Hasan, Thomas M. Breuel |Titel=Can We Build Language-independent OCR Using LSTM Networks? |Sammelwerk=Proceedings of the 4th International Workshop on Multilingual OCR |Reihe=MOCR ’13 |Verlag=ACM |Ort=New York, NY, USA |Datum=2013 |ISBN=978-1-4503-2114-3 |Seiten=9:1–9:5 |DOI=10.1145/2505377.2505394}}</ref> Neben dem [[Lateinisches Schriftsystem|lateinischem Schriftsystem]] gibt es Resultate für weitere Schriften wie etwa [[Sanskrit]], [[Urdu]], [[Devanagari]], [[Griechisches Alphabet|Griechisch]].

Durch ein entsprechendes Training können sehr gute Erkennungsraten erreicht werden.<ref name=":1" /> Dieser Mehraufwand lohnt sich gerade bei schwierigen Dokumenten oder heute nicht mehr üblichen Schriftarten, welche bei anderen OCR-Softwares nicht im Fokus stehen.<ref>{{Internetquelle |autor=Robert Nasarek |url=https://blogs.urz.uni-halle.de/strickdings/2017/05/ocropus-hoffnungstraeger-der-frakturschrifterkennung/ |titel=OCRopus – Hoffnungsträger der Frakturschrifterkennung |werk=Digital Humanities selbst gestrickt |hrsg= |datum=2017-05-23 |sprache=de |abruf=2017-12-29}}</ref><ref>{{Literatur |Autor=Uwe Springmann |Titel=OCR für alte Drucke |Sammelwerk=Informatik-Spektrum |Band=39 |Nummer=6 |Datum=2016-12-01 |ISSN=0170-6012 |Seiten=459–462 |DOI=10.1007/s00287-016-1004-3}}</ref>

== Geschichte ==
Am 9. April 2007 wurde OCRopus als ein von Google gesponsertes Projekt zur Entwicklung fortschrittlicher OCR-Technologien bekannt gegeben.<ref name=":0">{{Internetquelle |autor=Thomas Breuel |url=https://developers.googleblog.com/2007/04/announcing-ocropus-open-source-ocr.html |titel=Announcing the OCRopus Open Source OCR System |werk=Google Developers Blog |datum=2007-04-09 |abruf=2017-12-29}}</ref> Die Förderung war auf drei Jahre ausgelegt und umschloss insbesondere Doktoranden- bzw. PostDoc-Stellen am DFKI bzw. der Universität Kaiserslautern. Im Gegenzug wurde bei der [[Google Books|Google Buchsuche]] auch OCRopus für die automatische Texterkennung verwendet.<ref>{{Internetquelle |autor= |url=https://www.dfki.de/web/forschung/projekte?pid=396 |titel=Forschungsprojekt OCRopus |werk= |hrsg=DFKI |datum= |sprache=de |abruf=2017-12-29}}</ref> Die Lizenzierung unter einer [[Open Source|Open-Source-Lizenz]] wurde gleich zu Beginn gemacht um Kollaborationen zwischen industrieller und akademischer Forschung leichter zu ermöglichen.<ref>{{Literatur |Autor=Thomas M. Breuel |Titel=The OCRopus open source OCR system |Band=6815 |Verlag=International Society for Optics and Photonics |Datum=2008-01-28 |Seiten=68150F |DOI=10.1117/12.783598}}</ref> Weitere Förderung hat OCRopus von der Andrew W. Mellon Foundation sowie dem [[Bundesministerium für Bildung und Forschung|BMBF]] bekommen.<ref>{{Internetquelle |autor= |url=http://code.google.com:80/p/ocropus#Acknowledgements |titel=ocropus Projektwebseite |werk=Google Project Hosting |hrsg= |datum=2012-12-24 |offline=1 |archiv-url=https://web.archive.org/web/20121224105419/http://code.google.com:80/p/ocropus#Acknowledgements |archiv-datum=2012-12-24 |abruf=2017-12-30}}</ref> Im Zuge des [[TextGrid]]-Projektes wurde dabei etwa die Schrifterkennung für Fraktur angegangen.<ref>{{Internetquelle |url=https://textgrid.de/fileadmin/berichte-2/abschlussbericht-2.pdf |titel=Abschlussbericht (Öffentliche Fassung): TextGrid – Vernetzte Forschungsumgebung in den eHumanities |datum=2012-11-27 |format=PDF |abruf=2017-12-30}}</ref>

Die erste Alpha-Version 0.1 wurde am 22. Oktober 2007 veröffentlicht und diverse Vorabversionen erschienen zwischen Dezember 2007 und Mai 2009. Mit Version 0.4.4 wurde 2010 ein stabiler Stand erreicht.<ref>{{Internetquelle |autor= |url=https://github.com/ocropus/ocropy/wiki/Older-versions |titel=ocropy: older versions |werk=GitHub Wiki |hrsg= |datum= |abruf=2017-12-29}}</ref> Ursprünglich wurde das Programm in [[C++]], [[Python (Programmiersprache)|Python]] und [[Lua]] mit [[Perforce Jam|Jam]] als [[Build-System]] entwickelt. Ein komplettes [[Refactoring|Refactoring des Quellcodes]] in Python-Module beinhaltet die Version 0.5, welche 2012 veröffentlicht wurde.<ref>{{Internetquelle |autor= |url=https://groups.google.com/forum/#!topic/ocropus/S73OMtJdVmw/discussion |titel=OCRopus 0.5 |werk=Google Groups |hrsg= |datum=2012-06-02 |abruf=2018-01-05}}</ref>

Anfänglich wurde [[Tesseract (Software)|Tesseract]] als einziges Erkennungsmodul verwendet. Ab Version 0.4 (2009) wird Tesseract nur noch als Plugin unterstützt. Stattdessen kam eine Eigenentwicklung zur Texterkennung (ebenfalls Segment-basiert) zum Einsatz<ref>[http://groups.google.com/group/ocropus/msg/96c4081a3213dbcc OCRopus doesn't even link with Tesseract by default].</ref>. Ab 2013 wurde zusätzlich eine Erkennung auf [[Rekurrentes neuronales Netz|rekurrenten neuronalen Netzen]] (LSTM) angeboten, welche mit der Version 1.0 im November 2014 als einziger Erkenner weitergeführt wird.<ref>{{Internetquelle |autor= |url=https://github.com/ocropus/ocropy/releases/tag/v1.0 |titel=ocropy – release v1.0 |werk= |hrsg=GitHub |datum=2014-11-02 |abruf=2017-12-29}}</ref><ref name=":1">{{Literatur |Autor=T. M. Breuel, A. Ul-Hasan, M. A. Al-Azawi, F. Shafait |Titel=High-Performance OCR for Printed English and Fraktur Using LSTM Networks |Sammelwerk=2013 12th International Conference on Document Analysis and Recognition |Datum=2013-08 |Seiten=683–687 |DOI=10.1109/ICDAR.2013.140}}</ref>

Der Quellcode wird über [[GitHub]] verwaltet und wird von der Entwickler-Community gepflegt und weiterentwickelt.<ref>{{Internetquelle |autor= |url=https://github.com/ocropus/ocropy |titel=ocropy: Python-based tools for document analysis and OCR |werk= |hrsg=GitHub |datum= |abruf=2017-12-29}}</ref> Die aktuelle Version von OCRopus ist 1.3.3 (Dezember 2017).<ref>{{Internetquelle |autor= |url=https://github.com/ocropus/ocropy/releases |titel=Releases ocropy |werk=GitHub |hrsg= |datum= |abruf=2018-01-05}}</ref>

Weiterentwicklungen des ursprünglichen OCRopus sind ''ocropy'' (auch ''OCRopus2'') und ''OCRopus3''. ''OCRopus4'' ist die neueste Version, an der Thomas Breuel aktuell (Stand 2021) arbeitet.<ref>{{Internetquelle |autor=Thomas Breuel |url=http://www.tmbdev.org/projects/ocr/ |titel=OCR and Scene Text |sprache=en |abruf=2022-01-09}}</ref>

== Abspaltungen ==
Von OCRopus [[Abspaltung (Softwareentwicklung)|abgeleitet]] ist die OCR-Software ''Kraken''<ref>{{Internetquelle |url=https://github.com/mittagessen/kraken |titel=kraken: OCR engine for all the languages |sprache=en |abruf=2019-03-10}}</ref>, die beispielsweise in [[eScriptorium]] für die Erkennung von Text in Drucken und Handschriften verwendet wird. ''Calamari'' ist ein weiterer Abkömmling, der auf OCRopy und Kraken basiert.<ref>{{Internetquelle |url=https://github.com/Calamari-OCR/calamari |titel=calamari: OCR Engine based on OCRopy and Kraken |sprache=en |abruf=2019-03-10}}</ref>

== Benutzung ==
[[Datei:Ocropus Workflow.png|320x320px|mini|OCRopus Workflow]]OCRopus ist ein reines [[Kommandozeile]]nprogramm. Es wird primär für [[Linux]]-Plattformen entwickelt, sollte jedoch auf vielen Plattformen lauffähig sein, solange seine Abhängigkeiten erfüllt sind. Eingesetzt wird es, indem über die Kommandozeile das Eingabebild angegeben wird. Zur genaueren Steuerung können zusätzlich noch Optionen übergeben werden, um bestimmte Aktionen wie die Erkennung einer einzelnen Zeile auszuführen.<ref>{{Internetquelle |autor= |url=https://github.com/ocropus/ocropy/wiki |titel=ocropy wiki |werk= |hrsg=GitHub |datum= |abruf=2017-12-29}}</ref> Die Ergebnisse werden über die [[Standard-Datenströme|Standardausgabe]] (stdout) in [[Hypertext Markup Language|HTML]] und [[Cascading Style Sheets|CSS]] mit speziellen Formatierungen ([[hOCR (Standard)|hOCR]]) ausgegeben.
Beispiel für die Aufrufe der OCRopus Skripte um den Text in einem Bild zu erkennen:
# Binarisierung:
ocropus-nlbin tests/ersch.png -o book

# Layoutanalyse für Seite:
ocropus-gpageseg book/0001.bin.png

# Texterkennung der Linien (mit dem Fraktur Model):
ocropus-rpred -m models/fraktur.pyrnn.gz book/0001/*.bin.png

# HTML Ausgabe erzeugen:
ocropus-hocr book/0001.bin.png -o book/0001.html

== Weblinks ==
* [https://github.com/ocropus/ocropy OCRopus auf GitHub] und [https://github.com/ocropus/ocropy/wiki zugehöriges Wiki] (englisch)

== Quellen und Einzelnachweise ==
<references />

[[Kategorie:Freie Texterkennungssoftware]]

OCRopus - Versionsgeschichte

imported>VanGore: Kategorie:Freie Texterkennungssoftware