Zum Inhalt springen

Tesseract (Software)

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 1. März 2026 um 19:38 Uhr durch imported>Paintdog (Verfügbarkeit: gImageReader gelistet).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Tesseract

[[Datei:Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)|150px]]
Basisdaten

Maintainer Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Entwickler Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Erscheinungsjahr Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Aktuelle Version Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
(Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value))
Aktuelle Vorabversion Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
(Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value))
Betriebssystem Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Programmier­sprache Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Kategorie Texterkennung
Lizenz Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
deutschsprachig ja
Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Datei:Tesseract-3.03.png
Tesseract 3.03 in einer Linux-Konsole

Tesseract ist eine freie Software zur Texterkennung. Schwerpunkt ist die Erkennung von Textzeichen bzw. Textzeilen, aber auch die Zerlegung eines Textes in Textblöcke (Layoutanalyse) kann Tesseract übernehmen. Zur Verbesserung der Erkennungsraten verwendet Tesseract Sprachmodelle wie beispielsweise Wörterbücher.

Für weit mehr als 100 Sprachen und Sprachvarianten sind bereits Texterkennungsdaten in Zusatzmodulen vorhanden. Tesseract unterstützt dabei nicht nur lateinische Antiqua-Schriften, sondern auch Fraktur-Schrift, Devanagari (indische Schrift), chinesische, arabische, griechische, hebräische, kyrillische und weitere Schriften.<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig tesseract-ocr/tessdata_best: Best (most accurate) trained LSTM models.] GitHub, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 25. September 2017 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref><ref name="LU">Erik Bärwaldt: Buchstabensalat. Texterkennung mit Tesseract. In: LinuxUser. Nr. 5. Linux New Media AG, 8. April 2011.</ref>

Geschichte

Ursprünglich wurde die Software zwischen 1984 und 1994 bei Hewlett-Packard für deren Scanner entwickelt, dort aber nie in einem Produkt verwendet.<ref></ref> Aus einem Test der University of Nevada, Las Vegas (UNLV) ging sie 1995 als einer der drei präzisesten Testkandidaten hervor. Nach dem Ausstieg von HP aus dem OCR-Markt lag die Entwicklung weitgehend brach, bis der Code 2005 an das Information Science Research Institute der UNLV übergeben wurde. Hier wurde festgestellt, dass der ehemalige Entwickler Ray Smith mittlerweile bei Google arbeitete. Nach einer Nachfrage bei Google, ob Interesse an dem Code bestünde, nahm sich Google des Quelltextes an, brachte ihn auf einen aktuellen Stand und gab ihn noch im selben Jahr unter der Apache-Lizenz über SourceForge frei.

Dies bedeutete in der Welt der freien Software einen großen Qualitätssprung im Bereich der Texterkennung. Das Projekt migrierte von SourceForge auf Googles eigene Software-Entwickler-Plattform Google Code, wo es unter Betreuung von Google weiterentwickelt wurde. Seit 2015 findet die Weiterentwicklung auf GitHub statt.<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Tesseract moved to github.com.] Google Groups, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 20. März 2018 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>

Seit 2006 wurde das Programm als Grundlage von Google Books weiterentwickelt. Ab Version 3.0 vom September 2010 können Ergebnisse direkt in das hOCR-Format ausgegeben werden und es wurde ein neues Modul zur Analyse der Seitengestaltung eingeführt.

Das Projekt tesseractindic widmete sich der Aufgabe, das Programm mit Sprachen aus der indischen Sprachenfamilie verwendbar zu machen.<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Tesseractindic.] GitHub, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref> Diese Sprachen werden seit Tesseract 3.01 unterstützt.

In der Version 3.02 vom 28. Oktober 2012 wurde u. a. die Erkennung arabischer und hebräischer Texte im bidirektionalen Modus eingeführt.

Ende 2016 führte Tesseract ein neuronales Netz zur Texterkennung ein. Version 4 unterstützt diese neue Methode, kann aber auch weiterhin mit dem Mustervergleich der Vorgängerversionen arbeiten.

Google verwendete nach eigener Aussage Tesseract für die Texterkennung auf mobilen Geräten und in Videos sowie bei der Erkennung von Spam in E-Mail-Bildern<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Tesseract OCR.] Google Open Source, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 12. Januar 2017 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>, ist aber seit 2018 nicht mehr aktiv an der Weiterentwicklung von Tesseract beteiligt. Diese wird seitdem von einer kleinen Gruppe von Hauptentwicklern und vielen Beiträgen einzelner Entwickler getragen.<ref>Contributors to tesseract-ocr/tesseract. GitHub, abgerufen am 3. Januar 2023 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).</ref>

Seit Dezember 2018 kann Tesseract die OCR-Ergebnisse im standardisierten ALTO-Format ausgeben. Dieses Format ist insbesondere für Archive und Bibliotheken relevant, die Archivgut und historische Drucke nach den DFG-Praxisregeln Digitalisierung veröffentlichen möchten.<ref>DFG-Praxisregeln „Digitalisierung“. DFG, abgerufen am 3. Januar 2023.</ref> Mit Förderung durch die Deutsche Forschungsgemeinschaft im Rahmen des Projektes OCR-D arbeitet die Universitätsbibliothek Mannheim seit 2018 daran, Tesseract für den Einsatz in der Retrodigitalisierung tauglich zu machen.<ref>Optimierter Einsatz von OCR-Verfahren – Tesseract als Komponente im OCR-D-Workflow. DFG, abgerufen am 3. Januar 2023.</ref>

Ende 2020 stellte das Internet Archive die automatisierte Texterkennung von ABBYY FineReader auf Tesseract um<ref>Vorlage:Cite book/NameVorlage:Cite book/Name: [Internetquelle: archiv-url ungültig OCR at the Internet Archive with Tesseract and hOCR.] Internet Archive, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 15. August 2021 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref> und verarbeitet damit mehr als 2 Millionen Seiten pro Tag.<ref>Vorlage:Cite book/NameVorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Internet Archive OCR Stack in 2021.] Internet Archive, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 23. August 2021 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>

Anwendung

Tesseract wird nach den unter Unix üblichen Konventionen auch unter Windows von der Kommandozeile aus gesteuert und hat folgendes Format:<ref name="readme">Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Running Tesseract.] GitHub, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 12. November 2018 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

Tesseract liest das Bild im Tagged Image File Format (TIFF) ein und gibt den Text in die Ausgabedatei weiter. Ältere Versionen von Tesseract hatten keine eigene Layoutanalyse, waren also auf externe Software wie beispielsweise OCRopus angewiesen, um Textspalten auf einzelne Bilddateien zu verteilen. Aktuelle Versionen nutzen die Programmbibliothek Leptonica für die Analyse der Seitengestaltung, aber auch für die direkte Verarbeitung aller gängigen Bildformate.<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Selected papers on image processing and image analysis.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>

Eine automatisierte Verarbeitung lässt sich zum Beispiel mit ImageMagick verwirklichen.

Tesseract kann ab Version 3 die Scan-Ergebnisse im hOCR-Format speichern, wodurch die Seitengestaltung erhalten bleibt.<ref>Vorlage:Cite book/NameVorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Tesseract 3 und hOCR.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 28. Oktober 2010.Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref> Auch durchsuchbare PDF-Dateien lassen sich mit dieser Version direkt erzeugen.<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Tesseract Wiki.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 7. November 2015 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>

Es existiert eine Reihe Software, die Tesseract als Backend einbindet. Tesseract kann als Zeichenerkennungsmodul in OCRopus verwendet werden, das zusätzlich noch Analyse der Dokumentgliederung und statistische Sprachmodelle bietet.<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig ocropus - Google Code.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref> Allerdings benutzt OCRopus ab Version 0.4 standardmäßig ein eigenes Zeichenerkennungsmodul basierend auf neuronalen Netzen<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig OCRopus doesn’t even link with Tesseract by default.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>. In früheren Versionen wurde Tesseract als Standardmodul in OCRopus verwendet. Neben weiteren möglichen Backends kann es in der Desktop-OCR-Lösung OCRFeeder zur Zeichenerkennung genutzt werden. Mittels hocr2pdf dient es zum Beispiel in dem Linux-basierten Dokumentenmanagement-System Archivista der Erzeugung einer Text-Schicht zu rastergraphischen Abbildern eingescannter Papierdokumente, um diese maschinell durchsuchbar zu machen.

Verfügbarkeit

Tesseract wird als freie Software auch im Quelltext unter den Bedingungen von Version 2.0 der Apache-Lizenz (Apache Software License, ASL) verbreitet. In praktisch allen gängigen Linux-Distributionen kann es direkt aus den Standard-Paketquellen installiert werden.<ref name="LU" /><ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Debian - Informationen über Paket tesseract-ocr in sid.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016.Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref><ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Debian-Paketsuche.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016.Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref><ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Package tesseract.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/apps.fedoraproject.orgVorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref><ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig openSUSE-Paketsuche.] , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 19. April 2016.Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref> Installationsprogramme für Windows gibt es von mehreren Anbietern.<ref>Vorlage:Cite book/Name: [Internetquelle: archiv-url ungültig Downloads.] In: Tesseract documentation. GitHub, , archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am Vorlage:Cite book/URL; abgerufen am 2. Februar 2021 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).Vorlage:Cite book/URLVorlage:Cite book/MeldungVorlage:Cite book/Meldung2Vorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/MeldungVorlage:Cite book/Meldung</ref>

Tesseract dient u. a. bei folgenden Programmen als Basis der Texterkennung:

Siehe auch

Weblinks

Commons: Tesseract (software) – Sammlung von Bildern, Videos und Audiodateien
  • Kurzanleitung, ubuntu Deutschland e. V.
  • Ray Smith: Tesseract OCR Engine. (PDF) Vortrag über die Geschichte von Tesseract, OSCON 2007. Google Inc., 2007, archiviert vom Vorlage:IconExternal (nicht mehr online verfügbar) am 19. August 2016; (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).

Einzelnachweise

<references />