imported>Redf0x: WPCleaner v2.05 - Begriffsklärung. - Aspell

2026-02-09T13:04:32Z

WPCleaner v2.05 - Begriffsklärung. - Aspell

Neue Seite

{{Infobox Software
| Logo =
| Screenshot =
| Beschreibung = 
| Maintainer =
| Hersteller = Cognitive Technologies
| Management =
| AktuelleVersion = 1.1.0
| AktuelleVersionFreigabeDatum = 19. April 2011
| AktuelleVorabVersion =
| AktuelleVorabVersionFreigabeDatum =
| Betriebssystem = [[Microsoft Windows|Windows]] ([[Linux]]- und [[FreeBSD]]-Portierungen verfügbar)
| Programmiersprache =
| Kategorie = [[Texterkennung]]
| Lizenz = [[BSD-Lizenz|BSD]] ([[Freie Software]])
| Deutsch = ja
| Website = [https://launchpad.net/cuneiform-linux launchpad.net]
}}
'''CuneiForm''' ([[englische Sprache|engl.]] für ''[[keilschrift]]lich'') ist eine [[Texterkennung]]ssoftware für gedruckte Erkennungsvorlagen des russischen Unternehmens ''[[Cognitive Technologies]]'' (Präsidentin [[Olga Anatoljewna Uskowa]]), die mittlerweile als [[freie Software]] verfügbar ist.

== Merkmale ==
CuneiForm erkennt gedruckte Vorlagen, jedoch keine Handschrift oder ähnliches, mit Sprachmodellen für über 20 verschiedene Sprachen. Gut funktioniert auch die Erkennung komplizierter Tabellenstrukturen. Ergebnisse können in [[Rich Text Format|RTF]], [[Hypertext Markup Language|HTML]] oder als [[American Standard Code for Information Interchange|ASCII]]-Text gespeichert oder direkt an die Textverarbeitung ''[[Microsoft Word|Word]]'' oder die Tabellenkalkulation ''[[Microsoft Excel|Excel]]'' exportiert werden. Es erhält Dokumentstruktur und Schriftarten und ermöglicht Stapelverarbeitung.

== Geschichte ==
CuneiForm war einst marktführend in [[Russland]] (in Konkurrenz zu [[FineReader]] des Unternehmens [[ABBYY]]) und wurde mit einigen [[Scanner (Datenerfassung)|Scannern]] mitgeliefert.

1993 ging Cognitive Technologies einen [[Original Equipment Manufacturer|OEM]]-Vertrag mit der [[kanada|kanadischen]] [[Corel]] Corporation ein, der die Einbindung der Erkennungsbibliothek in das [[CorelDraw Graphics Suite|Corel-Draw]]-Paket erlaubte, das ab Version 3.0 diese enthielt.

1996 wurde OCR CuneiForm'96 veröffentlicht. Es war das erste Texterkennungspaket, das mit einer adaptiven Erkennungsmethode arbeitete, d. h. einer Methode, die Multifont- und Omnifont-Erkennung verbindet: Es erfolgt eine interne Nachbildung der in der Erkennungsvorlage verwendeten Fonts (engl. für ''Schriftarten'') aus Zeichen, die in erkennbarer Qualität abgebildet sind. Dadurch wird im Anschluss auch die Erkennung von schlechter abgebildeten Zeichen möglich, da sich die Software bei der Erkennung dynamisch anpasst. Mit dieser Erkennungsmethode wird die Erkennungsgenauigkeit wesentlich gesteigert.

1997 wurde die Nutzung [[Neuronales Netz|neuronaler Netze]] bei der Erkennung eingeführt.

Seit 1999 kann die Software das Aussehen der Vorlage erhalten, indem die Anordnung der Elemente in der Ausgabe nachgebaut wird.

Im Rahmen eines Programmes, das erklärtermaßen Texterkennungstechnologie für jedermann verfügbar machen soll, hat Cognitive Technologies am 2. April 2008 angekündigt, die Software letzten Endes komplett als freie Software verfügbar zu machen. Als erster Schritt wurde nach einigen Jahren ohne Entwicklungsfortschritte am 12. Dezember 2007 eine [[Freeware]]-Version veröffentlicht.
Weiterhin wurde im Juni 2008 ein kostenloser Texterkennungsdienst im [[World Wide Web]] eingerichtet.

Als Investor und Projektkoordinator will Cognitive Technologies die Entwicklung einer neuen Version der Software fördern.
Seit Anfang April 2008 ist der Kern der Erkennungsengine unter der vereinfachten [[BSD-Lizenz]] frei verfügbar, um auch eine kommerzielle Verwendung zu ermöglichen.<ref>{{Webarchiv|url=http://www.cognitive.ru/about/news/2008/12.htm |wayback=20091106085318 |text=Cognitive Technologies открыла код OCR Cuneiform }}. Abgerufen am 30. März 2024.</ref> Am 30. August 2009 wurde auch die originale Benutzerschnittstelle offengelegt.

== Cuneiform Linux ==
Jussi Pakkanen hat eine plattformunabhängig kompilierbare Version der Software erstellt, die auf [[Linux]], [[Berkeley Software Distribution|BSD]], [[macOS]] und [[Microsoft Windows|Windows]] läuft.<ref>siehe das [https://launchpad.net/cuneiform-linux Projekt ''cuneiform-linux'' auf launchpad.net]</ref> Diese unabhängigen Entwicklungen sollen schließlich in den Hauptzweig von Cognitive Technologies integriert werden. Es handelt sich um eine reine Kommandozeilen-Version, die mittels der Einbindung von [[ImageMagick]] das Lesen einer Vielzahl von Dateiformaten erlaubt, während sonst einzig unkomprimiertes [[Windows Bitmap]] (BMP) unterstützt wird.
Ab Version 0.5 kann die Software auch in die Beschreibungssprache [[hOCR (Standard)|hOCR]] ausgeben.

=== Frontends ===
* ''YAGF''<ref>symmetrica.net: {{Webarchiv|text=''YAGF – graphical front-end for cuneiform and tesseract'' |url=http://symmetrica.net/cuneiform-linux/yagf-en.html |archive-is=20120720205923 }} (englisch)</ref> ist eine [[Qt (Bibliothek)|Qt]]-4-basierte graphische Benutzeroberfläche, die via X[[Scanner Access Now Easy|Sane]] Bilder direkt von einem Scanner einlesen und mittels lib[[GNU Aspell|aspell]] eine [[Rechtschreibprüfung]] durchführen kann.
* ''Cuneiform-Qt''<ref>https://en.altlinux.org/Cuneiform-Qt</ref> ist ein weiteres Qt-basiertes Frontend.
* ''OCRFeeder'' stellt eine komplette (scannen, Bildaufbereitung, Seitengestaltung analysieren und erhalten, Korrekturlesen, …) Desktop-OCR-Lösung zur Verfügung, mit der man neben anderen auch CuneiForm als Backend nutzen kann.
* ''WatchOCR''<ref>{{Webarchiv|url=http://www.watchocr.com/ |wayback=20130217015753 |text=WatchOCR }} (englisch)</ref> ist ein kostenloser OCR-Server für PDFs. WatchOCR verwendet CuneiForm, um aus PDFs mit (gescannten) Bildern durchsuchbare PDFs zu erstellen. Mittels eines Web-Interface kann WatchOCR so konfiguriert werden, dass es neu gescannte PDFs (in einem bestimmten Ordner) automatisch in durchsuchbare PDFs umwandelt. WatchOCR ist im Deb-Format für Ubuntu und als vorkonfigurierte Live-CD erhältlich.

Mittels eines Skripts (''xsane2cunei'') kann CuneiForm auch in die Scan-Software ''XSane'' eingebunden werden. Aus der hOCR-Ausgabe von CuneiForm können mittels des Kommandozeilenprogrammes ''hocr2pdf''<ref>[http://exactcode.de/site/open_source/exactimage/hocr2pdf/ exactcode.de/site/open_source/exactimage/hocr2pdf]</ref> Bilder-[[Portable Document Format|PDF]]-Dateien maschinell durchsuchbar gemacht werden. Die Kommandozeilenwerkzeuge pdfsandwich<ref>http://tobias-elze.de/pdfsandwich/</ref> oder pdfocr<ref>https://github.com/gkovacs/pdfocr</ref> automatisieren diesen Prozess.
Auch das Dokumentenmanagementsystem ''[[Archivista]]'' macht mittels CuneiForm und hocr2pdf PDFs maschinell durchsuchbar.

== Weblinks ==
* {{Launchpad|Cuneiform-Linux|Cuneiform Linux}}

== Einzelnachweise ==
<references />

[[Kategorie:Optische Zeichenerkennung]]
[[Kategorie:Freie Texterkennungssoftware]]
[[Kategorie:Windows-Software]]

CuneiForm - Versionsgeschichte

imported>Redf0x: WPCleaner v2.05 - Begriffsklärung. - Aspell