Optical Character Recognition

Die Erkennung optischer Zeichen und Buchstaben bezeichnet man als Optical Charakter Recognition (OCR) Die OCR ist eine Ausprägung der Auto-ID. Neben RFID, Barcode, Smart Card und Biometrie stellt sie einen Teil der automatischen Identifikationsverfahren dar. Die erste Form von Zeichenerkennung wurde in den USA um 1800 in einem Patent als "Lesehilfe für Blinde" entwickelt. Mit dem Aufkommen von Computern wurden ab 1951 immer leistungsfähigere Softwareprogramme zur Texterkennung entwickelt, so dass die Zeichenerkennung inzwischen auch im logistischen Bereich Einzug gehalten hat. Ein besonders großes Anwendungsgebiet hat sich dabei bei Postdiensten in der Erkennung von Adressen auf Briefen und Päckchen ergeben. Hier steuert die OCR beispielsweise die Sortierung in Verteilzentren.

Verfahren Beim Scannen von Dokumenten werden Bitmap oder Pixelgrafiken erzeugt, die von der OCR Software mit Pixelmustern in einer Datenbank verglichen werden. Nach einer Fehlerkorrektur (Vergleich der erzeugten Rohdigitalisate mit Wörterbüchern) werden die erzeugten Rohdigitalisate in das gewünschte Ausgabeformat (z.B. ASCII) codiert. Entscheidende Kriterien für eine erfolgreiche Texterkennung sind:

Qualität der Originalvorlage (Verschmutzungsgrad, Kontrast, Schriftart)
Umfang der verwendeten Musterdatenbank
Umfang der Wörterbücher

Seitenhierarchie

Optical Character Recognition