OCR (Texterkennung)

Optische Zeichenerkennung, die aus einem Bild von Text echte, maschinenlesbare Buchstaben gewinnt.

OCR steht für Optical Character Recognition, also optische Zeichenerkennung. Das Verfahren analysiert das Bild einer Seite, erkennt darin die Formen von Buchstaben und Ziffern und wandelt sie in echten, maschinenlesbaren Text um.

OCR ist immer dann nötig, wenn ein PDF keine Textebene hat, also bei gescannten oder fotografierten Dokumenten. Ohne sie bliebe der Inhalt ein reines Bild und ließe sich nicht in ein bearbeitbares Word-Dokument überführen.

Im Konverter übernimmt tesseract.js diese Aufgabe direkt im Browser. Die Erkennung ist gut, aber nicht unfehlbar: Schlechte Auflösung, schiefe Scans, Flecken, ungewöhnliche Schriften oder geringer Kontrast senken die Trefferquote. Erwartbar sind einzelne falsch erkannte Zeichen, weshalb ein erkanntes Dokument grundsätzlich Korrektur gelesen werden sollte.

OCR (Texterkennung)

Verwandte Begriffe