Glossar-Eintrag
OCR (Texterkennung)
Optische Zeichenerkennung, die aus einem Bild von Text echte, maschinenlesbare Buchstaben gewinnt.
OCR steht für Optical Character Recognition, also optische Zeichenerkennung. Das Verfahren analysiert das Bild einer Seite, erkennt darin die Formen von Buchstaben und Ziffern und wandelt sie in echten, maschinenlesbaren Text um.
OCR ist immer dann nötig, wenn ein PDF keine Textebene hat, also bei gescannten oder fotografierten Dokumenten. Ohne sie bliebe der Inhalt ein reines Bild und ließe sich nicht in ein bearbeitbares Word-Dokument überführen.
Im Konverter übernimmt tesseract.js diese Aufgabe direkt im Browser. Die Erkennung ist gut, aber nicht unfehlbar: Schlechte Auflösung, schiefe Scans, Flecken, ungewöhnliche Schriften oder geringer Kontrast senken die Trefferquote. Erwartbar sind einzelne falsch erkannte Zeichen, weshalb ein erkanntes Dokument grundsätzlich Korrektur gelesen werden sollte.
Verwandte Begriffe
tesseract.js
JavaScript-Portierung der OCR-Engine Tesseract, die Texterkennung direkt im Browser ausführt.
traineddata
Sprachmodell-Datei für Tesseract, die das für die Erkennung einer bestimmten Sprache nötige Wissen enthält.
Gescanntes PDF
PDF, das eine Seite nur als Bild enthält, ohne maschinell lesbaren Text, etwa aus einem Scanner oder Foto.