Glossar-Eintrag
tesseract.js
JavaScript-Portierung der OCR-Engine Tesseract, die Texterkennung direkt im Browser ausführt.
tesseract.js ist eine JavaScript-Portierung der bekannten quelloffenen OCR-Engine Tesseract. Sie führt die Texterkennung vollständig im Browser des Nutzers aus, ohne dass Bilder an einen Server gesendet werden müssen.
Im Konverter kommt tesseract.js immer dann zum Einsatz, wenn ein gescanntes PDF keine Textebene hat. Die Engine bekommt das Seitenbild, erkennt darin die Buchstaben und gibt den Text samt Positionsangaben zurück, der danach mit der docx-Lib in ein Word-Dokument geschrieben wird.
Für die Erkennung lädt tesseract.js Sprachmodelle, sogenannte traineddata-Dateien. Pro Sprache wird ein passendes Modell benötigt, etwa "deu" für Deutsch. Die Genauigkeit ist solide, hängt aber stark von der Scan-Qualität ab. Bei verrauschten oder schiefen Vorlagen ist mit Erkennungsfehlern zu rechnen.
Verwandte Begriffe
OCR (Texterkennung)
Optische Zeichenerkennung, die aus einem Bild von Text echte, maschinenlesbare Buchstaben gewinnt.
traineddata
Sprachmodell-Datei für Tesseract, die das für die Erkennung einer bestimmten Sprache nötige Wissen enthält.
pdf.js
JavaScript-Bibliothek von Mozilla, die PDFs im Browser darstellt und ihre Textebene ausliest.