pdf-word.de

Glossar-Eintrag

tesseract.js

JavaScript-Portierung der OCR-Engine Tesseract, die Texterkennung direkt im Browser ausführt.

tesseract.js ist eine JavaScript-Portierung der bekannten quelloffenen OCR-Engine Tesseract. Sie führt die Texterkennung vollständig im Browser des Nutzers aus, ohne dass Bilder an einen Server gesendet werden müssen.

Im Konverter kommt tesseract.js immer dann zum Einsatz, wenn ein gescanntes PDF keine Textebene hat. Die Engine bekommt das Seitenbild, erkennt darin die Buchstaben und gibt den Text samt Positionsangaben zurück, der danach mit der docx-Lib in ein Word-Dokument geschrieben wird.

Für die Erkennung lädt tesseract.js Sprachmodelle, sogenannte traineddata-Dateien. Pro Sprache wird ein passendes Modell benötigt, etwa "deu" für Deutsch. Die Genauigkeit ist solide, hängt aber stark von der Scan-Qualität ab. Bei verrauschten oder schiefen Vorlagen ist mit Erkennungsfehlern zu rechnen.

Verwandte Begriffe

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige