Glossar-Eintrag
traineddata
Sprachmodell-Datei für Tesseract, die das für die Erkennung einer bestimmten Sprache nötige Wissen enthält.
Eine traineddata-Datei ist das trainierte Sprachmodell, das die OCR-Engine Tesseract für die Texterkennung einer bestimmten Sprache benötigt. Sie enthält Informationen über die Buchstabenformen, Zeichenkombinationen und das Vokabular dieser Sprache.
Für jede zu erkennende Sprache wird die passende Datei geladen, etwa "deu.traineddata" für Deutsch oder "eng.traineddata" für Englisch. Das richtige Modell verbessert die Erkennung deutlich, weil die Engine dann typische Wörter und Sonderzeichen wie Umlaute kennt.
In tesseract.js werden diese Modelle bei Bedarf nachgeladen. Das bedeutet einen einmaligen Download von einigen Megabyte pro Sprache. Wählt man die falsche oder eine fehlende Sprache, sinkt die Erkennungsrate spürbar, weil die Engine den Text gegen das falsche Vokabular abgleicht.
Verwandte Begriffe
tesseract.js
JavaScript-Portierung der OCR-Engine Tesseract, die Texterkennung direkt im Browser ausführt.
OCR (Texterkennung)
Optische Zeichenerkennung, die aus einem Bild von Text echte, maschinenlesbare Buchstaben gewinnt.
Zeichenkodierung
Regelwerk, das Zeichen wie Buchstaben und Umlaute auf maschinenlesbare Zahlenwerte abbildet, etwa UTF-8.