traineddata

Sprachmodell-Datei für Tesseract, die das für die Erkennung einer bestimmten Sprache nötige Wissen enthält.

Eine traineddata-Datei ist das trainierte Sprachmodell, das die OCR-Engine Tesseract für die Texterkennung einer bestimmten Sprache benötigt. Sie enthält Informationen über die Buchstabenformen, Zeichenkombinationen und das Vokabular dieser Sprache.

Für jede zu erkennende Sprache wird die passende Datei geladen, etwa "deu.traineddata" für Deutsch oder "eng.traineddata" für Englisch. Das richtige Modell verbessert die Erkennung deutlich, weil die Engine dann typische Wörter und Sonderzeichen wie Umlaute kennt.

In tesseract.js werden diese Modelle bei Bedarf nachgeladen. Das bedeutet einen einmaligen Download von einigen Megabyte pro Sprache. Wählt man die falsche oder eine fehlende Sprache, sinkt die Erkennungsrate spürbar, weil die Engine den Text gegen das falsche Vokabular abgleicht.

traineddata

Verwandte Begriffe