pdf-word.de

Glossar-Eintrag

pdf.js

JavaScript-Bibliothek von Mozilla, die PDFs im Browser darstellt und ihre Textebene ausliest.

pdf.js ist eine quelloffene JavaScript-Bibliothek von Mozilla, die PDFs vollständig im Browser rendert und auswerten kann. Sie steckt unter anderem hinter der PDF-Anzeige in Firefox und kommt ohne Server oder Plugins aus.

Im PDF-zu-Word-Konverter übernimmt pdf.js den ersten Schritt: Es öffnet die PDF-Datei, durchläuft die Seiten und liest die enthaltene Textebene samt der Position jedes Textfragments aus. Diese Koordinaten sind die Grundlage für die anschließende Layout-Analyse.

pdf.js liest nur Text, der als Textebene vorhanden ist. Bei einem gescannten PDF ohne Textebene liefert es entsprechend keinen Text, sondern nur das Seitenbild. Dann muss die Texterkennung mit tesseract.js einspringen. Für durchsuchbare PDFs dagegen ist pdf.js der schnelle und genaue Weg.

Verwandte Begriffe

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige