Textebene

Die maschinenlesbare Textschicht eines PDFs, die markiert, kopiert und durchsucht werden kann.

Die Textebene ist die maschinenlesbare Schicht eines PDFs, die den eigentlichen Text als Zeichen speichert, nicht als Bild. Liegt sie vor, kann man den Inhalt markieren, kopieren, durchsuchen und herauslesen.

PDFs, die direkt aus einem Textprogramm exportiert werden, bringen diese Ebene von Haus aus mit. Gescannte PDFs hingegen besitzen sie zunächst nicht, sondern enthalten nur ein Pixelbild. Erst eine nachträgliche OCR ergänzt eine Textebene.

Für die Umwandlung in Word ist eine vorhandene Textebene der schnellste und genaueste Weg. pdf.js liest sie samt Positionsdaten direkt aus, ohne Texterkennung und ohne deren Fehlerquellen. Sonderzeichen und Umlaute bleiben dabei erhalten, sofern die Schrift eine korrekte Zuordnung der Glyphen zu den Unicode-Zeichen mitliefert.

Textebene

Verwandte Begriffe