Glossar-Eintrag
Textebene
Die maschinenlesbare Textschicht eines PDFs, die markiert, kopiert und durchsucht werden kann.
Die Textebene ist die maschinenlesbare Schicht eines PDFs, die den eigentlichen Text als Zeichen speichert, nicht als Bild. Liegt sie vor, kann man den Inhalt markieren, kopieren, durchsuchen und herauslesen.
PDFs, die direkt aus einem Textprogramm exportiert werden, bringen diese Ebene von Haus aus mit. Gescannte PDFs hingegen besitzen sie zunächst nicht, sondern enthalten nur ein Pixelbild. Erst eine nachträgliche OCR ergänzt eine Textebene.
Für die Umwandlung in Word ist eine vorhandene Textebene der schnellste und genaueste Weg. pdf.js liest sie samt Positionsdaten direkt aus, ohne Texterkennung und ohne deren Fehlerquellen. Sonderzeichen und Umlaute bleiben dabei erhalten, sofern die Schrift eine korrekte Zuordnung der Glyphen zu den Unicode-Zeichen mitliefert.
Verwandte Begriffe
Durchsuchbares PDF
PDF mit einer maschinell lesbaren Textebene, sodass sich der Inhalt markieren, kopieren und durchsuchen lässt.
pdf.js
JavaScript-Bibliothek von Mozilla, die PDFs im Browser darstellt und ihre Textebene ausliest.
OCR (Texterkennung)
Optische Zeichenerkennung, die aus einem Bild von Text echte, maschinenlesbare Buchstaben gewinnt.