Glossar-Eintrag
Schrifteinbettung
Speicherung der verwendeten Schriftarten direkt in der PDF-Datei, damit Text überall identisch erscheint.
Die Schrifteinbettung (englisch Font-Embedding) bezeichnet das Speichern der verwendeten Schriftarten innerhalb der PDF-Datei. So wird der Text exakt wie gestaltet angezeigt, auch auf Geräten, auf denen die Originalschrift nicht installiert ist.
Ohne Einbettung muss das anzeigende Programm eine Ersatzschrift wählen, was Zeilenumbrüche und Zeichenbreiten verschieben kann. Mit eingebetteter Schrift bleibt die Darstellung geräteunabhängig stabil. PDF/A schreibt die vollständige Einbettung sogar zwingend vor.
Für die Textextraktion ist die Einbettung wichtig, weil eine eingebettete Schrift in der Regel die Zuordnung der Glyphen zu den Unicode-Zeichen mitliefert. Fehlt diese Zuordnung, kann pdf.js Glyphen nicht sauber in Buchstaben zurückübersetzen, was zu falschen Zeichen im Word-Ergebnis führt.
Verwandte Begriffe
Glyphe
Konkrete grafische Darstellung eines Zeichens in einer Schriftart, etwa die gezeichnete Form des Buchstabens "a".
PDF/A
Für die Langzeitarchivierung normierte PDF-Variante mit eingebetteten Schriften und ohne externe Abhängigkeiten.
Zeichenkodierung
Regelwerk, das Zeichen wie Buchstaben und Umlaute auf maschinenlesbare Zahlenwerte abbildet, etwa UTF-8.