Glossar-Eintrag
Glyphe
Konkrete grafische Darstellung eines Zeichens in einer Schriftart, etwa die gezeichnete Form des Buchstabens "a".
Eine Glyphe ist die sichtbare, gezeichnete Form eines Zeichens innerhalb einer Schriftart. Ein und dasselbe Zeichen, etwa der Buchstabe a, sieht in verschiedenen Schriften unterschiedlich aus, weil jede Schrift eine eigene Glyphe dafür mitbringt.
Wichtig ist die Unterscheidung zwischen Zeichen und Glyphe: Das Zeichen ist die abstrakte Bedeutung (der Codepunkt im Unicode), die Glyphe ist seine konkrete Darstellung. Eine Ligatur etwa fasst zwei Zeichen zu einer einzigen Glyphe zusammen.
Bei der Textextraktion aus einem PDF kann dieser Unterschied Probleme bereiten. Manche PDFs speichern intern Glyphen-Indizes statt klarer Zeichen-Codes. Fehlt die korrekte Zuordnung zurück auf den Unicode-Codepunkt, liest pdfjs unter Umständen falsche oder leere Zeichen aus, was die Umwandlung verfälscht.
Verwandte Begriffe
Ligatur
Verschmelzung mehrerer Buchstaben zu einer einzigen Glyphe, etwa "fi" oder "fl" in vielen Schriften.
Zeichenkodierung
Regelwerk, das Zeichen wie Buchstaben und Umlaute auf maschinenlesbare Zahlenwerte abbildet, etwa UTF-8.
Schrifteinbettung
Speicherung der verwendeten Schriftarten direkt in der PDF-Datei, damit Text überall identisch erscheint.