pdf-word.de

Ratgeber · PDF zu Word 2026

PDF verstehen: Aufbau, ISO-Standard und feste Seiten

Der technische Aufbau des PDF-Formats: Adobe-Ursprung 1993, ISO 32000 seit 2008, das Seitenmodell aus Content-Streams und warum PDF auf feste Darstellung statt auf Bearbeitung ausgelegt ist.

Foto von Mateusz Viola

Von Mateusz Viola

Verfasser & redaktionelle Verantwortung pdf-word.de

8 min Lesezeit Veröffentlicht
Hinweis: Redaktioneller Inhalt. Mathematischer Rechner ohne Beratungsanspruch.

PDF beschreibt eine Seite, kein Textdokument

Eine Datei mit der Endung .pdf wirkt beim Öffnen wie ein gewöhnliches Schriftstück. Technisch ist sie aber etwas grundlegend anderes als eine Word-Datei. Das Portable Document Format beschreibt nicht den Inhalt eines Dokuments im Sinne von Absätzen und Sätzen, sondern das Aussehen einer Seite: Welcher Buchstabe steht an welcher Koordinate, in welcher Schrift, in welcher Größe. PDF ist damit näher an einer digitalen Druckvorlage als an einer Textverarbeitung.

Adobe entwickelte das Format 1993, um Dokumente plattformübergreifend identisch darstellen zu können. Eine PDF sieht auf einem Mac, einem Windows-PC, einem Smartphone und im Ausdruck gleich aus, unabhängig davon, welche Schriften oder Programme installiert sind. Seit 2008 ist PDF kein reines Adobe-Produkt mehr, sondern als ISO 32000 ein offener internationaler Standard. Jeder darf das Format lesen und schreiben, ohne Lizenzgebühren zu zahlen.

Was im Inneren einer PDF steckt

Eine PDF besteht aus mehreren Bausteinen, die zusammen das fertige Dokument ergeben. Die wichtigsten lassen sich grob so einteilen:

BausteinAufgabe
ObjekteBausteine wie Seiten, Schriften, Bilder und Textblöcke, durchnummeriert
Content-StreamDie Anweisungen pro Seite: setze Buchstabe X an Position Y
Cross-Reference-TabelleVerzeichnis, an welcher Byte-Position jedes Objekt liegt
TrailerEinstiegspunkt, der auf das Wurzelobjekt und die Tabelle zeigt

Der Content-Stream ist der Kern des Problems, wenn man eine PDF bearbeiten will. Dort steht nicht "Absatz mit folgendem Text", sondern eine Folge von Befehlen, die einzelne Zeichen an feste Punkte setzen. Es gibt kein Modell für durchgehenden Textfluss. Genau das unterscheidet PDF von DOCX, wo der Text in logischen Absätzen organisiert ist.

Warum sich eine PDF so schwer ändern lässt

Wer in einer PDF ein Wort ändern will, stößt schnell an Grenzen. In Word verschiebt das Einfügen eines Wortes automatisch den restlichen Text. In einer PDF passiert nichts dergleichen, weil es keine Verbindung zwischen den Buchstaben gibt. Jedes Zeichen sitzt an seiner Koordinate, und ein eingefügtes Wort würde einfach über den nächsten Buchstaben geschrieben. Echte Bearbeitung wird deshalb erst möglich, wenn man die PDF in ein editierbares Format zurückverwandelt.

Dazu kommt: Viele PDFs enthalten zwar eine durchsuchbare Textebene, aber längst nicht alle. Eine eingescannte PDF besteht nur aus einem Foto der Seite. Dort gibt es überhaupt keinen Text, sondern Pixel. Wie man beide Fälle unterscheidet, erklärt der Ratgeber Text-PDF vs. gescanntes PDF.

Der Weg zurück: PDF in Word umwandeln

Soll der Inhalt einer PDF bearbeitet werden, führt der Weg über die Umwandlung in DOCX. Dabei wird die Textebene ausgelesen und aus den Koordinaten wieder eine Struktur aus Absätzen rekonstruiert. Bei einem Scan kommt vorher eine OCR-Texterkennung zum Einsatz, die aus den Pixeln wieder Buchstaben macht. Dieser Konverter erledigt beides client-seitig im Browser: pdfjs-dist liest die PDF, tesseract.js übernimmt bei Scans die Erkennung, und die docx-Bibliothek baut daraus die Word-Datei. Eine Schritt-für-Schritt-Anleitung steht im Ratgeber PDF in Word umwandeln.

Wichtig zu wissen: Die Rückverwandlung ist nie perfekt. Weil eine PDF die logische Struktur nicht speichert, muss sie erraten werden. Das gelingt bei einfachem Fließtext gut, bei mehrspaltigem Satz oder Tabellen weniger. Mehr dazu im Ratgeber Formatierung nach der Konvertierung.

Die Geschichte in Stichpunkten

  • 1993: Adobe veröffentlicht PDF 1.0 zusammen mit Acrobat.
  • 2001: PDF/X für die Druckvorstufe wird normiert.
  • 2005: PDF/A (ISO 19005) für die Langzeitarchivierung erscheint.
  • 2008: PDF 1.7 wird als ISO 32000-1 offener Standard.
  • 2017: PDF 2.0 (ISO 32000-2) modernisiert den Standard.

Die ISO-Normung war ein entscheidender Schritt. Vorher kontrollierte Adobe das Format allein. Seitdem darf jede Software PDF erzeugen und lesen, was zu der heutigen Allgegenwart geführt hat. Behörden, Banken und Gerichte setzen auf PDF, gerade weil es geräteunabhängig und langfristig lesbar ist.

PDF im Vergleich zu anderen Formaten

FormatAusrichtungBearbeitbar
PDFfeste Seitendarstellungnur eingeschränkt
DOCXbearbeitbarer Textflussvoll
HTMLfließend, geräteabhängigvoll
JPEGreines Pixelbildnicht als Text

Der Vergleich zeigt die Rolle von PDF: Es steht zwischen einem Bild und einem Textdokument. Es bewahrt das Aussehen wie ein Bild, behält aber bei einem Text-PDF die Buchstaben als auslesbare Zeichen. Genau diese Zwitterstellung macht es so nützlich für den Versand fertiger Dokumente und gleichzeitig so unbequem für die nachträgliche Bearbeitung.

Sicherheit und Schutzfunktionen

PDF kann mit einem Passwort verschlüsselt, mit Berechtigungen versehen oder digital signiert werden. Ein Dokument lässt sich so einstellen, dass es zwar gelesen, aber nicht gedruckt oder kopiert werden darf. Solche Schutzmechanismen können auch die Umwandlung in Word verhindern, weil der Konverter dann gar nicht auf den Text zugreifen darf. In solchen Fällen muss zuerst der Schutz vom Inhaber entfernt werden, was nur mit dem Passwort legal möglich ist.

Schriften in der PDF: eingebettet oder referenziert

Damit eine PDF überall gleich aussieht, kann sie die verwendeten Schriften direkt einbetten. Dann reist die komplette Schriftdatei oder ein Teilausschnitt davon, das sogenannte Subset, mit dem Dokument. Wird eine Schrift nicht eingebettet, sondern nur ihr Name vermerkt, muss der anzeigende Computer eine passende Schrift selbst finden. Fehlt sie, springt eine Ersatzschrift ein und das Schriftbild verändert sich. Für die Umwandlung in Word hat das Folgen: Eingebettete Schriften liefern verlässlichere Buchstabencodes, während referenzierte Schriften manchmal nur über Positionsdaten zugeordnet werden können. Das erklärt, warum Umlaute in manchen PDFs sauber und in anderen fehlerhaft übernommen werden.

Tagged PDF: die unsichtbare Strukturebene

Es gibt eine Sonderform, die das Bearbeitungsproblem teilweise entschärft: das Tagged PDF. Hier legt der Ersteller zusätzlich zur visuellen Darstellung eine logische Struktur ab, ähnlich wie bei HTML, mit Markierungen für Überschriften, Absätze, Listen und Tabellen. Solche PDFs sind barrierefrei nutzbar, weil Screenreader die Struktur vorlesen können, und sie lassen sich deutlich zuverlässiger in Word zurückwandeln. Leider sind die meisten PDFs im Umlauf nicht getaggt, weil das Erstellen Mehraufwand bedeutet. Wer ein Dokument exportiert und weiß, dass es später bearbeitet werden soll, sollte die Option für getaggte PDFs aktivieren, falls das Programm sie anbietet.

Wofür PDF im Alltag steht

Die Allgegenwart von PDF hat handfeste Gründe. Behörden verlangen Anträge als PDF, weil das Layout fix bleibt und sich nichts unbemerkt verändern lässt. Banken verschicken Kontoauszüge als PDF, weil sie revisionssicher archiviert werden müssen. Verlage liefern Druckvorlagen als PDF/X, weil Druckereien sich auf eine exakte Farb- und Schriftwiedergabe verlassen. In all diesen Fällen ist die feste Darstellung kein Nachteil, sondern genau der Zweck. Erst wenn jemand den Inhalt wieder bearbeiten will, kippt der Vorteil in einen Aufwand, und genau dann kommt die Umwandlung in ein editierbares Format ins Spiel.

Fazit

PDF ist ein seitenbasiertes Format für die endgültige, geräteunabhängige Darstellung von Dokumenten. Sein Aufbau aus Content-Streams und einzeln platzierten Zeichen macht es zuverlässig für den Versand, aber sperrig für die Bearbeitung. Schriften können eingebettet sein, eine logische Struktur ist nur bei getaggten PDFs vorhanden. Wer den Inhalt ändern will, wandelt die PDF in ein editierbares Format wie DOCX um. Wie sich beide Formate grundsätzlich unterscheiden, vertieft der Ratgeber PDF vs. DOCX.

Häufige Fragen

Was Leserinnen und Leser sonst noch fragen

Wer hat das PDF-Format erfunden?
Adobe entwickelte PDF 1993 als Portable Document Format. Ziel war ein Dateityp, der auf jedem Gerät und Drucker identisch aussieht. Seit 2008 ist PDF kein reines Adobe-Format mehr, sondern als ISO 32000 ein offener internationaler Standard, den jede Software lesen und schreiben darf.
Warum lässt sich Text in einer PDF so schwer ändern?
Eine PDF speichert keine Absätze und Sätze, sondern Anweisungen der Art "setze diesen Buchstaben an diese Koordinate". Es gibt kein durchgehendes Textfluss-Modell wie in Word. Ein Wort einzufügen verschiebt deshalb nichts automatisch nach, weshalb echtes Bearbeiten erst nach der Umwandlung in ein editierbares Format wie DOCX praktikabel wird.
Enthält jede PDF durchsuchbaren Text?
Nein. Eine PDF aus Word oder einem Layoutprogramm enthält meist eine Textebene. Eine eingescannte PDF besteht dagegen nur aus einem Bild der Seite, ohne maschinenlesbaren Text. Ob Text vorhanden ist, erkennt man am einfachsten durch den Versuch, eine Stelle mit der Maus zu markieren.
Ist PDF dasselbe wie PDF/A?
Nicht ganz. PDF/A ist eine strengere, ISO-genormte Variante (ISO 19005) für die Langzeitarchivierung. Sie verbietet bestimmte Inhalte wie nicht eingebettete Schriften oder verschlüsselte Bereiche, damit das Dokument auch in Jahrzehnten noch identisch dargestellt werden kann.
Anzeige

Mehr zum Thema

Anzeige
Anzeige
Anzeige
Anzeige