Eingescannter Vertrag als Bild-PDF: Wie OCR daraus eine bearbeitbare Word-Datei macht

Ein Betrieb hat einen alten Vertrag nur als eingescanntes PDF. Eine Klausel muss angepasst werden, das Word-Original ist verschollen. Wie OCR den Text zurückholt und worauf bei der Prüfung zu achten ist.

Ein Hausverwalter in Hamburg soll einen Mietvertrag aus dem Jahr 2014 um eine aktualisierte Klausel ergänzen. Vorhanden ist nur ein eingescanntes PDF, drei Seiten, abgelegt als Bild ohne Textebene. Die ursprüngliche Word-Datei existiert nicht mehr. Abtippen wäre fehleranfällig und langsam. Wir zeigen, wie der Konverter über OCR eine bearbeitbare .docx-Datei erzeugt und wo der Anwender nachkontrollieren muss.

Das Problem: ein PDF ohne Textebene

Ein PDF kann Text auf zwei Arten enthalten. Bei einem aus Word oder einem Programm erzeugten PDF liegt der Text als auslesbare Zeichenebene vor. Ein eingescanntes Dokument dagegen ist nur ein Foto der Seite: Pixel, kein Text. Markieren und Kopieren funktioniert nicht, weil es nichts zu markieren gibt. Genau hier setzt die Texterkennung (OCR) an.

Die Lösung: OCR liest die Buchstaben aus dem Bild

Der Konverter auf pdf-word.de prüft zuerst, ob das PDF eine Textebene hat. Findet er keine, schaltet er auf OCR um und erkennt die Buchstaben aus dem Seitenbild.

Das gescannte Vertrags-PDF per Drag-and-drop in den Browser ziehen.
pdfjs rendert jede Seite zu einem Bild, weil keine auslesbare Textebene vorhanden ist.
tesseract.js führt die Texterkennung in deutscher Sprache durch und liefert den erkannten Fließtext.
Die docx-Bibliothek schreibt den Text in eine bearbeitbare .docx-Datei mit Absätzen und Überschriften.
Die Word-Datei herunterladen, die Klausel einfügen und das Ergebnis Wort für Wort gegen den Scan prüfen.

Vorher / Nachher

Aspekt	Gescanntes PDF	Word-Datei nach OCR
Text markierbar	nein, nur Bild	ja, editierbar
Klausel ändern	nicht möglich ohne Abtippen	direkt in Word
Texttreue	Original	hoch, aber OCR-Fehler möglich
Aufwand	vollständig abtippen	nur Korrekturlesen

Wo OCR Fehler macht

Die Erkennung ist gut, aber nicht fehlerfrei. Typische Stolperstellen sind verwechselte Zeichen (1 und l, 0 und O, rn und m), schlechte Scanqualität, schräg eingescannte Seiten und Stempel oder handschriftliche Notizen über dem Text. Zahlen in Vertragsklauseln, Beträge und Daten müssen deshalb Zeichen für Zeichen geprüft werden. Die Word-Fassung aus OCR ist ein Arbeitsentwurf, keine geprüfte Endfassung.

Lehre aus dem Fall

OCR spart das vollständige Abtippen und macht ein totes Bild-PDF wieder bearbeitbar. Die erkannte Word-Datei ist die Grundlage für die Bearbeitung, ersetzt aber nicht das Korrekturlesen gegen das Original. Wer das beachtet, spart bei längeren Dokumenten viel Zeit, ohne die inhaltliche Genauigkeit aufzugeben.

Mehr Beispiele

Rechnung als PDF erhalten: Wie der Inhalt in einer Word-Datei weiterverarbeitbar wird

Business

PDF-Paper auswerten: Wie Zitate sauber in eine Word-Datei wandern

Praxis