pdf-word.de

Glossar-Eintrag

Tabellenerkennung

Verfahren, das Zeilen- und Spaltenstrukturen in einem Dokument erkennt und als Tabelle rekonstruiert.

Die Tabellenerkennung versucht, aus der Anordnung von Texten und Linien eine logische Tabellenstruktur mit Zeilen und Spalten zu rekonstruieren. Sie ist die Voraussetzung dafür, dass eine im PDF dargestellte Tabelle im Word-Dokument wieder als echte Tabelle erscheint und nicht als loser Text.

Die Aufgabe ist technisch anspruchsvoll, weil PDFs Tabellen sehr unterschiedlich speichern. Manche nutzen sichtbare Linien, andere nur Abstände, wieder andere verschachtelte oder zusammengefasste Zellen. Die Software muss aus Position und Ausrichtung der Textfragmente auf die Zellgrenzen schließen.

Ehrlich gesagt ist dies eine der größten Schwachstellen jeder PDF-zu-Word-Umwandlung. Einfache, klar linierte Tabellen gelingen oft, komplexe Tabellen mit verbundenen Zellen, Umbrüchen innerhalb der Zellen oder ohne Trennlinien werden jedoch häufig nur als ausgerichteter Text statt als echte Tabelle übernommen. Eine manuelle Nachbearbeitung ist dann meist nötig.

Verwandte Begriffe

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige