Beispiel aus der Praxis
PDF-Paper auswerten: Wie Zitate sauber in eine Word-Datei wandern
Eine Studentin will aus einem zweispaltigen Fachartikel-PDF mehrere Passagen wörtlich zitieren. Wie die Konvertierung den Text liefert, warum die Spaltenreihenfolge tückisch ist und worauf beim Zitieren zu achten ist.
Eine Masterstudentin schreibt ihre Abschlussarbeit und will aus einem zweispaltigen Fachartikel mehrere Stellen wörtlich zitieren. Das Paper liegt als PDF vor und hat eine Textebene, lässt sich also markieren. Beim direkten Kopieren aus dem PDF-Viewer geraten die beiden Spalten jedoch durcheinander: Zeilen aus der linken und rechten Spalte landen abwechselnd im Text. Wir zeigen, wie die Konvertierung nach Word den Text strukturierter liefert und worauf beim Zitieren zu achten bleibt.
Warum das Kopieren aus dem PDF scheitert
Ein PDF speichert Text als Zeichen mit Koordinaten, nicht als Lesefluss. Bei einem einspaltigen Dokument fällt das nicht auf. Bei zwei Spalten weiß der einfache Kopier-Befehl nicht, dass erst die ganze linke und dann die ganze rechte Spalte gelesen wird. Er nimmt die Zeichen oft in der falschen Reihenfolge, und das Zitat wird zu Buchstabensalat.
Der Weg über die Word-Konvertierung
- Das PDF-Paper in den Konverter auf pdf-word.de ziehen.
- pdfjs liest die Textebene mit Positionsdaten aus; eine OCR ist nicht nötig, da das PDF echten Text enthält.
- Der Konverter ordnet den Text anhand der x- und y-Koordinaten und versucht, die Spalten in Lesereihenfolge zu bringen.
- Die docx-Bibliothek schreibt das Ergebnis als bearbeitbare .docx-Datei.
- In Word die gewünschten Passagen markieren und mit korrekter Quellenangabe in die Arbeit übernehmen.
Was bei Mehrspaltigkeit zu beachten ist
| Layout im PDF | Ergebnis in Word |
|---|---|
| Einspaltiger Fließtext | in korrekter Reihenfolge |
| Zweispaltiger Satz | meist spaltenweise getrennt, an der Spaltengrenze prüfen |
| Fußnoten und Seitenzahlen | als Text übernommen, können den Fluss unterbrechen |
| Formeln und Sonderzeichen | je nach Schrift unvollständig, einzeln prüfen |
| Wörtliches Zitat | immer gegen das Original abgleichen |
Die Pflicht beim wissenschaftlichen Zitieren
Ein wörtliches Zitat muss exakt mit der Quelle übereinstimmen. Egal ob der Text über Kopieren oder über die Konvertierung in die Arbeit kommt, die zitierte Stelle ist immer Zeichen für Zeichen gegen das Original-PDF zu prüfen. Die Konvertierung erleichtert das Heraustrennen der Spalten, ersetzt aber nicht den Abgleich. Seiten- und Spaltenangaben für den Beleg bleiben ebenfalls Sache des Autors.
Lehre aus dem Fall
Die Word-Konvertierung löst das Mehrspalten-Chaos beim Kopieren besser als der direkte Kopier-Befehl, weil sie den Text nach Position sortiert. Eine Garantie für perfekte Lesereihenfolge ist sie nicht, vor allem an Spaltengrenzen und bei Formeln. Für das Sammeln und Aufbereiten von Zitaten ist sie ein nützlicher Zwischenschritt, der die Endkontrolle am Original nicht abnimmt.