Guten Morgen Ottmar,
ich nutze dafür OCRFeeder, damit komme ich ganz gut zurecht. https://wiki.ubuntuusers.de/OCRFeeder/
Für Kommandozeile kannst du aber auch tesseract nutzen: https://wiki.ubuntuusers.de/tesseract-ocr/
VG
Matthias
Am 21. Juli 2023 09:34:31 MESZ schrieb Ottmar-Schmidt@web.de:
Hallo Freunde,
kennt jemnd ein gutes Tooi um eine PDF in ein Word-Dokument OpenDocuemt etc. zu konvertieren .
VG
Ottmar
On 21.07.2023 09:34, Ottmar-Schmidt@web.de wrote:
Hallo Freund,
kennt jemnd ein gutes Tooi um eine PDF in ein Word-Dokument OpenDocuemt etc. zu konvertieren .
Das grenzt an die Frage, wie man aus einem Schnitzel eine Kuh macht.
Je nachdem wie gut das PDF ist, kann man mittels pdftotext den Text extrahieren. Du kannst noch versuchen aus dem PDF die Font-Informationen heraus zu holen, das hilft Dir das Dokument neu zu formatieren. Die Bilder (und ähnliches) sollten als eigenständige Objekte im PDF enthalten, es gibt sicher Methoden diese zu extrahieren.
Wenn der Ersteller gemein war und statt Buchstaben Pixelgrafiken eingebaut hat, muß man zu den schon genannten Methoden greifen.
Eine allg. Glücklichmacher kenne ich nicht, wie gesagt, es hängt ganz entscheidend davon ab, was im PDF wirklich drin ist.
Hilmar
lug-dd@mailman.schlittermann.de