hanheik
Goto Top

Welche gescannten PDFs enthalten Text und welche nicht?

Hallo,

je nach verwendetem Multifunktionsgerät sind in einem Büro über die Jahre PDFs mit OCR- und PDFs ohne OCR (nur Bild, ohne enthaltenem Text) entstanden und zu einem Riesenhaufen PDFs geworden.
Wie könnte man die OCR-PDFs von den nicht-OCR-PDFs trennen?

lG

Content-Key: 526149

Url: https://administrator.de/contentid/526149

Ausgedruckt am: 29.03.2024 um 08:03 Uhr

Mitglied: 142232
142232 16.12.2019 aktualisiert um 13:39:25 Uhr
Goto Top
Mit pdftk oder iTextSharp Text mit der Skriptsprache seiner Wahl extrahieren, wenn nix da verschiebe in Ordner x wenn doch in y.
Mitglied: godlie
godlie 16.12.2019 um 13:50:32 Uhr
Goto Top
Hallo,

ich würde mir da mithilfe von qpdf --json file.pdf ein Script zusammensetzen, welches eine Auswertung der Objects macht.
Mitglied: beidermachtvongreyscull
Lösung beidermachtvongreyscull 16.12.2019 um 14:29:44 Uhr
Goto Top
Mitglied: hanheik
hanheik 16.12.2019 um 14:43:40 Uhr
Goto Top
Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
Mitglied: 142232
142232 16.12.2019 aktualisiert um 15:03:32 Uhr
Goto Top
Zitat von @hanheik:

Also eigentlich braucht man nur nach "/Text" in den PDFs zu suchen!
Achtung das kann dir zum Verhängnis werden wenn Kompression im PDF ins Spiel kommt, wasserdicht ist das auf jeden Fall nicht.
Mitglied: hanheik
hanheik 13.03.2020 um 16:40:00 Uhr
Goto Top
Man kann auch mit Total Commander und Plugin xPDFSearch im Feld Text nach * suchen, dann kommen die PDFs mit Textebene raus.