imkimkimk
Goto Top

Eingescannte Dokumente durchsuchen

Hallo,

ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Natürlich gibt es solche Lösungen für Unternehmen, die sind dann entsprechend teuer. Ich suche aber etwas was man auch als Privatanwender nutzen kann und nach möglichkeit keine Cloud-Lösung ist.

hat jemand einen Tipp für mich? face-smile

Content-Key: 489779

Url: https://administrator.de/contentid/489779

Printed on: April 26, 2024 at 11:04 o'clock

Member: Henere
Henere Aug 29, 2019 at 14:11:35 (UTC)
Goto Top
Servus. Schau dir mal Paperport an.
Member: Floooh
Floooh Aug 29, 2019 updated at 14:15:28 (UTC)
Goto Top
Windows oder Linux?

https://www.linux-magazin.de/ausgaben/2004/04/finden-im-sauseschritt/

Kostenfrei und schnell aufgesetzt. face-smile
Member: erikro
erikro Aug 29, 2019 at 14:22:41 (UTC)
Goto Top
Moin,

was Du suchst ist ein Document Management System (kurz DMS). Da gibt es auch einiges als freeware oder open source. Empfehlen kann ich Dir nichts, da das stark von der Art der Dokumente und den Zielen abhängt, was man so braucht.

Liebe Grüße

Erik
Member: em-pie
em-pie Aug 29, 2019 at 15:17:53 (UTC)
Goto Top
Moin,

@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...

Gruß
em-pie
Member: erikro
erikro Aug 29, 2019 at 15:19:54 (UTC)
Goto Top
Zitat von @em-pie:

Moin,

@erikro
Was er sucht ist OCR nicht DMS. Er will die Dokumente ja nicht verwalten sondern durchsuchbar machen...

Das verstehe ich anders. Eingescannte Dokumente (Plural) durchsuchen heißt m. E., dass er verschiedene PDFs nach Schlagworten durchsuchen möchte. Aber vielleicht klärt das der TO mal. face-wink
Member: NetzwerkDude
NetzwerkDude Aug 29, 2019 at 15:58:06 (UTC)
Goto Top
tesseract-ocr

Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%
Member: Pjordorf
Pjordorf Aug 29, 2019 at 21:11:47 (UTC)
Goto Top
Hallo,

Zitat von @imkimkimk:
ich bin auf der Suche nach einem Tool mit dem ich eingescannte Dokumente(als pdf) durchsuchen kann.
Was ist in dein PDF enthalten? Ein eingescanntes Bild? Nur eingescannter Text der schon mit OCR behandelt wurde? Fragen über fragen. Nur weil etwas wie ein A aussieht muss es noch lange kein A sein, es kann auch nur das Bild eines A sein, und Text durchsuchen setzt nunmal Text voraus. Schon mal dir ein PDF auf Dateiebene angesehen wie die sich unterscheiden?

Gruß,
Peter
Member: beidermachtvongreyscull
beidermachtvongreyscull Aug 30, 2019 updated at 05:17:31 (UTC)
Goto Top
Habe ich:

Schau Dir mal PDF X-Change Editor an.

Eine der kostenlosen Funktionen ist auch, dass Du damit PDF-Dokumente durchsuchbar machen und als solche speichern kannst.

Ferner: Du kannst kostenpflichtige Funktionen sogar ausblenden, wenn Du nicht bezahlen willst.

https://www.tracker-software.com/product/pdf-xchange-editor
Member: Questionmark93
Questionmark93 Aug 30, 2019 at 09:46:49 (UTC)
Goto Top
Also ich verstehe das auch so, dass da schon eine OCR Erkennung drüber ist beim Einscannen?
Also wenn das schon der Fall ist dann reicht ein Ordner und in dem Ordner kannst du eigentlich
mit Parametern suchen über die Windowssuche oben rechts im Eck

inhalt:"Rechnung muss bis zum 12.09.2019 bezahlt werden!"

Das wäre der einfachste Weg
Member: Questionmark93
Questionmark93 Aug 30, 2019 at 10:19:48 (UTC)
Goto Top
Zitat von @NetzwerkDude:

tesseract-ocr

Ganz gut dank API / Kommandozeileninterface, hab mir letztes Jahr z.B. daraus ein Tool gehackt das die Rechnungen / Lieferscheine nach der Referenznummer und Dokumentenart benennt - Erfolgsquote ~ 95%

Nach Anleitung oder selbst? Hast du dazu die Seite (Kenne mich in dem Bereich Programmierung nicht aus)
Member: NetzwerkDude
NetzwerkDude Aug 30, 2019 updated at 10:26:19 (UTC)
Goto Top
Selbst, schlussendlich gehts darum wie man am besten OCR Fehler behandelt (da gerne mal zufällige zeichen erkannt werden) - und da muss man schauen ob man besser mit RegEx oder Levenshtein Distanz fährt usw.

Das Tool ist leider nicht allzu universell da ich mit einem sehr speziellen Regex die Firmenspezifischen Infos rausziehe.

Schlussendlich sinds zwei Schritte:
- Ursprungsscan behandeln (begradigen, optimalen Kontrast finden etc.) und an tesseract übergeben
- die Ausgabe durchsuchen