tdse13
Goto Top

EcoDMS erkennt Text nicht richtig

Seit gestern beschäftige ich mich eingehend mit ecoDMS. Es läuft auf einer Synology 918+ als Docker image. Alles ist eingerichtet. Nun habe ich folgendes Problem:

ecoDMS erkennt nicht den Inhalt von z.B. Kontoauszügen der Deutschen Bank. Ich habe alte Kontoauszüge, die mir von der Deutschen Bank als pdf Datei vorlagen einfach in den Scanordner gepackt, um sie dann automatisch verarbeiten zu lassen.

Beispiel:

SEPA Lastschrifteinzug von
gas.de Versorgungsgesellschaft mbH
Verwendungszweck/ Kundenreferenz
ABSCHLAG Gas 09/17 VK

wird erkannt als:

pbmA iastscÜrifteinzug von
gasKde sersorgungsgeseääscÜaft mbe serwendungszweckL hundenreferenz
ABpCeiAd das MVLNT shW


Das "Original" stammt aus dem Original PDF, welches ich mit Adobe Acrobat geöffnet habe und dann hier mit Copy & Paste eingefügt. Das "schlecht" erkannte stammt aus dem in ecoDMS gespeicherten pdf nach der OCR Erkennung. Daher ist eine Textsuche und Erkennung nicht möglich.

Bei anderen pdf's auch von einer anderen Bank (ING-DIBA) funktioniert die Erkennung ohne Probleme. Ich habe schon einmal die gesamte Installation komplett gelöscht und neu aufgesetzt. Leider ohne Erfolg. Unter Eigenschaften beim Acrobat Reader steht zu dem Dokument: xep ver 4.19 20110414 und pdf Verson 1.4 (Acrobat 5.x)

Hat jemand eine Lösung? Vielen Dank.

Content-Key: 590099

Url: https://administrator.de/contentid/590099

Printed on: April 24, 2024 at 04:04 o'clock

Member: monstermania
monstermania Jul 23, 2020 at 12:59:06 (UTC)
Goto Top
Ich würde auf unterschiedliche Schriftarten/Fonts tippen. Manche OCR-Engines haben mit bestimmten Schriftarten so Ihre Probleme...
BTW: Warum muss überhaupt eine OCR auf dem PDF gemacht werden, wenn das PDF ja offenbar bereits mit Volltext vorhanden ist?
Member: tdse13
tdse13 Jul 23, 2020 at 13:11:28 (UTC)
Goto Top
Die Schriftart ist ArialMT. Der normale Workflow ist doch, entweder ein Dokument als pdf in den entsprechenden Ordner zu scannen bzw. als Datei dort abzulegen. Dann beginnt der eigentliche Workflow der ecoDMS entweder automatisch, sofern die Inhalte erkannt werden, oder manuell.

Da in Deutschland sicherlich ein größerer Teil der Unternehmen ein Konto auch bei der Deutschen Bank betreibt, wundert es mich, daß ich nichts darüber gefunden habe.

Gibt es dafür eine Einstellung oder eine sonstige Einstellung, um die Kompatibilität zu erhöhen?
Member: vossi31
vossi31 Jul 23, 2020 at 17:36:31 (UTC)
Goto Top
Moin,

ich habe das mit anderen Dokumenten mit ecoDMS auch schon erfahren müssen.
Merkwürdigerweise waren die Ergebnisse besser wenn man das Dokument nicht über den Scanordner verarbeitet hat sondern mit dem ecoDMS-Drucker "gedruckt" hat. Aber eine Lösung ist das natürlich nicht.

Henning
Member: tdse13
tdse13 Jul 23, 2020 at 22:16:36 (UTC)
Goto Top
Ich nutze einen Mac. Da gibt es keinen Drucker. Es geht darum, was eigentlich jede Firma hat, Bankauszüge zu archivieren. Das sollte doch eigentlich immer funktionieren.
Member: StefanKittel
StefanKittel Jul 24, 2020 at 05:59:23 (UTC)
Goto Top
Moin,

sieht nach einer wenig optimalen Texterkennung aus.

Was sagt denn der Support vom Hersteller dazu?

Stefan
Member: tdse13
tdse13 Jul 24, 2020 at 06:26:16 (UTC)
Goto Top
Support ist kostenpflichtig, daher versuche ich hier, eine Lösung zu finden.
Member: monstermania
monstermania Jul 24, 2020 at 06:33:31 (UTC)
Goto Top
Zitat von @tdse13:
Gibt es dafür eine Einstellung oder eine sonstige Einstellung, um die Kompatibilität zu erhöhen?
Da Du einen Mac einsetzt, bin ich im Prinzip raus!
Grundsätzlich ist das aber ein Software-Problem.
Es handelt sich bei dem zu verarbeitenden PDF ja offenbar um ein Volltext-basiertes PDF. So ein PDF sollte von jedem DMS sofort erkannt werden und dementsprechend überhaupt keine OCR mehr durchgeführt werden!
OCR macht nur bei gescannten Dokumenten Sinn.

Du solltest Dich mit Deinem Problem an den Hersteller wenden.
Member: StefanKittel
StefanKittel Jul 24, 2020 at 06:47:36 (UTC)
Goto Top
Zitat von @tdse13:
Support ist kostenpflichtig, daher versuche ich hier, eine Lösung zu finden.
Umsonst ist der Tot face-smile

War es denn damals ein digitales PDF? Also von Software erstellt?
Oder wurde es eingescannt.

Ohne das PDF zu sehen ist es schwer dazu was zu sagen.

Das von Dir beschriebene Problem gibt es eigentlich nur bei gescannten Dokumenten mit schlechter Bildqualität.
Ich habe aber auch schon digitale PDFs gesehen wo jeder Buchstabe eine Box ein eigenes Textfeld war.

Öffne mal bitte das PDF in einem PDF Reader. Strg+A, Strg+V, Notepad öffnen, einfügen
Schau mal was da ankommt.
Member: tdse13
tdse13 Jul 24, 2020 at 08:49:51 (UTC)
Goto Top
Es handelt sich um einen Kontoauszug der Deutschen Bank, der bei der Deutschen Bank mit einer Software erstellt wurde. Die Qualität ist optimal.

Folgendes habe ich gemacht und es hat funktioniert: Ich habe den Kontoauszug auf meinem Mac in ein pdf/a umgewandelt und jetzt erkennt ecoDMS den Text einwandfrei. Das ist aber keine Lösung, da niemand seine Kontoauszüge, die in einem pdf Format vorliegen, nochmals als Speichern möchte. Bei mir geht es alleine schon um 200 Stück. In einer Firma fällt täglich ein Auszug an, so daß dort kein Mitarbeiter diese Arbeit durchführen wird. Es muß eine einfache Lösung geben.
Member: colinardo
colinardo Jul 24, 2020 updated at 09:37:33 (UTC)
Goto Top
Servus @tdse13 .
Zitat von @tdse13:
Es muß eine einfache Lösung geben.
Die gibt es. Melde dich beim ecoDMS. Es gibt spezielle PDFs die sowohl eine Text als auch Bildebene besitzen, vermutlich verschluckt sich das System an denen, bzw. nutzt statt der Text fälschlicherweise die Bildebene weil nicht eindeutig markiert, und Tesseract ist halt nicht so perfekt wie bspw. Abbyy. Da gibt es so viele Varianten, deswegen gibt es da oftmals Probleme. Genau deshalb wurde ja z.B. der Standard PDF/A geschaffen.

Wenn der Support davon erfährt und man ihm z.B. das PDF zur Verfügung stellt kann er das prüfen und evt. ein Update zur Verfügung stellen. Das kommt dann allen zugute!
Wenn du also deine PDFs nicht erneut durch eine Umwandlungsstufe schicken willst bleibt dir wohl oder übel nur diese Variante. Btw. du bekommst das System ja schon umsonst, was erwartest du?

bei der Deutschen Bank mit einer Software erstellt wurde
Von der deutschen Bank hatte ich schon mal ein paar seltsame PDFs eines Kunden, die werden dort wohl so seltsam erstellt wie deren Vorstände wechseln. Offensichtlich haben die andere Vorstellungen von manchen Dingen face-wink.

Grüße Uwe

p.s. fürs nächste mal bitte Discussion guidelines - The rules for our content beachten, hier antworten dir immerhin noch Menschen "kostenlos" und keine Bots.
Member: StefanKittel
StefanKittel Jul 24, 2020 at 10:55:01 (UTC)
Goto Top
Zitat von @tdse13:
Folgendes habe ich gemacht und es hat funktioniert: Ich habe den Kontoauszug auf meinem Mac in ein pdf/a umgewandelt und jetzt erkennt ecoDMS den Text einwandfrei.
Das wäre mich der Beweis, dass das PDF fehlerhaft oder zumindest ungewöhnlich erstellt wurde.

Es handelt sich um einen Kontoauszug der Deutschen Bank, der bei der Deutschen Bank mit einer Software erstellt wurde. Die Qualität ist optimal.
Bloss wiel eine Firma groß ist muss sie keine technisch richtigen PDFs erstellen (können).

Am besten an EcoDMS wenden damit die sich das anschauen.

Alternativ ein Skript bauen, z.B. mit pdftk, um die PDFs routinemäßig umzuwandeln.
Member: tdse13
tdse13 Jul 24, 2020 at 15:35:33 (UTC)
Goto Top
Hallo Uwe,

Danke für Deine Antwort. Ich werde ein pdf von der Deutschen Bank suchen, welches am wenigsten persönliche Infos enthält und es ecoDMS zur Verfügung stellen. Trotzdem komisch, daß ich als "kleiner" Privatnutzer ein Problem habe, was eigentlich die normalen geschäftlichen Nutzer schon lange "entdeckt" haben müssen. Meine Auszüge gehen ins Jahr 2003 zurück, mit dem immer gleichen Problem.

p.s. fürs nächste mal bitte Discussion guidelines - The rules for our content beachten, hier antworten dir immerhin noch Menschen "kostenlos" und keine Bots.

Danke für den Hinweis. Werde ihn ab sofort respektieren.

Viele Grüße
Thomas
Member: monstermania
monstermania Jul 27, 2020 at 07:57:27 (UTC)
Goto Top
Zitat von @tdse13:
Trotzdem komisch, daß ich als "kleiner" Privatnutzer ein Problem habe, was eigentlich die normalen geschäftlichen Nutzer schon lange "entdeckt" haben müssen. Meine Auszüge gehen ins Jahr 2003 zurück, mit dem immer gleichen Problem.
Du nutzt Du einen Apple-Computer. Auch wenn man es kaum glauben kann (vor allem als Apple-Nutzer), ist man damit im geschäftlichen Umfeld heutzutage immer noch eine Ausnahme! Kann gut sein, dass Dein Problem mit EcoDMS unter Windows überhaupt nicht auftritt.
Dann ist EcoDMS ja nun nicht unbedingt ein High-End DMS. Ist halt eine eher günstige Lösung macht Seine Arbeit in diesem Segment sicher auch ganz gut.
Insbesondere für die Volltextanalyse wird dann eben ein Tesseract genutzt. Da liegen dann halt Welten zwischen der Tesseract OCR und z.B. einer Abbyy OCR.
Dafür kostet dann aber allein schon die OCR-Lizenz von Abbyy pro Arbeitsplatz mehr als die ganze EcoDMS-Lizenz!
Member: tdse13
tdse13 Jul 27, 2020 at 11:44:27 (UTC)
Goto Top
Ich habe heute ein Ticket mit ecoDMS aufgemacht. Mal schauen, was passiert.
Member: tdse13
tdse13 Jul 27, 2020 at 13:14:20 (UTC)
Goto Top
Zitat von @monstermania:
Du nutzt Du einen Apple-Computer. Auch wenn man es kaum glauben kann (vor allem als Apple-Nutzer), ist man damit im geschäftlichen Umfeld heutzutage immer noch eine Ausnahme! Kann gut sein, dass Dein Problem mit EcoDMS unter Windows überhaupt nicht auftritt.

Hallo! Ich habe mir die Mühe gemacht, und den Windows Client in einer VM zu installieren. Dort das gleiche Problem auf (Windows 10). Es liegt also nicht am Mac.
Grüße Thomas
Member: peter1999
peter1999 May 12, 2021 at 10:31:01 (UTC)
Goto Top
Ich habe das Problem mit vielen Dokumenten von meinem Brother ADS-2800 Scanner. Angeblich soll die PDF-Datei defekt sein, doch alle meine PDF-Viewer können sie anzeigen und ausdrucken. Wenn ich das PDF über die ecoDMS Drucker importiere funktioniert alles, nur über den Scaninput wird der Text nicht erkannt.

Ärgerlich ist vor allem weil keine Fehlermeldung angezeigt wird und man das Dokument später quasi nicht mehr findet.
Member: tdse13
tdse13 May 12, 2021 at 14:42:22 (UTC)
Goto Top
Danke für die Antwort. Wie gesagt nutze ich MACOS. Für MACOS gibt es keinen ecoDMS Drucker. Echt blöd... Vom Support auch keine Unterstützung.