Kann Rechnungshub alle PDF-Rechnungen auslesen?
- Mina Smolej

- 8. Jan.
- 2 Min. Lesezeit
Aktualisiert: 26. Feb.
PDF-Rechnungen gibt es in zwei Varianten: Image-Only und True PDF. Der Unterschied zwischen den Varianten ist vergleichbar mit dem Unterschied zwischen einem Foto einer Rechnung und der Rechnung in einem Word-Dokument.
Rechnungshub kann beide Varianten auslesen.
In diesem Blogbeitrag erklären wir den Unterschied zwischen Image-Only- und True-PDF-Rechnungen, zeigen, wie unsere KI beide Dokumenttypen verarbeitet und worauf Sie bei gemischten PDFs achten sollten.
Inhaltsverzeichnis
Was ist eine Image-Only PDF?
Eine Image-Only-PDF ist im Grunde eine Bilddatei. Sie entsteht zum Beispiel, wenn Sie eine Papierrechnung scannen oder eine Datei als Bild exportieren.
Woran erkennen Sie sie?
Der Text lässt sich nicht mit der Maus markieren.
Beim Klicken erscheinen Rechtecke.
Kopieren und Einfügen funktioniert nicht.

Was ist eine True PDF?
Eine True-PDF ist textbasiert. Sie wird direkt aus einem ERP-System oder einer Buchhaltungssoftware exportiert.
Hier können Sie:
Text markieren
Text kopieren
Text einfügen

Wie verarbeitet die KI die verschiedenen Typen?
Wenn Sie eine Rechnung hochladen, prüft Rechnungshub automatisch, um welchen Dokumenttyp es sich handelt. Anschließend setzt das System das passende Verfahren ein.
OCR bei gescannten Dokumenten:
Handelt es sich um eine Image-Only-PDF, kommt OCR (optische Zeichenerkennung) zum Einsatz. OCR wandelt das Bild in maschinenlesbaren Text um.
So lassen sich auch gescannte Rechnungen oder ältere Dokumente zuverlässig verarbeiten.
Direkte Textextraktion bei True PDF:
Bei digital erzeugten PDF-Rechnungen mit echter Textebene liest das System den Inhalt direkt aus.
Da kein OCR-Schritt erforderlich ist, erfolgt die Verarbeitung schneller und mit höherer Präzision.
Was passiert bei gemischten PDFs?
Komplexer wird es bei Dokumenten, die Text- und Bildelemente kombinieren.
In solchen Fällen priorisiert die KI immer die vorhandene Textebene. Sobald sie Text erkennt, startet sie mit der direkten Textextraktion.
Das kann in bestimmten Konstellationen zu Problemen führen.
Fußzeile als Bild:
Stehen Steuer- oder Finanzdaten in einer Fußzeile, die als Bild eingebunden ist, erkennt die KI diese möglicherweise nicht.
Da eine Textebene vorhanden ist, kommt zunächst keine OCR zum Einsatz. In solchen Fällen kann es passieren, dass die Fußzeile unberücksichtigt bleibt.
Fehlende Angaben müssen dann manuell ergänzt oder einmalig in den Stammdaten hinterlegt werden.
Image-Only mit kleiner Textebene:
Stellen Sie sich eine gescannte Rechnung vor, die zusätzlich einen Slogan als echte Textebene enthält.
Die KI erkennt Text – und priorisiert ihn. Sie liest nur diesen Slogan aus. Die Rechnungsnummer wird nicht erkannt.
Die Datei kann in diesem Fall nicht hochgeladen werden.
Fazit
Rechnungshub liest sowohl Image-Only- als auch True-PDF-Rechnungen zuverlässig aus.
Herausforderungen entstehen nur bei gemischten Dokumenten, bei denen wichtige Informationen in einer Bildebene stehen, obwohl eine Textebene vorhanden ist.
Unsere Empfehlung: Nutzen Sie möglichst textbasierte PDFs direkt aus Ihrem System. Sie liefern die beste Qualität und die höchste Erkennungsrate.


