{"id":17574,"date":"2020-02-14T10:27:02","date_gmt":"2020-02-14T10:27:02","guid":{"rendered":"http:\/\/parashift.io\/?p=3635"},"modified":"2025-11-30T22:39:48","modified_gmt":"2025-11-30T22:39:48","slug":"template-basierte-ocr-versus-machine-learning-basierte-ocr","status":"publish","type":"post","link":"https:\/\/parashift.ai\/de\/template-basierte-ocr-versus-machine-learning-basierte-ocr\/","title":{"rendered":"Template-basierte OCR versus Machine Learning-basierte OCR"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Seit sich Computer etabliert haben und Dokumente sukzessive auch mehr in digitaler Form ben\u00f6tigt wurden, hat sich die Art und Weise, wie diese konvertiert werden k\u00f6nnen, gl\u00fccklicherweise stark ver\u00e4ndert. Gl\u00fccklicherweise sage ich, da die damit verbundene Arbeit der Dokumentenerfassung per se f\u00fcr die allermeisten Menschen nicht wirklich eine erf\u00fcllende T\u00e4tigkeit ist. Doch auch aufgrund der substanziellen Kosten, die f\u00fcr diese nicht unmittelbar wertsch\u00f6pfenden aber essenziellen Prozesse einkalkuliert werden m\u00fcssen.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter is-resized\"><img fetchpriority=\"high\" decoding=\"async\" src=\"https:\/\/blog.parashift.io\/hs-fs\/hubfs\/processing%20evolution.png?width=500&amp;name=processing%20evolution.png\" alt=\"processing evolution\" style=\"width:655px;height:549px\" width=\"655\" height=\"549\"\/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">W\u00e4hrend zu Beginn Dokumente wie beispielsweise Rechnungen in Finanz- und Kreditorenabteilungen von Sachbearbeitern komplett von Hand in irgendeinem IT-System erfasst wurden, kamen ab den&nbsp;<a href=\"https:\/\/en.wikipedia.org\/wiki\/Timeline_of_optical_character_recognition\" rel=\"noreferrer noopener\" target=\"_blank\">70ern die ersten kommerziellen L\u00f6sungen f\u00fcr die automatisierte Texterkennung<\/a>&nbsp;(Optical Character Recognition Abk. OCR) auf verschiedensten Dokumenttypen auf den Markt (in naher Zukunft werde ich noch einen separaten Blogartikel verfassen, in dem ich vertiefter auf die OCR Geschichte eingehe). Durch diese Technologien konnten neu gewisse Schritte im Prozess der Dokumentenverarbeitung automatisiert werden. Ein Quantensprung.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Diese automatisierte Texterkennung generierte aus einem Bild einen durch Computer durchsuchbaren Text, \u00e4hnlich wie man es heute von PDFs gewohnt ist. Dies hilft bei der Eingabe bereits, automatisiert diese aber keinesfalls. Was damit auch nicht gel\u00f6st war, ist die automatisierte Extraktion der relevantesten Daten anstelle des kompletten Textes.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Template-basierte OCR<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Hier kamen nun verst\u00e4rkt Template-basierte Systeme, also Vorlagen-basierte Systeme, auf den Markt, die es erlaubten, der Maschine beizubringen, an einer bestimmten Stelle im Text, hinter einem bestimmten Wort oder an einer bestimmten Position, einen bestimmten Textabschnitt zu isolieren und dediziert auszugeben. F\u00fcr jedes Feld, das man extrahieren wollte (z.B. eine Belegnummer, ein Datum oder eine Adresse) musste eine eigene Konfiguration angelegt und dem Computer beigebracht werden, wo er dieses Feld auf dem Dokument finden kann. Schlimmer noch: Diese Konfigurationen funktionierten nat\u00fcrlich nur so lange, wie sich das Dokument selbst nicht ver\u00e4ndert. Weicht die Dokumentenstruktur von der Vorlage ab, sind zus\u00e4tzliche Konfigurationen notwendig. Infolge dieser nicht vorhandenen Flexibilit\u00e4t f\u00fcr Variation kann es ausserdem immer wieder zu&nbsp;<a href=\"https:\/\/en.wikipedia.org\/wiki\/False_positives_and_false_negatives\" rel=\"noreferrer noopener\" target=\"_blank\">False Positive Resultaten<\/a>&nbsp;kommen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Nachstehend habe ich Ihnen ein Beispiel, das diese Inflexibilit\u00e4t verdeutlichen soll. In dieser Veranschaulichung haben wir vier verschiedene Rechnungsdokumente, f\u00fcr welche wir aus Simplizit\u00e4tsgr\u00fcnden einmal annehmen, dass die Position des abgebildeten Ausschnittes auf der Rechnung jeweils die selbe ist. Die OCR ist f\u00fcr alle vier Rechnungen identisch konfiguriert. Diese soll auf allen Dokumenten in der selben Region nach dem Ankerpunkt &#8222;Total&#8220; suchen (die OCR Software&nbsp;orientiert sich in diesem Fall von oben links gegen unten rechts), dann die Daten rechts von diesem Ankerpunkt auslesen, ohne dass dabei &#8222;CHF&#8220; mit einbezogen wird.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">In der ersten Rechnung wird das falsche Total ausgelesen und der eigentliche Endbetrag, hier als &#8222;Rechnungsbetrag inkl. MwSt&#8220; gekennzeichnet, vernachl\u00e4ssigt. Bei der dritten Rechnung haben wir das Problem, dass der Betrag in Euro statt CHF ist, womit nicht nur die Zahl, sondern auch das Euro-Zeichen extrahiert wird. Hier m\u00fcsst eine RegEx eingesetzt werden, damit das Euro-Zeichen noch abgeschnitten wird. Da die vierte Rechnung gar keinen &#8222;Total&#8220; Ankerpunkt aufweist, wird dort gar nichts ausgelesen. Es wird also lediglich die zweite Rechnung tats\u00e4chlich so ausgelesen, wie wir das eigentlich wollen.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter is-resized\"><img decoding=\"async\" src=\"https:\/\/blog.parashift.io\/hs-fs\/hubfs\/invoice_extraction_ocr.png?width=600&amp;name=invoice_extraction_ocr.png\" alt=\"invoice_extraction_ocr\" style=\"width:651px;height:651px\" width=\"651\" height=\"651\"\/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Sie sehen, die Abh\u00e4ngigkeit von Fachleuten f\u00fcr den Feinschliff der OCR ist&nbsp;recht gross und kann kostspielig werden.&nbsp;Am Beispiel von Kreditorenrechnungen kann man sich schnell den Aufwand vorstellen, den diese Systeme bereits f\u00fcr ein kleines Unternehmen produzieren k\u00f6nnen. Denn schon diese haben oft mit duzenden von verschiedenen Lieferanten zu tun, wobei in der Regel jeder Lieferant seine Rechnung etwas anders strukturiert, was bedeutet, dass f\u00fcr jeden dieser Lieferanten eine eigene Vorlage angelegt werden muss.&nbsp;Im Gegenzug f\u00fcr diese massiven Aufwendungen sind aber die Extraktionsergebnisse f\u00fcr statische Dokumente sehr gut, was Ihnen in diesem Anwendungsfall erm\u00f6glicht, einen Grossteil der zuvor manuellen Arbeit zu automatisieren.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Eine erfolgreiche Skalierung des OCR-Einsatzes kann also \u00e4ussert ressourcenintensiv sein und stellt zudem eine grosse Herausforderung f\u00fcr das aktive Management der ben\u00f6tigten Vorlagen dar. Konkret m\u00fcssen Sie neben den Anschaffungskosten der Technologie mit weiteren Kosten f\u00fcr die Wartung, den Support, Beratungen und Konfigurationen rechnen. Da solche Anpassungsprojekte&nbsp;dar\u00fcber hinaus&nbsp;interne Planung und Koordination brauchen, kommen entsprechend noch interne Kosten dazu.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Machine Learning-basierte OCR<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Eine M\u00f6glichkeit die genannten Problematiken zu adressieren, ist mittels dem Einsatz von Machine Learning-basierten OCR-L\u00f6sungen. Kombinieren Sie diese mit weiterf\u00fchrender Software wie einer Robotic Process Automation (RPA) Software, einem Business Process Management (BPM) Tool, oder Ihrem ERP-System, k\u00f6nnen Sie Ihre Prozesse schrittweise optimieren und so die Arbeitsweise Ihrer Abteilung beziehungsweise Ihres Verarbeitungszentrums grundlegend transformieren. Was Sie dadurch erhalten, ist mehr Flexibilit\u00e4t sowie greifbarere Dinge wie schnellere Durchlaufzeiten, weniger Koordinationsaufwand f\u00fcr Mitarbeiter und dadurch eben Kostenvorteile.&nbsp;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wieso ist nun aber dieser Ansatz unter anderem so wesentlich wirtschaftlicher? Das ist haupts\u00e4chlich auf die grundlegend andere Ausgestaltung solcher L\u00f6sungen zur\u00fcckzuf\u00fchren. Denn anstatt dass die OCR Software jeweils unternehmensspezifisch auf eine bestimmte Anzahl an Dokumentenvorlagen eingestellt werden muss, k\u00f6nnen verschiedene Systemkomponenten benutzer\u00fcbergreifend auf Textbl\u00f6cke von allerlei verschiedenen Dokumentenlayouts, unabh\u00e4ngig von Format beziehungsweise Namensgebung, trainiert und, insofern es sich um eine Cloud-OCR-L\u00f6sung handelt, deren Funktionalit\u00e4ten unmittelbar mit allen Software-Benutzern geteilt werden (<a href=\"https:\/\/parashift.ai\/de\/cloud-versus-on-premise-teil-2\/\" target=\"_blank\" rel=\"noreferrer noopener\">hier finden Sie einen Artikel, der Cloud und On-Premise OCR-L\u00f6sungen einander gegen\u00fcberstellt<\/a>). Diese aggregierte Dokumentenintelligenz er\u00fcbrigt daher weite Teile der Projektphasen zum Setup und der Optimierung der Software. Alleine das hat erhebliche Kostenreduktionen zur Folge. Dazu kommt, dass verschiedene Machine Learning Technologien im Prozess des Lernens zunehmend autonomer werden und die f\u00fcr qualitative Extraktionsresultate notwendigen Regeln selbst erarbeiten k\u00f6nnen, was wiederum die Fachleute in der Konfiguration der Technologien entlastet. Auch f\u00fcr die Annotation wird durch Ans\u00e4tze wie&nbsp;<a href=\"https:\/\/www.fast.ai\/2020\/01\/13\/self_supervised\/\" rel=\"noreferrer noopener\" target=\"_blank\">Self-Supervised Learning<\/a>&nbsp;wom\u00f6glich k\u00fcnftig immer weniger menschliche Interaktion ben\u00f6tigt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dann haben wir erg\u00e4nzend Natural Language Processing (NLP) Technologien, welche wir ebenfalls mit einbeziehen k\u00f6nnen und der Maschine eine zus\u00e4tzlich Dimension liefert, die ihr hilft, Dokumente durch Wort- und Textverst\u00e4ndnis zu klassifizieren und deren relevanten Daten mit h\u00f6herer Qualit\u00e4t zu extrahieren. Die mit diesen diverse Modalit\u00e4ten entwickelten Modelle der verschiedenen Dokument- und Feldarten generieren so \u00fcber das steigende verarbeitete Dokumentenvolumen immer mehr Kontextwissen \u00fcber die Natur von Dokumenten und deren einzelnen Bestandteile, was letztlich Autonomie f\u00f6rdert und den Bedarf f\u00fcr Nachkontrollen sowie dementsprechend auch Kosten massivst reduzieren kann.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Was das f\u00fcr Sie als Benutzer de facto bedeutet, ist, dass Sie eine Software f\u00fcr die Dokumentenverarbeitung haben, welche bedeutend schneller implementiert ist, zur Erweiterung und Verbesserung nicht zwangsl\u00e4ufig Projekte mit externen Spezialisten voraussetzt, was das Ganze deshalb stark verbilligt, zu reduzierten Durchlaufzeiten f\u00fchrt und eine wesentlich h\u00f6here Flexibilit\u00e4t in Bezug auf den Dokumenteninput aufweist.<\/p>\n\n\n\n<div class=\"wp-block-buttons is-horizontal is-content-justification-center is-layout-flex wp-container-core-buttons-is-layout-7d812b4c wp-block-buttons-is-layout-flex\">\n<div class=\"wp-block-button is-style-outline is-style-outline--1\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/parashift.ai\/sign-up\/\" target=\"_blank\" rel=\"noreferrer noopener\">Kostenlos testen<\/a><\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Seit sich Computer etabliert haben und Dokumente sukzessive auch mehr in digitaler Form ben\u00f6tigt wurden, hat sich die Art und Weise, wie diese konvertiert werden k\u00f6nnen, gl\u00fccklicherweise stark ver\u00e4ndert. Gl\u00fccklicherweise sage ich, da die damit verbundene Arbeit der Dokumentenerfassung per&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[121],"tags":[],"class_list":["post-17574","post","type-post","status-publish","format-standard","hentry","category-allgemein-2"],"_links":{"self":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17574","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/comments?post=17574"}],"version-history":[{"count":2,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17574\/revisions"}],"predecessor-version":[{"id":30926,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17574\/revisions\/30926"}],"wp:attachment":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/media?parent=17574"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/categories?post=17574"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/tags?post=17574"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}