{"id":3510,"date":"2018-10-22T12:27:12","date_gmt":"2018-10-22T12:27:12","guid":{"rendered":"http:\/\/parashift.io\/?p=3510"},"modified":"2025-11-30T22:39:25","modified_gmt":"2025-11-30T22:39:25","slug":"warum-wir-dokumenten-extraktion-mit-kunstlicher-intelligenz-machen","status":"publish","type":"post","link":"https:\/\/parashift.ai\/de\/warum-wir-dokumenten-extraktion-mit-kunstlicher-intelligenz-machen\/","title":{"rendered":"Warum wir Dokumenten-Extraktion mit k\u00fcnstlicher Intelligenz machen"},"content":{"rendered":"\n<p>Als wir vor 2 Jahren begannen, uns mit dem Bau eines Clusters zur autonomen Verarbeitung von Buchhaltungsaufgaben zu besch\u00e4ftigen, dachten wir, dass die Extraktion von Buchhaltungsbelegen eine Sache ist, welche die Industrie bereits gel\u00f6st h\u00e4tte. Wie wir feststellen mussten, ist dem beileibe nicht so.<\/p>\n\n\n\n<p><em>(Lesedauer 3 Minuten)<\/em><\/p>\n\n\n\n<p>Denn als wir die ersten L\u00f6sungen im Detail anschauten, fanden wir rasch heraus, dass eine wirklich gute Extraktionsqualit\u00e4t nur auf sehr umst\u00e4ndliche und m\u00fchsame Weise erreicht werden kann. Und dass viele Software-L\u00f6sungen aufw\u00e4ndig zu beschaffen, zu betreuen und auch teuer sind.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Ein Template pro Dokumententyp<\/h3>\n\n\n\n<p>Eine exzellente Extraktionsqualit\u00e4t kann denn mit herk\u00f6mmlicher Technologie auch nur erzielt werden, wenn pro Dokument manuell ein Template angelegt wird. Dieser Umstand verhindert leider eine autonome Verarbeitung von Belegen.<\/p>\n\n\n\n<p>Aus diesem Grund begannen wir sehr fr\u00fch mit der Entwicklung eines Machine Learning Clusters, welcher Dokumente m\u00f6glichst ohne Zutun verarbeiten kann. Auf den ersten Metern dieser Entwicklung realisierten wir, dass es bedeutend einfacher ist, als wir uns das anf\u00e4nglich vorstellten. Es wurde aber, wie viele komplexe Aufgabenstellungen, je aufw\u00e4ndiger je weiter wir kamen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Dokumente betrachten wie Menschen das tun<\/h3>\n\n\n\n<p>Wir gehen dabei grundlegend anders vor, als die bekannten OCR Technologien. Im Grunde genommen betrachtet unsere Technologie Dokumente wie Menschen.<\/p>\n\n\n\n<p>Bekommen wir Menschen z. Bsp. eine Rechnung vorgelegt, die in einer uns fremden Sprache ausgestellt wurde, sind wir in der Lage zu erkennen, dass es sich \u00fcberhaupt um eine Rechnung handelt. Auch erkennen wir f\u00fcr uns schon fast intuitiv, welche die wesentlichen Datenpunkte sind.<\/p>\n\n\n\n<p>Das ist daher m\u00f6glich, weil wir in der Regel \u00fcber sehr viel Erfahrung im Umgang mit diesen Dokumenten verf\u00fcgen (wenn Sie nicht das ganze Leben als, sagen wir, G\u00e4rtner gearbeitet haben). Wir erfassen in einem ersten Schritt visuell das Dokumente und k\u00f6nnen am groben Schema eine Klassifizierung des Dokuments machen. Wir m\u00fcssen das Dokument nicht im Detail lesen, um zu wissen wo was auf dem Dokument ist.<\/p>\n\n\n\n<p>Danach suchen wir uns Anhaltspunkte welche Werte auf dem Dokument zusammengeh\u00f6ren und erst dann lesen wir die einzelne Werte im Kontext zu einander aus.<\/p>\n\n\n\n<p>Unsere Technologie macht das im Grunde genommen genau gleich.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Von Menschen lernen<\/h3>\n\n\n\n<p>Die Maschine lernt dann besonders gut, wenn wir Menschen ihr beim Lernen helfen. Ihr in schwierigen F\u00e4llen zeigen, wo was genau ist und aufzeigen warum es so ist. Das ist bei Buchhaltungsbelegen nicht anders.<\/p>\n\n\n\n<p>Wir erstellen also von den Dokumenten gesicherte, belastbare Datenabbilde welche wir manuell validieren und korrigieren. Dieses Set an perfekten Daten nutzen wir um die Maschine schnell zu trainieren. Wichtig ist dabei, dass sprichw\u00f6rtlich das hinterste und letzte Komma korrekt ist. Wir haben schnell erkannt, dass es sehr viel Sinn ergibt, Belege mit enorm hoher Detailtreue zu erfassen.<\/p>\n\n\n\n<p>Denn viele Leute im Machine Learning Bereich machen den Fehler, dass sie auf der einen Seite zwar viel Datenmaterial mit einbeziehen, aber zu wenig gut darauf achten, dass dieses Datenmaterial eine hohe Qualit\u00e4t hat.<\/p>\n\n\n\n<p>Oft wundert man sich dann dar\u00fcber, dass der Output qualitativ nicht ausreichend ist.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">L\u00f6sung der Extraktion von Buchhaltungsdokumenten ist der erste bedeutende Schritt zu autonomen Buchhaltungssystemen<\/h3>\n\n\n\n<p>Warum wir uns mit der Extraktion von Buchhaltungsdokumenten befassen, hat einen simplen Grund: Wir kommen nicht darum herum es zu tun, wenn wir die autonome Buchhaltungsengine realisieren wollen. Die automatische Verbuchung von Geldkonten-Transaktionen und die Abstimmung dieses Streams mit den Belegdaten ist denn vergleichsweise simpel, aber ohne Belegdaten unm\u00f6glich.<\/p>\n\n\n\n<p>Leider ist auch nicht absehbar, dass die elektronischen Rechnungsformate uns diesen Schritt in n\u00fctzlicher Frist abnehmen w\u00fcrden. Bei keinem Format der Zukunft sind die Line Items, also die Rechnungsposten, verpflichtend. Das bedeutet, dass wir zwar mit einem solchen Format zwar die Standardinformationen bekommen, die f\u00fcr die Buchhaltung relevanten Details aber eben nicht strukturiert mitgeliefert werden (m\u00fcssen).<\/p>\n\n\n\n<p>Es ist Zeit die manuelle Arbeit in der Buchhaltung radikal zu reduzieren. Das war schon lange klar und es scheint als w\u00e4re die Branche langsam aber sicher aufgewacht und w\u00fcrde vermehrt in diese Richtung arbeiten.<\/p>\n\n\n\n<p>Kosten- und Effizienzgewinne sind aber nur der erste Schritt, viel bedeutender ist, dass wir damit die Grundlage schaffen f\u00fcr ein Accounting, das beil\u00e4ufig ist und mit der radikal verbesserten Datenbasis ganz neue Entscheidungsgrundlagen erm\u00f6glicht.<\/p>\n\n\n\n<p>Wir sehen denn Robo-Accounting auch vor allem in diesem Kontext. Langfristig neue Wege im Accounting zu beschreiten. Damit das m\u00f6glich wird, muss vermeintlich banales, wie die autonome Extraktion von Daten aus Papierbelegen, erst gel\u00f6st werden. Darum sind wir da dran.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Als wir vor 2 Jahren begannen, uns mit dem Bau eines Clusters zur autonomen Verarbeitung von Buchhaltungsaufgaben zu besch\u00e4ftigen, dachten wir, dass die Extraktion von Buchhaltungsbelegen eine Sache ist, welche die Industrie bereits gel\u00f6st h\u00e4tte. Wie wir feststellen mussten, ist&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[121],"tags":[],"class_list":["post-3510","post","type-post","status-publish","format-standard","hentry","category-allgemein-2"],"_links":{"self":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/3510","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/comments?post=3510"}],"version-history":[{"count":1,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/3510\/revisions"}],"predecessor-version":[{"id":29999,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/3510\/revisions\/29999"}],"wp:attachment":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/media?parent=3510"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/categories?post=3510"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/tags?post=3510"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}