{"id":17565,"date":"2019-10-23T10:09:30","date_gmt":"2019-10-23T10:09:30","guid":{"rendered":"http:\/\/parashift.io\/?p=3612"},"modified":"2025-11-30T22:39:39","modified_gmt":"2025-11-30T22:39:39","slug":"warum-extraktionsraten-keine-rolle-spielen","status":"publish","type":"post","link":"https:\/\/parashift.ai\/de\/warum-extraktionsraten-keine-rolle-spielen\/","title":{"rendered":"Warum Extraktionsraten keine Rolle spielen"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><strong>Programme zur automatischen Verarbeitung von Dokumenten kommen immer dann zum Einsatz, wenn Dokumente automatisch klassifiziert und Daten extrahiert werden sollen. Das heisst, es muss bestimmt werden um was f\u00fcr eine Art von Dokument es sich handelt (Vertrag, Korrespondenz, Rechnung, \u2026) und welche wichtigen Daten aus dem Dokument extrahiert werden m\u00fcssen (Kundenname, Nummern, Betr\u00e4ge, \u2026).<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><br>In jedem Fall sollen sie den Anwendern manuellen Aufwand abnehmen. Wie gut diese Systeme funktionieren und wie viel Aufwand sie den Endanwendern dann effektiv abnehmen k\u00f6nnen, wird oft durch Extraktionsraten ermittelt. Diese Raten geben prozentual an, in wie vielen F\u00e4llen automatisiert und ohne menschlichen Eingriff Daten korrekt aus dem Text des Dokumentes ausgelesen werden konnten.<br><br>Entsprechend wird diesen Extraktionsraten eine sehr hohe Wichtigkeit zugesprochen. Sie sind daher auch Thema in fast jedem Verkaufsgespr\u00e4ch f\u00fcr eine neue \u201cOCR Software\u201d. (OCR bezeichnet im Allgemeinen nur die Erkennung s\u00e4mtlichen maschinengeschriebenen Textes auf einem Dokument, steht aber oft als Synonym f\u00fcr Software zur Klassifizierung von Dokumenten und Datenextraktion aus diesem OCR Volltext.)<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Extraktionsraten im Verkaufsgespr\u00e4ch, mehr Bauchgef\u00fchl als fundiertes Wissen<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Im Sales lernt man nun schnell diese Frage gekonnt aus dem Weg zu r\u00e4umen, da man durch die Beantwortung nur verlieren kann. Entweder die Konkurrenz hat eine h\u00f6here, magische, aus der Luft gegriffene Zahl versprochen und man verliert, ohne dass das je gepr\u00fcft wurde. Oder im sp\u00e4teren Produktivbetrieb wird die genannte Zahl zum Bumerang mit dem Satz: \u201cSie haben aber damals versprochen, das System w\u00fcrde XX% Daten von alleine erkennen!\u201d (Meistens ist dieses Problem leider dem Verk\u00e4ufer egal, da dies dann der Techniker oder Support Mitarbeiter ausbaden muss :-))<br><br><strong>Fakt ist, je nach zu verarbeitenden Dokumenten und Beleggut k\u00f6nnen die Quoten h\u00f6her oder niedriger ausfallen. Dies h\u00e4ngt im Wesentlichen von folgenden Faktoren ab:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Liegen die Dokumente in einer guten Qualit\u00e4t vor (Scan, Foto, gescannte Kopie eines Fotos mit schlechter Aufl\u00f6sung bei zu geringer Belichtung, &#8230;)?<\/li>\n\n\n\n<li>Hat die Plattform bereits viele \u00e4hnliche Dokumente verarbeitet?<\/li>\n\n\n\n<li>Ist die Konfiguration auf bestimmte Sonderf\u00e4lle vorbereitet?<\/li>\n\n\n\n<li>M\u00fcssen verschiedene Schriftzeichens\u00e4tze verarbeitet werden (lateinisch, griechisch, kyrillisch, \u2026)?<\/li>\n\n\n\n<li>Welche Art von Daten m\u00fcssen extrahiert werden (einfache Kopfdaten, komplexe S\u00e4tze oder tabellarische Positionsdaten)?<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Den Use Case in den Vordergrund stellen<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">Was die Frage nach den Extraktionsraten aber oft ausser Acht l\u00e4sst, ist der tats\u00e4chliche Use Case f\u00fcr den derartige Software eingef\u00fchrt wird. Wie zu Beginn gesagt, geht es im Endeffekt immer darum eine T\u00e4tigkeit zu automatisieren. Die Frage ist nur: Warum soll diese T\u00e4tigkeit automatisiert werden?<br><br><strong>Meist l\u00e4uft es auf die zwei folgenden Szenarien hinaus:<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">1. Dem Endanwender soll die Erfassung von Daten schnellstm\u00f6glich vereinfacht werden, damit er mit dem Ergebnis sofort weiterarbeiten kann. Dies ist zum Beispiel der Fall, wenn Dokumente \u00fcber eine App an eine Versicherung oder Bank geschickt werden. Kerndaten sollen dabei extrahiert und dem Benutzer angezeigt werden, damit sie um ggf. weitere Informationen erg\u00e4nzt werden k\u00f6nnen. Wurden Daten nicht sauber erkannt, muss ein Benutzer diese manuell vervollst\u00e4ndigen.<br><br>2. Dem Endanwender soll die langwierige und m\u00fchsame Erfassung von Daten abgenommen werden, um mit dem Ergebnis zeitnah weiter arbeiten zu k\u00f6nnen. Dieser Fall unterscheidet sich dadurch, dass es nicht darum geht schnellstm\u00f6glich ein Resultat zu bekommen, sondern darum, besonders gute, saubere Daten zu erhalten, da die manuelle Erfassung ansonsten viel Zeit in Anspruch nehmen w\u00fcrde. Ob dies nun in 2 Sekunden oder 3 Stunden automatisch passiert ist zweitrangig. Beispiele hierf\u00fcr sind unter anderem die Erfassung langer, komplexer Rechnungen mit vielen Positionsdaten, welche f\u00fcr einen Abgleich gegen die Bestellung oder f\u00fcr das Reporting ben\u00f6tigt werden.<br><br>Im Fall 1 f\u00fchren falsche Extraktionsergebnisse zu unzufriedenen Anwendern. Im Beispiel mit der Versicherung f\u00fchrt dies schlimmstenfalls dazu, dass die Benutzer die App nicht nutzen und die Rechnungen lieber weiterhin auf Papier einschicken und somit Aufwand bei der Versicherung statt dem Endanwender generieren.<br><br>Trotzdem sollte hier das Augenmerk weniger auf ein System mit sehr guten Extraktionsraten gelegt werden, sondern lieber auf ein System mit guten Extraktionsraten sowie einer permanenten Verbessrung hin zu perfekten Extraktionsraten. Es n\u00fctzt nichts, wenn das System nicht lernt und so dieselben Fehler immer und immer wieder macht. Dies f\u00fchrt ebenfalls dazu, dass Benutzer nicht zufrieden sind. Wenn die Benutzer aber merken, dass die Erkennung immer besser wird, sind sie auch gewillt das Produkt weiter zu verwenden, da sie wissen, dass daran gearbeitet wird.<br><br>Im zweiten Fall f\u00fchren falsche Extraktionsergebnisse zu hohen manuellen Aufw\u00e4nden im internen Prozess. Am Beispiel der Positionsdaten kann bereits eine falsch ausgelesene Position dazu f\u00fchren, dass alle Positionen kontrolliert werden m\u00fcssen, um den Fehler zu finden. Hier steht also eher der Ansatz ganz oder gar nicht. Lieber gleich auf einen Service setzen, der vollvalidierte, also korrekt gepr\u00fcfte Daten verspricht, als auf eine Software die gute aber unter mitunter unvollst\u00e4ndige oder inkorrekte Ergebnisse liefert.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Langfristige Perfektion gegen\u00fcber kurzfristiger, teurer Mittelm\u00e4ssigkeit<\/h3>\n\n\n\n<p class=\"wp-block-paragraph\">In jedem Fall wird oft zu wenig nach dem tats\u00e4chlichen Ergebnis, welches erreicht werden soll, gefragt und zu viel Wert auf perfekte Extraktionsraten gelegt. Auch wenn der Titel etwas anderes behauptet sind diese nat\u00fcrlich wichtig, niemand will ein System welches gerade einmal 50% der Daten korrekt erkennt. Aber ein System, welches vollvalidierte Daten ausliefern kann und das sich zum Ziel gesetzt hat, k\u00fcnftig ohne menschliche Interaktion perfekte Extraktionsraten zu liefern ist mittelfristig mehr wert als ein System, das durch hohe Initialaufw\u00e4nde und extremste Anpassungen auf einem bestimmten Dokumenttyp gute Ergebnisse liefert.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Das n\u00e4chste Mal, wenn Sie \u00fcber Extraktionsraten sprechen, \u00fcberlegen Sie sich daher genau, wem diese \u00fcberhaupt nutzen und welches Problem Sie eigentlich mit der Automatisierung der Dokumentverarbeitung beheben wollen.<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wenn Sie wissen wollen wie Parashift Ihnen bereits heute perfekte Metadaten liefern kann, und wie dies mit unserer Vision der vollautonomen Dokumentverarbeitung zusammenh\u00e4ngt, dann k\u00f6nnen Sie \u00fcber den folgenden Button direkt Kontakt mit mir aufnehmen.<\/p>\n\n\n\n<div class=\"wp-block-buttons is-content-justification-center is-layout-flex wp-container-core-buttons-is-layout-fe48e5de wp-block-buttons-is-layout-flex\">\n<div class=\"wp-block-button is-style-outline is-style-outline--1\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/parashift.ai\/meeting\/\/\" target=\"_blank\" rel=\"noreferrer noopener\">Meeting vereinbaren<\/a><\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Programme zur automatischen Verarbeitung von Dokumenten kommen immer dann zum Einsatz, wenn Dokumente automatisch klassifiziert und Daten extrahiert werden sollen. Das heisst, es muss bestimmt werden um was f\u00fcr eine Art von Dokument es sich handelt (Vertrag, Korrespondenz, Rechnung, \u2026)&#8230;<\/p>\n","protected":false},"author":5,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[121],"tags":[],"class_list":["post-17565","post","type-post","status-publish","format-standard","hentry","category-allgemein-2"],"_links":{"self":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17565","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/users\/5"}],"replies":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/comments?post=17565"}],"version-history":[{"count":1,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17565\/revisions"}],"predecessor-version":[{"id":30066,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17565\/revisions\/30066"}],"wp:attachment":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/media?parent=17565"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/categories?post=17565"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/tags?post=17565"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}