{"id":17602,"date":"2020-08-11T13:01:38","date_gmt":"2020-08-11T13:01:38","guid":{"rendered":"http:\/\/parashift.io\/?p=3699"},"modified":"2025-11-30T22:40:29","modified_gmt":"2025-11-30T22:40:29","slug":"verarbeitungsreihenfolge-der-lebenszyklus-eines-dokuments","status":"publish","type":"post","link":"https:\/\/parashift.ai\/de\/verarbeitungsreihenfolge-der-lebenszyklus-eines-dokuments\/","title":{"rendered":"Verarbeitungsreihenfolge: Der Lebenszyklus eines Dokuments"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">In einem der&nbsp;<a href=\"https:\/\/parashift.ai\/de\/scanning-done-right-einstellungen-fur-bessere-ergebnisse\/\" target=\"_blank\" rel=\"noreferrer noopener\">letzten Artikeln<\/a>&nbsp;griffen wir die Relevanz von gewissen Konfigurationen im Kontext vom Dokumenten-Scanning auf. Denn wenn nicht richtig gescannt wird, kann es bei der nachfolgenden Extraktion zu Qualit\u00e4tseinbussen kommen, die die angestrebten Kosteneinsparungen limitieren. Was aber genau nach dem Scanning der Dokumente passiert und wie die Daten extrahiert werden, haben wir noch nicht konkret thematisiert. Es gibt eine Reihe von Schritten, die jedes Dokument, das an die Parashift Plattform gesendet wird, durchl\u00e4uft. Was bei jedem dieser Schritte passiert und in welcher Reihenfolge diese ablaufen, beschreibe ich Ihnen in folgendem Artikel n\u00e4her.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Vorbereitung<\/h5>\n\n\n\n<p class=\"wp-block-paragraph\">Firmen erhalten Dokumente \u00fcber verschiedenste Kan\u00e4le. Wie bereits im&nbsp;<a href=\"https:\/\/parashift.ai\/de\/multichannel-document-processing-durch-verarbeitung-in-der-cloud\/\">Artikel<\/a>&nbsp;zum Thema Multichannel Document Processing beschrieben, kann es sich dabei etwa um E-Mails mit Anhang wie PDFs oder Bilddateien handeln. Daneben gibt es auch eine Vielzahl an physischen Dokumenten wie Rechnungen, Lieferscheine und Vertr\u00e4ge, die \u00fcber die Post oder Filialen ins Unternehmen kommen. All diese Dokumente m\u00fcssen f\u00fcr die Extraktion mit Parashift erst digitalisiert werden, wenn sie es nicht bereits sind. Daf\u00fcr eignet sich besonders das&nbsp;<a href=\"https:\/\/parashift.ai\/de\/early-vs-late-scanning-wie-sie-mit-early-scanning-ihre-geschaftsprozesse-optimieren\/\" target=\"_blank\" rel=\"noreferrer noopener\">Early Scanning<\/a>&nbsp;bei dem Dokumente f\u00fcr Weiterverarbeitungs- und Archivierungszwecke direkt nach dem Eingang gescannt und digitalisiert werden. Nachdem die Dokumente erfolgreich und mit den&nbsp;<a href=\"https:\/\/parashift.ai\/de\/scanning-done-right-einstellungen-fur-bessere-ergebnisse\/\" target=\"_blank\" rel=\"noreferrer noopener\">optimalen Einstellungen eingescannt<\/a>&nbsp;wurden, werden sie \u00fcber eine REST API an Parashift \u00fcbermittelt. In einem idealen Integrationsszenario realisieren Ihre Mitarbeiter nicht einmal, dass Parashift in die Prozesse eingebunden wurde. Abgesehen davon nat\u00fcrlich, dass sie pl\u00f6tzlich nichts mehr mit der Belegerfassung zu tun haben.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Bei Parashift angekommen, wird dann zuerst ein sogenanntes Enhancement zur Qualit\u00e4tsverbesserung des Inputs durchgef\u00fchrt. Die Dokumente werden dabei einer Rotationskontrolle unterzogen, wo festgestellt wird, ob das Dokument allenfalls schr\u00e4g eingescannt wurde. Je nachdem wird das Dokument auch noch zurechtgeschnitten und geradeger\u00fcckt. Handelt es sich um Kamerafotos, werden bei Bedarf Korrekturen vorgenommen, die die nachfolgende Extraktion beg\u00fcnstigen. Dieser Enhancement-Prozess l\u00e4uft vollkommen automatisch ab.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ist dieser Prozess abgeschlossen, ist der n\u00e4chste Schritt die optische Zeichenerkennung. Auf Englisch Optical Character Recognition (OCR). Dabei wird der komplette Text analysiert und die Daten, die sich darauf befinden, ausgelesen. Zus\u00e4tzlich wird das Layout analysiert und etwaige Barcodes werden ebenfalls extrahiert.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Seitentrennung<\/h5>\n\n\n\n<p class=\"wp-block-paragraph\">Wurde der Text mittels OCR gelesen, geht es zum n\u00e4chsten Schritt \u00fcber: Der Seitentrennung. Hier wird analysiert, ob der an Parashift \u00fcbermittelte Scan tats\u00e4chlich aus nur einem Dokument besteht oder ob es sich dabei um mehrere Dokumente in einem Scan handelt. Beispielsweise k\u00f6nnte ein 15-seitiger Scan aus 4 Rechnungen bestehen. Falls dies so w\u00e4re, dann erkennt das die Software von Parashift und behandelt sie als separate Rechnungen. Beinhaltet das Dokument leere Seiten, werden diese gel\u00f6scht. Eine kleine Anmerkung: Heute ist diese Funktionalit\u00e4t noch nicht in der offiziellen Version vorhanden. Sie befindet sich aber bereits in Entwicklung und wird bis Ende 2020 dann auch verf\u00fcgbar sein. Das heisst, bis die Funktion integriert ist, kann die Seitentrennung noch nicht von Parashift \u00fcbernommen werden und sollte unbedingt mittels anderer Anbieter oder Methoden sichergestellt werden.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Klassifizierung<\/h5>\n\n\n\n<p class=\"wp-block-paragraph\">Nach der Seitentrennung folgt die Klassifikation der Dokumente. Der Algorithmus bestimmt, um welche Art von Dokument es sich handelt und speichert diese Information f\u00fcr die kommenden Schritte ab. Als Kunde von Parashift kann nebst der Seitentrennung die Klassifikation optional aber auch selbst vorgenommen werden.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Extraktion<\/h5>\n\n\n\n<p class=\"wp-block-paragraph\">Basierend auf dem identifizierten Dokumententyp, werden in diesem Teil die wichtigsten Daten extrahiert. Bei einer Rechnung ist dies beispielsweise das Datum, die Adresse des Rechnungsstellers und Empf\u00e4ngers, dessen Mehrwertsteuernummer, IBAN, die Einzelposten sowie die verschiedenen Betr\u00e4ge (neben weiteren Feldern). Dieser Schritt funktioniert ohne jegliche Vorlagen oder Konfigurationsbedarf Ihrerseits. Auch sonstige manuelle Arbeit wird bei diesem Schritt nicht ben\u00f6tigt. Das ist somit ein wesentlicher Vorteil gegen\u00fcber der manuellen oder Vorlagen-basierten Dokumentenextraktion. Zuletzt wird in ein Quality Check durchgef\u00fchrt, um zu sehen, ob sich die Engine im Ausf\u00fchren ihres Jobs sicher war.<\/p>\n\n\n\n<h5 class=\"wp-block-heading\">Nachbearbeitung und Archivierung<\/h5>\n\n\n\n<p class=\"wp-block-paragraph\">Nach erfolgreicher Extraktion der wichtigsten Daten, folgt die Nachbearbeitung. Dies ist ein Service-Offering, das Parashift ganz klar von der Konkurrenz unterscheidet. Denn sind die Daten bei der Extraktion von Parashift Standard Dokumenttypen (beispielsweise Bestellungen, Lieferscheine, Rechnungen, etc.) nicht vollst\u00e4ndig oder falsch extrahiert worden, \u00fcbernimmt Parashift die manuelle Nachbearbeitung. Die veredelten Daten werden dann wiederum mittels API an Sie beziehungsweise Ihr f\u00fchrendes System zur\u00fcckgespielt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dort angelangt, k\u00f6nnen Sie dann Business Rules f\u00fcr die extrahierten Daten anwenden. Sie k\u00f6nnen zum Beispiel Bestellabgleiche dank der extrahierten Metadaten der Einzelposten durchf\u00fchren sowie Zahlungskonditionen oder Lieferanten finden und mit dem ERP verglichen. Auch wenn es sich um neue Lieferanten handelt, werden diese dank der intelligenten OCR-L\u00f6sung, welche ohne Stammdatenabgleich arbeitet, erkannt und k\u00f6nnen automatisiert ins System aufgenommen werden. Wie dies funktioniert, habe ich in einem&nbsp;<a href=\"https:\/\/parashift.ai\/de\/gehort-stammdatenhandling-in-eine-dokumentenextraktionsplattform\/\" target=\"_blank\" rel=\"noreferrer noopener\">fr\u00fcheren Artikel<\/a>&nbsp;erkl\u00e4rt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wurden dann die Business Rules angewandt und die extrahierten Daten weiterverarbeitet, so wird das Dokument schlussendlich abschliessend archiviert. Meist erfolgt diese Archivierung in einem Dokumentenmanagement-System (DMS) und symbolisiert das Ende des Lebenszyklus eines Dokumentes.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>In einem der&nbsp;letzten Artikeln&nbsp;griffen wir die Relevanz von gewissen Konfigurationen im Kontext vom Dokumenten-Scanning auf. Denn wenn nicht richtig gescannt wird, kann es bei der nachfolgenden Extraktion zu Qualit\u00e4tseinbussen kommen, die die angestrebten Kosteneinsparungen limitieren. Was aber genau nach dem&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[121],"tags":[],"class_list":["post-17602","post","type-post","status-publish","format-standard","hentry","category-allgemein-2"],"_links":{"self":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17602","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/comments?post=17602"}],"version-history":[{"count":2,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17602\/revisions"}],"predecessor-version":[{"id":30949,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17602\/revisions\/30949"}],"wp:attachment":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/media?parent=17602"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/categories?post=17602"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/tags?post=17602"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}