{"id":17599,"date":"2020-07-30T12:56:08","date_gmt":"2020-07-30T12:56:08","guid":{"rendered":"http:\/\/parashift.io\/?p=3693"},"modified":"2025-11-30T22:40:18","modified_gmt":"2025-11-30T22:40:18","slug":"scanning-done-right-einstellungen-fur-bessere-ergebnisse","status":"publish","type":"post","link":"https:\/\/parashift.ai\/de\/scanning-done-right-einstellungen-fur-bessere-ergebnisse\/","title":{"rendered":"Scanning done right: Einstellungen f\u00fcr bessere Ergebnisse"},"content":{"rendered":"\n<p>Nachdem wir im&nbsp;<a href=\"https:\/\/parashift.ai\/de\/dezentrales-vs-zentrales-scanning-unterschiede-vor-und-nachteile\/\" target=\"_blank\" rel=\"noreferrer noopener\">letzten Artikel<\/a>&nbsp;die Unterschiede wie auch Vor- und Nachteile von dezentralem und zentralem Scanning angeschaut haben, widmen wir uns nun hier dem gutem Scanning. Denn es fliessen viele verschiedene Faktoren in jedes gescannte Dokument ein, die eine Auswirkung auf alle nachgelagerten Prozesse haben. Angefangen beim Dateiformat \u00fcber die Kompression bis hin zur Aufl\u00f6sung. Deshalb ist eine Vielzahl von Kombinationen zur Umsetzung m\u00f6glich, wobei sich manche f\u00fcr gewisse Aufgaben besser eignen als andere. Wenn nun ein Mensch einige Daten auf einem gescannten Dokument ablesen will, so muss das Dokument gewisse Anforderungen erf\u00fcllen. Einigermassen gut lesbar beispielsweise. Folglich verh\u00e4lt es sich sehr \u00e4hnlich, wenn wir Dokumente mit einer OCR Software auslesen wollen. Sprich, auch hier sind zwangsl\u00e4ufig einige Standards zu erf\u00fcllen. Ansonsten sind die Ergebnisse der automatisierten Datenextraktion tendenziell klar schlechter.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"h-farbmodi\"><br>Farbmodi<\/h4>\n\n\n\n<p>Typischerweise werden die drei Modi Bitonal, Graustufen und Farbe f\u00fcr das Scanning verwendet. F\u00fcr Parashift ist es nicht wichtig, ob das Dokument farbig oder schwarz-weiss gescannt wurde, die Algorithmen sind in beiden F\u00e4llen funktional. Es liegt also bei Ihnen, f\u00fcr welchen Farbmodus Sie sich entscheiden.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"h-dateiformat\">Dateiformat<\/h4>\n\n\n\n<p>Wie Sie sicherlich wissen, gibt eine Vielzahl an verschiedenen Dateiformaten, die f\u00fcr das Scanning von Dokumenten verwendet werden k\u00f6nnen. Einige der g\u00e4ngigsten sind PDF, PDF\/A, TIFF, JPG und PNG.<\/p>\n\n\n\n<p>Auch in diesem Aspekt spielt es f\u00fcr die Parashift Plattform keine grosse Rolle, mit welchem Format Sie arbeiten wollen. Wichtig ist, dass Sie ein Dateiformat w\u00e4hlen, dass f\u00fcr Sie in Ihrem Unternehmenskontext passt. Konkret heisst das, das Dateiformat soll sich eignen, langfristig damit arbeiten zu k\u00f6nnen und es soll auch f\u00fcr Ihre Archivzwecke geeignet sein.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"h-kompression\">Kompression<\/h4>\n\n\n\n<p>Die Kompression ist ein wichtiger Gesichtspunkt, da bei falscher Kompression entweder Daten verloren gehen k\u00f6nnen oder aber zu viel Speicherplatz aufgewendet wird. Wird gar nicht komprimiert, dann ist der Scan zwar besonders genau, aber die Datei wird zu gross sein f\u00fcr Archivierungszwecke.<\/p>\n\n\n\n<p>Verarbeiten Sie Dokumente mit uns, d\u00fcrfen die an unsere API gesendeten Dokumente ruhig bereits komprimiert sein. Eine Gr\u00f6sse von 40 \u2013 50 Kilobyte pro gescannter bitonaler (schwarz-weiss) A4 Seite ist optimal. Gr\u00f6ssere Dokumente sind nat\u00fcrlich auch kein Problem, wobei dies f\u00fcr die Archivierung eher suboptimal ist.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"h-auflosung\">Aufl\u00f6sung<\/h4>\n\n\n\n<p>Die Scanaufl\u00f6sung d\u00fcrfte der wohl kritischste Punkt beim erfolgreichen Dokumentenscan sein. Sie wird typischerweise mit der Anzahl dots per inch &#8211; kurz DPI &#8211; gemessen. Wie der Name schon sagt, dr\u00fcckt diese Zahl aus, wie viele Punkte sich auf einem Zoll befinden. Diese Zahl gilt es nicht zu verwechseln mit pixel per inch, also&nbsp;<a href=\"https:\/\/www.flyeralarm.com\/blog\/de_ch\/der-unterschied-zwischen-dpi-und-ppi?utm_source=tradetracker&amp;utm_medium=affiliate&amp;utm_campaign=26585\" rel=\"noreferrer noopener\" target=\"_blank\">PPI<\/a>.<\/p>\n\n\n\n<p>Als Faustregel ist: Eine Aufl\u00f6sung mit 300 DPI ist ausreichend f\u00fcr einen Scan. Wenn nur mit 200 DPI oder weniger gescannt wird, ist zwar die Datei kleiner, aber dementsprechend sind im Scan auch weniger Ausgangsdaten vorhanden. Bei Parashift und anderen OCR Anbietern kann es folglich bei niedriger Aufl\u00f6sung zu Problemen in der Erkennung und Extraktion kommen. Ist die Aufl\u00f6sung zu niedrig, ist beispielsweise die Wahrscheinlichkeit, dass der Buchstabe B als die Zahl 8 gelesen wird oder die Zahl 1 als klein L wesentlich h\u00f6her. Um dieses Problem zu illustrieren, zeigen die nachfolgenden Grafiken einen Ausschnitt aus einem gescannten A4 Dokument, wobei sie sich lediglich durch die Aufl\u00f6sung unterscheiden. Die Dokumente sind nach aufsteigender Scanaufl\u00f6sung geordnet.<\/p>\n\n\n\n<p>Es ist offensichtlich, dass das erste Bild viel schwieriger zum Einlesen sein d\u00fcrfte und daher auch die Fehleranf\u00e4lligkeit h\u00f6her ist. Die Zahl 1 kann hier missverst\u00e4ndlich als klein L gelesen werden. Bei 300 DPI sieht das hingegen anders aus. Bei dieser Aufl\u00f6sung wird der Scan fehlerfrei erfolgen k\u00f6nnen.<\/p>\n\n\n\n<p>Die Schriftgr\u00f6sse spielt \u00fcbrigens bei der Aufl\u00f6sung ebenfalls eine Rolle. Wenn auf einem A4 ein Text mit Schriftgr\u00f6sse 5 mit 300 dpi eingescannt wird, limitiert dies die Performance von OCR-L\u00f6sungen relativ bedeutend.<\/p>\n\n\n\n<p>Folgen einer niedrigen Aufl\u00f6sung sind also zum einen eine niedrigere Qualit\u00e4t aber auch eine Geschwindigkeitsverminderung bei der Zeichenerkennung der Engine. Da die Zeichen auf dem Dokument teilweise nicht eindeutig sind, m\u00fcssen mehrere Erkennungsvarianten verarbeitet werden, was verst\u00e4ndlicherweise mehr Zeit ben\u00f6tigt. Um eine optimale Aufl\u00f6sung zu erhalten, sollte daher wenn auch immer m\u00f6glich einerseits die DPI Anzahl bei 300 liegen und andererseits die Schriftgr\u00f6ssen nicht zu klein sein.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nachdem wir im&nbsp;letzten Artikel&nbsp;die Unterschiede wie auch Vor- und Nachteile von dezentralem und zentralem Scanning angeschaut haben, widmen wir uns nun hier dem gutem Scanning. Denn es fliessen viele verschiedene Faktoren in jedes gescannte Dokument ein, die eine Auswirkung auf&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[121],"tags":[],"class_list":["post-17599","post","type-post","status-publish","format-standard","hentry","category-allgemein-2"],"_links":{"self":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17599","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/comments?post=17599"}],"version-history":[{"count":2,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17599\/revisions"}],"predecessor-version":[{"id":30942,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17599\/revisions\/30942"}],"wp:attachment":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/media?parent=17599"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/categories?post=17599"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/tags?post=17599"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}