{"id":17593,"date":"2020-06-25T12:20:17","date_gmt":"2020-06-25T12:20:17","guid":{"rendered":"http:\/\/parashift.io\/?p=3672"},"modified":"2025-11-30T22:40:16","modified_gmt":"2025-11-30T22:40:16","slug":"machine-learning-model-drifts-und-benchmarks","status":"publish","type":"post","link":"https:\/\/parashift.ai\/de\/machine-learning-model-drifts-und-benchmarks\/","title":{"rendered":"Machine Learning Model Drifts und Benchmarks"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Industrien und Arbeitspl\u00e4tze haben sich mit dem Aufkommen von Data Science, Data Analytics, Big Data, Machine Learning und K\u00fcnstlicher Intelligenz (KI) bereits erheblich ver\u00e4ndert. In den letzten zehn Jahren haben diese neuen Technologien dazu beigetragen, dass wir Prozesse wie etwa die Kreditvergabe, die Betrugsaufdeckung, die Vorhersage der Kundenabwanderung, Optimierung der Personalbedarfs- und einsatzplanung und zahlreiche andere mehr oder weniger komplexe Aufgaben gr\u00f6sstenteils automatisieren und verbessern konnten. Zudem finden Sie auch Anwendung in der Empfehlung von Dingen, die uns auf Basis unseres vergangenen Verhaltens mit mehr oder weniger grosser Wahrscheinlichkeit auch entsprechen k\u00f6nnten. Ein Paradebeispiel hierzu sind die n\u00e4chsten Titel, wenn Sie auf YouTube unterwegs sind. Aber auch bei anderen Streamingdiensten, wo Sie Filme, Songs und andere Medienformen konsumieren, k\u00f6nnen basierend auf interpretiertem Geschmack der User Vorschl\u00e4ge abgeleitet werden. Neben solchen eher \u00abeinfachen\u00bb Modellierungsaufgaben, gibt es aber auch weitaus komplexere Anwendungsbereiche von Machine Learning und neuronalen Netzwerken. Beispiele hierzu sind die Computer Vision, Spracherkennung, Textverst\u00e4ndnis, Reasoning und jegliche interdisziplin\u00e4ren Dom\u00e4nen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">W\u00e4hrend \u00fcber High-Level Konzepte und Anwendungsbereiche von Data Science, Data Analytics, Big Data sowie Machine Leaning und KI viel geschrieben, aber auch in der Wissenschaft geforscht wird, sind zentrale Aspekte davon wie beispielsweise Model Drifts und Benchmarks&nbsp;aber oft nur am Rand erw\u00e4hnt. Deshalb nachstehend eine erste kurze Einf\u00fchrung in die Themen.<\/p>\n\n\n\n<!--HubSpot Call-to-Action Code --><span class=\"hs-cta-wrapper\" id=\"hs-cta-wrapper-198a3488-dee9-4745-8736-285acccf397a\"><span class=\"hs-cta-node hs-cta-198a3488-dee9-4745-8736-285acccf397a\" id=\"hs-cta-198a3488-dee9-4745-8736-285acccf397a\"><!--[if lte IE 8]><div id=\"hs-cta-ie-element\"><\/div><![endif]--><a href=\"https:\/\/cta-redirect.hubspot.com\/cta\/redirect\/5804034\/198a3488-dee9-4745-8736-285acccf397a\" target=\"_blank\" rel=\"noopener\"><img fetchpriority=\"high\" decoding=\"async\" class=\"hs-cta-img\" id=\"hs-cta-img-198a3488-dee9-4745-8736-285acccf397a\" style=\"border-width:0px;\" height=\"418\" width=\"800\" src=\"https:\/\/no-cache.hubspot.com\/cta\/default\/5804034\/198a3488-dee9-4745-8736-285acccf397a.png\"  alt=\"Parashift On-Demand-Webinare\"\/><\/a><\/span><script charset=\"utf-8\" src=\"https:\/\/js.hscta.net\/cta\/current.js\"><\/script><script type=\"text\/javascript\"> hbspt.cta.load(5804034, '198a3488-dee9-4745-8736-285acccf397a', {\"region\":\"na1\"}); <\/script><\/span><!-- end HubSpot Call-to-Action Code -->\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Was sind Machine Learning Modelle?<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Ganz vorne weg: Von Machine Learning sprechen wir generell, wenn wir&nbsp;viele Daten in ein Computerprogramm laden und ein Modell ausw\u00e4hlen oder konfigurieren, das die Daten mit m\u00f6glichst hoher Genauigkeit erkl\u00e4ren kann, so dass dieses Computerprogramm auf Basis eins neuen Inputs&nbsp;k\u00fcnftig Vorhersagen treffen kann kann. Die Art und Weise, wie der Computer solche Modelle erstellt, ist durch verschiedene Arten von Algorithmen bestimmt. Diese reichen von einen einfachen Gleichung wie der Funktionsgleichung einer Linie bis zu einem sehr komplexen System aus Logik und Mathematik, das den Computer zu den bestm\u00f6glichen Vorhersagen f\u00fchrt. Es werden in diesem Prozess also&nbsp;<a href=\"https:\/\/en.wikipedia.org\/wiki\/Feature_(machine_learning)\" rel=\"noreferrer noopener\" target=\"_blank\">Features<\/a>&nbsp;identifiziert, welche zum bestm\u00f6glichen Erkl\u00e4rungsversuch der vorhandenen Daten f\u00fchren.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Der Begriff Machine Learning ist dabei treffend gew\u00e4hlt, da sobald&nbsp;das zu verwendende Modell erstellt und Fine-Tuning vorgenommen wurde (sprich, wenn Sie es durch Anpassungen verbessern), die Maschine das Modell verwendet, um die Muster in bestimmten Daten zu erlernen, welche dazu verhelfen, noch bessere Vorhersagen zu treffen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Allgemein unterscheidet man im Machine Learning drei verschiedene Problemstellungen:&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/%C3%9Cberwachtes_Lernen\" rel=\"noreferrer noopener\" target=\"_blank\">Supervised Learning<\/a>, wo Daten zu einem Problem mit Ihrem \u00abOutcome\u00bb bekannt sind (man spricht da oftmals auch von gelabelten Daten),&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/Un%C3%BCberwachtes_Lernen\" rel=\"noreferrer noopener\" target=\"_blank\">Unsupervised Learning<\/a>, wo das eben nicht der Fall ist, und&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/Best%C3%A4rkendes_Lernen\" rel=\"noreferrer noopener\" target=\"_blank\">Reinforcement Learning<\/a>, was insbesondere Anwendung in Problemstellungen findet, wo kein Optimum zur L\u00f6sung der Problemstellung bekannt ist. Dazu aber bei einer anderen Gelegenheit mehr.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Was ist ein Model Drift?<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Model Drifts k\u00f6nnen auftreten, wenn es irgendeine Form von \u00c4nderung an Feature-Daten oder Zielabh\u00e4ngigkeiten gibt. Diese Drifts k\u00f6nnen wir grob in die drei folgenden Kategorien einteilen: Konzeptdrift, Datendrift und Upstream-Daten\u00e4nderungen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Konzeptdrift<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wenn sich die statistischen Eigenschaften der Zielvariablen \u00e4ndern, \u00e4ndert sich auch das Konzept dessen, was Sie&nbsp;vorhersagen&nbsp;wollen. Zum Beispiel k\u00f6nnte sich die Definition dessen, was als betr\u00fcgerische Transaktion gilt, im Laufe der Zeit \u00e4ndern, wenn neue Wege zur Durchf\u00fchrung solcher illegalen Transaktionen entwickelt werden. Diese Art von \u00c4nderung wird zu einem Konzeptdrift f\u00fchren.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Datendrift<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Beim Datendrift, wie es der Name vermuten l\u00e4sst, geht es um die Rohdaten f\u00fcr die Modellerstellung. Denn die zum Trainieren eines Modells verwendeten Features werden wie bereits erw\u00e4hnt, aus den urspr\u00fcnglichen Eingabe-\/Trainingsdaten errechnet. Wenn sich also die statistischen Eigenschaften dieser neuen Eingabedaten im Vergleich \u00e4ndern, wirkt sich dies in der Folge auf die Qualit\u00e4t des Modells aus. Beispielsweise f\u00fchren Daten\u00e4nderungen aufgrund von Saisonabh\u00e4ngigkeit, \u00c4nderungen der pers\u00f6nlichen Pr\u00e4ferenzen, Trends, usw. zu einem Drift der eingehenden Daten und dadurch des verwendeten Modells.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Upstream-Daten\u00e4nderungen<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Zu guter Letzt kann es manchmal in der vorgelagerten Datenpipelines zu operativen \u00c4nderungen kommen, die sich auf die Modellqualit\u00e4t auswirken k\u00f6nnen. Zum Beispiel&nbsp;k\u00f6nnen \u00c4nderungen an der Merkmalskodierung wie der Wechsel von Fahrenheit zu Celsius oder aber auch nicht mehr generierte Merkmale, die zu null oder fehlenden Werten f\u00fchren&nbsp;zu ungewollten Upstream-Daten\u00e4nderungen f\u00fchren.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Wie Model Drifts identifiziert und ihnen vorgebeugt werden kann<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Angesichts der Tatsache, dass es nach der Einf\u00fchrung eines Modells in die Produktion (also in den Betrieb) zu solchen \u00c4nderungen und Drifts kommen kann (eigentlich mit fast garantierter Sicherheit), besteht der Best Practice Ansatz darin, auf \u00c4nderungen zu achten und m\u00f6glichst rasch Massnahmen zu ergreifen, wenn denn solche auftreten. Eine R\u00fcckkopplungsschleife von einem \u00dcberwachungssystem und die regelm\u00e4ssige Aktualisierung von Modellen werden dazu beitragen, Modellabstinenz zu vermeiden oder zumindest die Wahrscheinlichkeit dazu bedeutend zu verringern.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Was sind Model Benchmarks?<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Die Erstellung eines Modells und dessen Einsatz ist also offensichtlich nicht das Ende eines Entwicklungszyklus. W\u00e4hrend des Einsatzes muss&nbsp;das Unternehmen daher relevante Kennzahlen und Richtwerte f\u00fcr das Modell definieren. Die Kennzahlen sind sogenannte KPIs.&nbsp;Wenn Sie sich mal mit Statistik besch\u00e4ftigt haben, dann m\u00f6gen Sie sich vielleicht noch an die Geschichte mit True Positive, True Negative, False Positive und False Negative erinnern. Die kommen nun hier wieder zum Einsatz.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Neben der Accuracy KPI, welche zum Beispiel bei Klassifizierungen aussagt, wie viele Rechnungen aus der Grundgesamtheit der untersuchten Dokumente korrekt &#8211; also entweder als Rechnung oder eben als Nicht-Rechnung &#8211; klassifiziert wurden, sind auch Precision und Recall relevant. Precision unterscheidet sich insofern von der Accuracy, als dass sie verdeutlicht, wie viele Rechnungen korrekt als Rechnungen klassifiziert wurden, in Relation zu allen als Rechnung klassifizierten Dokumenten. Recall (auch Sensitivit\u00e4t genannt) gibt dagegen Auskunft \u00fcber den Anteil der korrekt als Rechnung klassifizierten Dokumenten im Verh\u00e4ltnis zu allen Rechnungen unter den Dokumenten, die untersucht wurden.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Sie sehen, wir k\u00f6nnen nicht Precision und Recall gleichzeitig optimieren, was nichts anderes heisst, als dass es eine Wechselbeziehung gibt, die wir visualisieren k\u00f6nnen. Eine KPI die eine Vermischung der Precision und Recall vornimmt und oftmals zur Evaluation von Modellen verwendet wird, ist der&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/Beurteilung_eines_bin%C3%A4ren_Klassifikators#Kombinierte_Ma%C3%9Fe\" rel=\"noreferrer noopener\" target=\"_blank\">F1-Score<\/a>. Ein anderes Hilfsmittel zur Evaluation ist die&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/ROC-Kurve\" rel=\"noreferrer noopener\" target=\"_blank\">ROC-Kurve<\/a>. Diese ist insbesondere bei bin\u00e4ren Klassifikationen verbreitet und \u00e4hnelt stark der Relevanz- und Sensitivit\u00e4ts-Kurve. Vergleichsweise illustriert sie aber nicht der Zusammenhang zwischen Precision und Sensitivit\u00e4t, sondern denjenigen von True Positive und False Positive.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die im realen Leben verwendeten Benchmarks unterscheiden sich je nach Modell und dessen Use Cases. Dazu ein Beispiel: Wenn Sie einen Klassifikations-Modell zur Erkennung von Krebs auf R\u00f6ntgenbilder entwickeln, wollen Sie lieber alle potenziellen F\u00e4lle identifizieren, als bei jenen sehr sicher zu sein, wo sie Krebszellen vermuten. Anderswo sieht das aber schon wieder ganz anders aus. Unsere Kunden legen beispielsweise einen gr\u00f6sseren Wert auf Accuracy. Wenn wir aber nur f\u00fcr diese Metrik optimieren w\u00fcrden, w\u00fcrde das an gewissen Stellen zu falschen Klassifikationen von Dokumenten oder zu extrahierenden Textzeichen f\u00fchren, was ebenso nicht im Sinne unserer Kunden ist. Sie sehen, das Ganze ist eine ziemliche Gradwanderung.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Was wir bis jetzt aber noch nicht thematisiert haben, sind die Grundlagen, also die Daten, auf welchen wir diese Benchmarks zur Evaluation der Performance ziehen. Da wie vorhin beschrieben, das Umfeld der Modelle in Real-World Applikationen von Machine Learning oftmals vom Wandel gepr\u00e4gt ist, k\u00f6nnen sich auch deren Outputs \u00e4ndern. Auch hier wieder ein Beispiel zur Verdeutlichung: Ein Algorithmus wurde so trainiert, dass er den Verkaufspreis einer Liegenschaft auf Basis unterschiedlicher Merkmale wie Alter, Anzahl R\u00e4ume, Schlafzimmer, Wohnfl\u00e4che, Population der Region, Median Einkommen und weiteren Attributen vorhersagen kann. Die ganzen Trainingsdaten stammen aber von Verkaufszahlen einer bestimmten Region. Wenden Sie dieses Preis-Modell auf den Immobilienmarkt eines anderen Landes an, f\u00fchrt dies aufgrund dessen mit hoher Wahrscheinlichkeit zu grossen Varianzen zu orts\u00fcblichen Preisen und somit zu einem Model Drift. Ein alternativer Drift k\u00f6nnte vorliegen, wenn Ihre Daten nicht up-to-date sind und daher die potenziellen Marktver\u00e4nderungen in der Zwischenzeit nicht eingepreist sind. Es ist also extrem wichtig herauszufinden, was genau der Benchmark ist oder sein sollte, wenn Sie Ihre Machine Learning Modelle zuverl\u00e4ssig auf Ihre Performance bewerten wollen. Das ist insbesondere dann relevant, wenn Sie dieses updaten und neuen Gegebenheiten anpassen wollen, ohne dabei m\u00f6glicherweise f\u00fcr gewisse, nach wie vor relevante Datentypen die Performance zu verschlechtern. Eine Wissenschaft f\u00fcr sich&#8230;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Industrien und Arbeitspl\u00e4tze haben sich mit dem Aufkommen von Data Science, Data Analytics, Big Data, Machine Learning und K\u00fcnstlicher Intelligenz (KI) bereits erheblich ver\u00e4ndert. In den letzten zehn Jahren haben diese neuen Technologien dazu beigetragen, dass wir Prozesse wie etwa&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[121],"tags":[],"class_list":["post-17593","post","type-post","status-publish","format-standard","hentry","category-allgemein-2"],"_links":{"self":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17593","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/comments?post=17593"}],"version-history":[{"count":1,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17593\/revisions"}],"predecessor-version":[{"id":30159,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/17593\/revisions\/30159"}],"wp:attachment":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/media?parent=17593"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/categories?post=17593"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/tags?post=17593"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}