{"id":3676,"date":"2020-07-02T12:25:13","date_gmt":"2020-07-02T12:25:13","guid":{"rendered":"http:\/\/parashift.io\/?p=3676"},"modified":"2025-11-30T22:40:11","modified_gmt":"2025-11-30T22:40:11","slug":"mittelwert-und-varianz-potenziell-irrefuhrende-kpis","status":"publish","type":"post","link":"https:\/\/parashift.ai\/de\/mittelwert-und-varianz-potenziell-irrefuhrende-kpis\/","title":{"rendered":"Mittelwert und Varianz: Potenziell irref\u00fchrende KPIs"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">\u00abStatistiken sind wie Bikinis. Was sie zeigen, ist anregend, aber was sie verbergen, ist die Hauptsache\u00bb &#8211; Aaron Levenstein.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Angesichts der enormen Datenmengen ist Statistik heutzutage nicht mehr wegzudenken. Dabei werde statistische Berechnungen in praktisch allen erdenklichen Bereichen eingesetzt. Einerseits zur Berechnung von wichtigen Kennzahlen in den verschiedenen volkswirtschaftlichen Themen wie etwa dem Bruttoinlandprodukt (BIP) oder der Inflation. Andererseits spielt Statistik aber auch in der Privatwirtschaft eine ebenso bedeutende Rolle. Von Branche zu Branche gibt es unterschiedliche Anwendungsm\u00f6glichkeiten, wo sie zum Zug kommen k\u00f6nnte. Beispielsweise kann im Detailhandel sowie im Online Handel der durchschnittliche Wert des Warenkorbes der Kunden gemessen werden. Anhand dieser Kennzahl kann dann gemessen werden, ob Aktionen oder eine andere Platzierung der Artikel den Warenkorbwert positiv beeinflussen und somit zu mehr Umsatz f\u00fchren.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">In Call-Centern kann die durchschnittliche Bearbeitungsdauer f\u00fcr ein Telefongespr\u00e4ch berechnet werden. Wenn ein gewisser Mitarbeiter deutlich l\u00e4nger f\u00fcr ein Telefonat braucht als der Durchschnitt, kann dies ein Indikator daf\u00fcr sein, dass der Mitarbeiter zus\u00e4tzliches Training ben\u00f6tigt. Ein abteilungsweites Training kann sogar bewirken, dass die durchschnittliche Bearbeitungsdauer sinkt.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Statistik kann auch relevant sein, f\u00fcr die Beschreibung des eigenen Angebots. Das Service-Level beziehungsweise der Servicegrad ist eine weit verbreitete Kennzahl f\u00fcr das angebotene Serviceniveau. Im Falle von OCR Software wird das Angebot oftmals mit Extraktionsraten und Sensitivit\u00e4t beschrieben, welche ebenfalls mittels statistischer Berechnungen ermittelt werden.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wie aber das Zitat von Aaron Levenstein verdeutlicht, k\u00f6nnen Statistiken zwar sch\u00f6n aussehen und gewisse Indizien liefern, aber die Hintergr\u00fcnde und Berechnungen sind das wichtigste einer jeden Statistik. Graphische Darstellung sowie gewisse Kennzahlen wie etwa Lage- oder Streuparameter sollten nicht isoliert betrachtet werden. Denn wie Francis Anscombe 1973 festgestellt hat, k\u00f6nnen verschiedene Datens\u00e4tze zwar die gleiche Varianz sowie den gleichen Mittelwert aufweisen, graphisch aber komplett unterschiedlich aussehen. Doch bevor wir weiter darauf eingehen, beschreibe ich erst kurz die wichtigsten Begriffe.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Was sind Mittelwert, Standardabweichung und Varianz?<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Der Mittelwert eines Datensatzes ist ganz einfach der Durchschnitt dieser Daten. Beispielsweise hat der Mittelwert den Wert 10 bei einem Datensatz mit den Zahlen 5, 10 und 15.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die Standardabweichung ist ein Mass f\u00fcr die Streuung der Werte um den Mittelwert. Bei einem Datensatz mit einer grossen Anzahl an Werten, zeigt die Standardabweichung,&nbsp;wie weit sich diese Daten zwischen dem Minimum und dem Maximum verteilen und wie dicht sie sich um den Mittelwert h\u00e4ufen. Diese Verteilung der Datenpunkte kann in einer Funktionskurve dargestellt werden. Je nach Beschaffenheit der Daten hat diese eine unterschiedliche Form. Haben wir eine&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/Normalverteilung\" rel=\"noreferrer noopener\" target=\"_blank\">Normalverteilung<\/a>, so \u00e4hnelt diese einer Glocken-Form. Beispielsweise bei der K\u00f6rpergr\u00f6sse von Fussballern k\u00f6nnte der Mittelwert 1.80m und die Standardabweichung (\u03c3) 0.1m sein. Eher wenige Fussballer sind \u00fcber 2.00m oder unter 1.60m, aber mehr zwischen 1.70m und 1.90m. Der Grossteil der Fussballer wird innerhalb einer Standardabweichung unter oder \u00fcber dem Mittelwert von 1.80m liegen. Geht man von einer Normalverteilung aus so w\u00e4ren&nbsp;~&nbsp;68% der Fussballer zwischen 1.70m und 1.90m gross.&nbsp;~&nbsp;95% aller Fussballer w\u00fcrden innerhalb von zwei Standardabweichungen liegen. In diesem Fall w\u00e4ren&nbsp;~&nbsp;95% zwischen 1.60m und 2.00m gross. Die \u00fcbrigen&nbsp;~&nbsp;5% der Fussballer w\u00e4ren \u00fcber 2.00m gross oder unter 1.60m gross.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/blog.parashift.io\/hubfs\/image-Jun-26-2020-01-12-16-12-PM.png\" alt=\"\"\/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">W\u00e4hrend die Standardabweichung also zeigt, wie sich die Werte um den Mittelwert verteilen, ist die Varianz lediglich das Quadrat der Standardabweichung und ist somit ebenfalls ein Streuungsmass, das die Verteilung von beobachteten Werten um den Erwartungswert beschreibt. Durch die Quadrierung wird aber auch die Einheit quadriert und so w\u00e4re in unserem Beispiel die Einheit nicht mehr Meter (m) sondern Quadratmeter (m<sup>2<\/sup>), was in Bezug auf K\u00f6rpergr\u00f6sse ein wenig sinnvolles Mass ist.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Zusammenfassende Statistiken erz\u00e4hlen nicht die ganze Geschichte<\/h4>\n\n\n\n<p class=\"wp-block-paragraph\">Diese drei beschriebenen Parameter erm\u00f6glichen es, einen grossen, komplexen Datensatz mit nur wenigen Kennzahlen relativ gut zu beschreiben. Aber es besteht die Gefahr, sich nur auf diese zusammenfassenden Statistiken zu verlassen und die Gesamtverteilung zu ignorieren. Die Berechnung von diesen Parametern ist daher n\u00fctzlich, sollte aber nur ein Teil der eigentlichen Datenanalyse ausmachen. Im Folgenden erkl\u00e4re ich Ihnen, wieso dem so ist.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wie vorhin angedeutet, demonstriert das&nbsp;<a href=\"https:\/\/en.wikipedia.org\/wiki\/Anscombe%27s_quartet\" rel=\"noreferrer noopener\" target=\"_blank\">Anscombe-Quartett<\/a>&nbsp;diese Problematik. Es verdeutlicht, wie vier Datens\u00e4tze trotz identischem Mittelwert und identischer Varianz graphisch total verschieden aussehen k\u00f6nnen. Die zusammenfassenden Statistiken der vier Datens\u00e4tze von Anscombe sind folgendermassen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Der Mittelwert von x hat bei allen vier Datens\u00e4tzen den Wert 9<\/li>\n\n\n\n<li>Der Mittelwert von y hat bei allen vier Datens\u00e4tzen den Wert 7.5<\/li>\n\n\n\n<li>Die Varianz von x hat bei allen vier Datens\u00e4tzen den Wert 11<\/li>\n\n\n\n<li>Die Varianz von y hat bei allen vier Datens\u00e4tzen den Wert 4.12<\/li>\n\n\n\n<li>Die Korrelation zwischen x und y ist in allen vier Datens\u00e4tzen 0.816<\/li>\n\n\n\n<li>Die Gleichung f\u00fcr eine lineare Regression ist bei allen Datens\u00e4tzen y = 0.5x + 3<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Schaut man sich diese Werte an, l\u00e4sst sich intuitiv schlussfolgern, dass diese Datens\u00e4tze einander sehr \u00e4hnlich, wenn nicht identisch sind. Folglich k\u00f6nnte man auch denken, dass sie visuell grosse \u00c4hnlichkeit aufweisen. Stellt man sie erstmal graphisch dar, wird schnell klar, dass die \u00c4hnlichkeit doch nicht so gross wie erahnt ist.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/blog.parashift.io\/hs-fs\/hubfs\/Rich%20Text%20Pasting\/unknown-1593177181072.png?width=582&amp;name=unknown-1593177181072.png\" alt=\"Anscombe-Quartett \u2013 Wikipedia\"\/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Erst mit der Visualisierung werden die Beziehungen zwischen den einzelnen Datenpunkten klarer. W\u00e4hrend der erste Datensatz vermutlich einen linearen Zusammenhang mit etwas Varianz aufweist, scheint Datensatz drei einen fast perfekten linearen Zusammenhang mit nur minimal abweichenden Residuen aufzuweisen. Lediglich ein Ausreisser steht wirklich im \u00abSchilf\u00bb. Beim letzten Datensatz sieht es aus, als w\u00e4re kein Zusammenhang zwischen x und y. Doch auch hier kann wieder ein Ausreisser beobachtet werden. Datensatz Nummer zwei weist definitiv einen Zusammenhang auf, wobei dieser nicht wirklich linear ist.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ein noch extremeres Beispiel daf\u00fcr ist das \u00ab<a href=\"https:\/\/www.autodeskresearch.com\/publications\/samestats\" rel=\"noreferrer noopener\" target=\"_blank\">Datasaurus Dozen<\/a>\u00bb, wobei auch hier wieder alle Datens\u00e4tze den gleichen Mittelwert sowie die gleiche Varianz und den gleichen&nbsp;<a href=\"https:\/\/de.wikipedia.org\/wiki\/Korrelationskoeffizient\" rel=\"noreferrer noopener\" target=\"_blank\">Korrelationskoeffizienten<\/a>&nbsp;aufweisen.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter\"><img decoding=\"async\" src=\"https:\/\/blog.parashift.io\/hs-fs\/hubfs\/AllDinosGrey_1.png?width=637&amp;name=AllDinosGrey_1.png\" alt=\"AllDinosGrey_1\"\/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Eine intuitive Schlussfolgerung w\u00e4re auch hier, dass es sich um sehr \u00e4hnlich bis identische Zusammenh\u00e4nge handeln muss. Doch wie erkennbar ist, nehmen einige Datens\u00e4tze bei der graphischen Darstellung die Form eines Dinosauriers oder eines Sterns an.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Als Fazit kann festgehalten werden, dass es wichtig ist, Datens\u00e4tze zu visualisieren und nicht bloss die zusammenfassenden deskriptive Statistik zu analysieren. Denn der Schein mag ganz offensichtlich tr\u00fcgen und potenziell in diesem Kontext schlechte Entscheidungen zur Folge haben.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u00abStatistiken sind wie Bikinis. Was sie zeigen, ist anregend, aber was sie verbergen, ist die Hauptsache\u00bb &#8211; Aaron Levenstein. Angesichts der enormen Datenmengen ist Statistik heutzutage nicht mehr wegzudenken. Dabei werde statistische Berechnungen in praktisch allen erdenklichen Bereichen eingesetzt. Einerseits&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"content-type":"","footnotes":""},"categories":[121],"tags":[],"class_list":["post-3676","post","type-post","status-publish","format-standard","hentry","category-allgemein-2"],"_links":{"self":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/3676","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/comments?post=3676"}],"version-history":[{"count":1,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/3676\/revisions"}],"predecessor-version":[{"id":30155,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/posts\/3676\/revisions\/30155"}],"wp:attachment":[{"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/media?parent=3676"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/categories?post=3676"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/parashift.ai\/de\/wp-json\/wp\/v2\/tags?post=3676"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}