Statistische Kontrolle über den Lauf der Dinge

Zwei Variablen welche in einer starken Beziehung zueinander stehen sind deswegen noch nicht kausal miteinander verbunden. Im Rahmen von automatisierten Entscheidungen kann die Verwechslung von Korrelation und Kausalität verheerende Folgen haben. Für eine zuverlässige Automatisierung sind statistisch stabile Prozesse unabdingbar.

«Die Zahl der Schulanfänger in Hamburg (1) hat eine hohe Korrelation zur Sonnenscheindauer in Lübeck (2)»
Quelle: https://scheinkorrelation.jimdo.com

Am Anfang steht die Korrelation

Die obgenannte Aussage bringt zwei Ereignisse in einen Zusammenhang. In der Statistik nennt man das Korrelation. Den beiden Ereignissen wird eine hohe Korrelation bescheinigt, wenn (1) und (2) in einer starken Beziehung zueinander stehen.

Die Korrelation wird in einem Koeffizienten zwischen -1 (negative Korrelation) und +1 (positive Korrelation) angegeben. Je näher der Wert bei Null liegt, desto weniger korrelieren zwei Variablen.

Zur Berechnung von Korrelationskoeffizienten gibt es verschiedene statistische Methoden:

  • Pearson-Korrelationskoeffizient, misst die Stärke eines linearen Zusammenhangs zwischen zwei Variablen
  • Spearman-Korrelationskoeffizient, errechnet sich aus dem Unterschied in den Rängen der Daten
  • Kendall-Korrelationskoeffizient, vergleicht nicht nur die Ränge untereinander, sondern alle Ränge miteinander

Viele Beispiele von absurden Korrelationen finden sich z. B. auf der Website von Tyler Vigen.

Hohe Korrelation bedeutet nicht Kausalität

Aus einer hohen Korrelation wird oft fälschlicherweise Kausalität zwischen zwei Ereignissen abgeleitet. D. h. (1) wird als Ursache von (2) angesehen.  Eine hohe Korrelation kann ein Indiz für Kausalität sein, es kann aber auch schlicht keine Kausalität vorliegen oder es besteht eine Scheinkausalität über eine sogenannte Mediatorvariable. Dabei handelt es sich um eine Variable, welche zu beiden untersuchten Werten in einem Kausalzusammenhang steht.

Bei Mediatorvariablen wird zwischen vollständiger und teilweiser Mediation unterschieden. Während bei der vollständigen Mediation der Einfluss von (1) auf (2) bei Einführung der Mediatorvariable verschwindet, wird er bei teilweiser Mediation bloss reduziert.

Statistisch stabile Prozesse sind das Ziel

Das Erkennen von Kausalität und Korrelation sind wichtige Schritte auf dem Weg zu statistisch stabilen Prozessen. Ein Prozess ist erst dann stabil, wenn er frei von besonderen Ursachen ist, das heisst, wenn er nur noch von häufigen Ursachen beeinflusst wird und diese statistisch unter Kontrolle sind.

Als das pure Gegenteil eines statistisch kontrollierten Prozesses erscheint dem Zuschauer auf den ersten Blick die 30 Minuten dauernde Kausalkette, welche im Filmklassiker «Der Lauf der Dinge» (Fischli & Weiss, 1987) inszeniert wurde. Der Publikumserfolg an der documenta 8 in Kassel ist eine Aneinanderreihung von scheinbar zufälligen Aktionen zu einer schier endlosen Kettenreaktion von Ereignissen.

Auf den zweiten Blick handelt es sich aber beim «Lauf der Dinge» doch um einen stabilen, statistisch kontrollierten Prozess, da der Ablauf bis ins letzte Detail geplant ist. Die Spannung zwischen dem minutiös kontrollierten Ablauf der Ereignisse und dem überhaupt nicht kontrolliert wirkenden Aufbau der Versuchsanordnung, wird wohl als künstlerisch wertvoll empfunden.

Trailer zu «Der Lauf der Dinge» in der Internet Movie Database.

Beitrag teilen

Schreibe einen Kommentar