Studienblog

Regression und multiple Regression

Das Grundprinzip

Respond

In der Regression bzw. multiplen Regression wird ein Modell aufgestellt, welches beschreiben soll, inwiefern sich eine gemessene Variable, wie gesundheitsförderliches Verhalten, verändert, wenn sich die Werte eines Faktors oder mehrerer Faktoren ändern, die einen Einfluss auf das Gesundheitsverhalten haben. Grafisch ist dieser Zusammenhang mittels der Regressionsgerade am einfachsten darstellbar. Faktoren könnten hierbei die Persönlichkeitsdimensionen des OCEAN- bzw. Big-Five-Konzeptes sein. Es wird also berechnet, um wie viel sich das Gesundheitsverhalten einer Person verändern sollte, wenn sich der Wert von z.B. „Gewissenhaftigkeit" um eine Maßeinheit erhöht. Angenommen „Gewissenhaftigkeit" und das Gesundheitsverhalten einer Person würden jeweils auf einer Skala von 1 bis 10 gemessenen werden, wobei man bei 10 von maximaler „Gewissenhaftigkeit" bzw. maximal gutes Gesundheitsverhalten spricht. Nun zeigt ein von uns berechnetes Regressionsmodell, dass wenn sich „Gewissenhaftigkeit" um den Wert 1 erhöht, dann verbessert sich das Gesundheitsverhalten um 0,5. Klaus zeigt zum Beispiel eine „Gewissenhaftigkeit" von 2 und zeigt das schlechteste Gesundheitsverhalten von allen, welches auf der entsprechenden Skala den Wert 4 hat. Bert hingegen zeigt den Wert 3 bei „Gewissenhaftigkeit". Daher gehen wir davon aus, dass sein Gesundheitsverhalten um 0,5 besser ist als das von Klaus, also bei 4,5 liegt. Hierbei handelt es sich um rein hypothetische Werte. Untersuchungen dieser Art wurden allerdings tatsächlich bereits umgesetzt. Wenn du mehr über den Zusammenhang zwischen Persönlichkeitsfaktoren und Gesundheitsverhalten lernen möchtest, dann klicke einfach hier. Tatsächlich verändert sich das Gesundheitsverhalten um b= 0,412 Standardabweichungen der Gesundheitsverhaltensskala, wenn sich die „Gewissenhaftigkeits"-Ausprägung um eine Standardabweichung erhöht (Ingledew & Brunning, 1999).

Ein alltägliches Beispiel

An sich hat jeder bereits eine Regression angewandt, der anhand des durchschnittlichen Verbrauches seines Autos und einer zu fahrenden Strecke seinen Spritverbrauch berechnet hat. Angenommen unser Auto ist sparsam und verbraucht nur 4 Liter Diesel auf 100 Kilometer, so verbraucht es pro Kilometer im Durchschnitt b= 0,04 Liter Diesel, also 40 Milliliter.„b" bezeichnet hierbei den Regressionskoeffizienten. Als Formel würden man folgendes schreiben:
y= 0,04 * xkm
Würde man 35 Kilometer fahren wollen würde man dies einfach in die Funktion einsetzen und sie nach y lösen:
y= 0,04 * 35km = 1,4 Liter Dieser
Bei einer multiplen Regression im Vergleich zur "einfachen" Regression würden schlicht weitere Faktoren hinzukommen. Wie das Ladegewicht. Ansonsten ändert sich nichts an der Vorgehensweise: y= 0,04 * xkm + 0,005 * xkg

An sich unterscheidet sich die Regression von diesem Beispiel hauptsächlich darin, wie die Regressionskoeffizienten (b= 0,04 und b= 0,005) berechnet werden. Hierbei wird die Methode der kleinsten Quadrate eingesetzt. Diese zu erklären, würde an dieser Stelle jedoch zu weit führen.

Das Bestimmtheitsmaß

Respond

Abgesehen von dem Modell wird bei der multiplen Regression berechnet, wie gut das Modell vorhersagen trifft. Das heißt, dieses statistische Verfahren sagt nicht nur voraus, wie gesundheitsförderlich sich jemand bei einer bestimmten Persönlichkeit verhält, sondern es sagt auch, wie sehr wir uns drauf verlassen können, dass der berechnete Wert auch korrekt ist. Man redet hier auch vom „Godness of Fit" zu Deutsch Bestimmtheitsmaß. In unserem Beispiel des Gesundheitsverhaltens weisen Untersuchungen auf ca. 40% Bestimmtheit hin. Gewissermaßen bedeutet dies, dass unser berechneter Wert um 40% näher an wirklich gemessenen Werten ist, als der Mittelwert. Ganz praktisch kann man sich folgendes vorstellen:
Wir machen zuerst einen Persönlichkeitstest mit Probanden. Dank existierender Untersuchungen kennen wir die durchschnittliche Ausprägung von Gesundheitsverhalten sowie ein Regressionsmodell, welches sich unter anderem auf die Vorhersage von Gesundheitsverhalten anhand der Persönlichkeitsdimension „Gewissenhaftigkeit" bezieht. Mit Hilfe dieses Modells sagen wir nun das Gesundheitsverhalten unserer Probanden mit ihren Werten in einem Persönlichkeitstest vorher. Anschließend messen wir wirklich das Gesundheitsverhalten der gleichen Probanden. Vergleicht man nun unsere Vorhersagen mit den real gemessenen Werten, dann sollten unsere Vorhersagen um 40% genauer sein, also näher an den tatsächlich gemessenen Werten sein, als wenn man einfach den bekannten Durchschnitt des Gesundheitsverhaltens genommen hätte. Bei der multiplen Regression lägen nun außerdem die Werte für die restlichen vier Persönlichkeitsdimensionen vor und würden zusammen ein Vorhersagemodell bilden. Das Prinzip bleibt jedoch das gleiche. Im Diagramm 2 ist die Regressionsgerade (rote Linie) als auch der Mittelwert (blaue Linie) eingezeichnet. Es ist gut zu erkennen, dass die Regressionsgearde die Datenpunkte besser beschreibt als der Mittelwert (das Diagramm basiert auf simulierte Daten ohne Bezug zum Gesundheitsverhalten).

Literaturverzeichnis

Field, Andy; Miles, Jeremy; Field, Zoë (2013): Discovering statistics using R. Reprint. Los Angeles, Calif.: Sage.



Ingledew, D. K., & Brunning, S. (1999). Personality, preventive health behaviour and comparative optimism about health problems. Journal of Health Psychology, 4(2), 193–208