Correlatie en regressie: wat is het precies?
Als we het hebben over regressie dan komen we automatisch ook uit bij correlatie. Regressie bestaat uit een reeks correlaties en standaarddeviaties. Beide termen zijn belangrijk bij regressie. Standaarddeviaties zijn vooral belangrijk voor significantietoetsing en de berekening van betrouwbaarheidsintervallen. Correlatie is belangrijk bij de vorming van de regressiecoëfficiënten. Met de correlaties tussen de variabelen is de basis gelegd voor de berekening van bijvoorbeeld de semi-partiële en partiële correlaties. Lees hier meer over correlatie en regressie.
Regressie, correlatie en variabelen
De term regressie wordt gebruikt in de statistiek om aan te geven dat er mogelijk sprake is van een samenhang tussen variabelen. De regressie-analyse houdt zich met name bezig met het onderzoek van die samenhang tussen de onafhankelijke variabelen (X) en de afhankelijke variabele (Y). Wanneer er twee continue variabelen worden gemeten is het mogelijk om dat visueel te representeren. Er zijn twee belangrijke termen die bij correlaties belangrijk zijn. Deze twee termen zijn:
- Centreren
- Standaardiseren
Wat is centreren?
Als er gegevens zijn vergaard is het mogelijk om de gegeven met behulp van statistische principes te analyseren. In de meeste gevallen wordt gebruik gemaakt van het computerprogramma SPSS. De gegevens worden in SPSS verwerkt en bekeken. SPSS kan berekeningen zelf uitvoeren. Het is echter belangrijk om zelf ook te weten wat je precies doet en hoe de berekeningen tot stand komen. Een belangrijke term die bij regressie en correlatie hoort is centreren.
Centreren betekent dat er van elke waarde binnen een variabele het gemiddelde van de specifieke variabele wordt afgetrokken. Het resultaat van het centreren is dat het gemiddelde nul wordt. De verhoudingen en de standaarddeviatie blijven echter wel identiek. Een gecentreerde x of een gecentreerde y wordt weergegeven met een kleine letter. Een normale geobserveerde waarde wordt meestal weergegeven met een grote X en een grote Y.
- Formule voor centreren: x = (X - Mx)
Wat is standaardiseren?
Standaardiseren lijkt heel veel op centreren maar er zijn wel een aantal verschillen. Als eerste begin je door van elke geobserveerde waarde van een variabele het gemiddelde van de variabele eraf te trekken. Het gecentreerde getal dat je dan hebt ga je vervolgens nog delen door de standaarddeviatie. Uiteindelijk krijg je dat het gemiddelde altijd nul zal zijn en dat de standaarddeviatie altijd 1 zal zijn. Bij correlatie is het belangrijk om te standaardiseren, immers: correlaties zijn gestandaardiseerde maten voor samehang.
- Formule voor standaardiseren: Zx = x / sdx
Correlatie
De waarde van een correlatie kan zowel positief als negatief zijn. Het getal zal nooit lager dan -1 en nooit groter dan +1 kunnen zijn. Een positieve relatie tussen variabelen zal leiden tot een positief getal en een negatieve relatie tussen variabelen zal leiden tot een negatief getal. Als er geen relatie bestaat tussen variabelen, dan zal de waarde (correlatie) nul zijn.
- Formule correlatie: rXY = Σ (Zx * Zy) / n-1
Er bestaan veel verschillende soorten formules om correlatie te berekenen. In princpe hebben alle formules dezelfde basis. Het is bijvoorbeeld ook mogelijk om een correlatie berekenen zonder dat je eerst de gestandaardiseerde waarden moet berekenen. Met de formule is het dus mogelijk om direct correlaties te berekenen van de geobserveerde waarden van een variabele. Het is dan natuurlijk wel belangrijk om de standaarddeviaties te weten van de x en de y. De formule ziet er als volgt uit:
- Formule om correlatie direct uit de geobserveerde waarde te berekenen: rXY = ( Σ xy / (n-1) ) / sdx * sdy
Point-Biserial Correlatie
Vaak werken mensen met continue variabelen maar het kan ook zijn dat de variabelen niet continue zijn maar bijvoorbeeld binair. Het is ook mogelijk dat er combinaties zijn. De ene variabele continue en de andere binair. Wanneer een correlatie tussen een continue variabele en een binaire variabele wordt berekend maak je gebruik van de point-biserial correlatie formule. De formule ziet er als volgt uit.
- Formule point-biserial correlatie: rpoint-biserial = ( (My1 - MY0) * √PQ ) / sdy
De P in de formule betekent de proportie enen. De Q betekent de proportie nullen. In de formule is het dus altijd zo dat P + Q altijd 1 is. De M in de formule staat voor Mean (gemiddelde). My1 staat dus voor het gemiddelde van Y voor binaire variabele 1 en My0 staat voor het gemiddelde van Y voor binaire variabele 0. Wat moet je doen als je twee variabelen hebt die beide binair zijn? Je kunt nu geen point-biserial correlatie gebruiken. Als twee variabelen binair zijn moet je een andere formule gebruiken.
Phi-correlatie
Als er twee variabelen zijn die beide binair zijn maak je gebruik van de phi-correlatie. Ook de phi-correlatie is met de hand te berekenen. De formule voor de phi-correlatie ziet er als volgt uit:
- Formule voor phi-correlatie: rΦ = BC - AD / √ (A+B) * (C+D) * (A+C) * (B+D)
Het is dus belangrijk om naar de data te kijken. Welke variabelen zijn er opgenomen? Maak vervolgend gebruik van de juiste formule om de correlatie te berekenen.
Belangrijke termen
De volgende termen zijn belangrijk als correlatie en regressie wordt gebruikt.
- R2 = Verklaarde variantie van de onafhankelijke variabelen in het model
- b0 = Constante (of intercept)
- b1 = Helling
Vragen over statistiek, regressie en correlatie? Stel ze in het reactieformulier onder dit artikel!