De assumpties bij statistiek: wat je moet weten
Het is belangrijk om de assumpties goed te weten wanneer je met statistische modellen aan de slag gaat. Statistiek is zeer belangrijk en wordt overal om ons heen gebruikt of toegepast. Met statistische modellen is het mogelijk om voorspellingen te doen. In veel wetenschappelijke domeinen is statistiek een essentieel onderdeel. Wie onderzoeker wil worden moet weten hoe statistiek werkt en wat je met statistiek kunt doen. Om een uitspraak te kunnen maken over een uitkomst van een onderzoek moet er voldaan zijn aan statistische assumpties. Welke zijn dat precies?
Assumpties in statistiek: lineaire regressie
De assumpties zijn zeer belangrijk. Zonder assumpties is er geen rode draad en kunnen er geen geldige uitspraken worden gemaakt over data dat door middel van statistiek is geanalyseerd. Er zijn verschillende assumpties die betrekking hebben op zowel de variabelen in een statistisch model als de residuen van een model.
- Assumpties gelden voor de variabelen
- Assumpties gelden voor de residuen
Statistische assumpties bij de variabelen
In een statistisch model is er altijd sprake van een afhankelijke variabele en één of meerdere onafhankelijke variabelen. De afhankelijke variabele wordt door middel van een Y weergegeven en een onafhankelijke variabele wordt door middel van een X weergegeven. Wanneer er date wordt verzameld kan dat worden geanalyseerd door middel van statistische principes. Uitkomsten die je krijgt kloppen alleen maar als er ook aan de assumpties is voldaan. De assumpties die bij de variabelen horen zijn:
- Je hebt geen meetfouten gemaakt en er is sprake van 100% betrouwbaarheid
- De variabelen die je wilt meten worden ook echt gemeten
- Er moet sprake zijn van lineariteit tussen elke onafhankelijke variabele en de afhankelijke variabele
In eerste instantie is het belangrijk dat er sprake is van lineariteit tussen elke X en de Y. Deze assumptie heeft te maken met de berekingen die je kunt voeren om data te analyseren. Er wordt in de statistiek vaak gebruik gemaakt van correlaties. Deze correlaties zijn altijd lineair. Dit betekent dat lineaire regressie ook lineair moet zijn. Lineariteit kun je (moet je) controleren door middel van een computerprogramma. Je kunt bijvoorbeeld SPSS gebruiken om lineariteit te onderzoeken. Het onderzoeken is mogelijk met een partial regression plot. Als er aan lineariteit is voldaan zie je een rechte lijn in de plot.
Statistische assumpties bij de residuen
Ook de residuen zijn belangrijk bij statistiek. Er gelden voor de residuen ook een aantal assumpties. De belangrijkste assumpties zijn:
- Normaliteit van de residuen
- Onafhankelijkheid van de residuen
- Homoscedasticiteit van de residuen
De homoscedasticiteit van de residuen betekent dat de standaardfout van de helling op elk punt van de helling gelijk moet zijn. Als er geen sprake is van homoscadasticiteit is er sprake van een schendig. In dat geval is de standaardfout niet nauwkeurig en daarmee ook de significantietoets en betrouwbaarheidsinterval niet. Dit is dus een groot probleem want het zou betekenen dat je uitkomsten niet kloppen. Je controleert de assumptie van homoscedasticiteit door middel van een residual plot (residuen plot). De residuen moeten ongeveer gelijkmatig zijn verspreid rond de Lowesslijn.