Statistiek: begrippen, problemen en oplossing
Statistiek is een verplicht onderdeel van veel studies in Nederland. Statistische kennis vergroot de mogelijkheden om onderzoek te doen. Onderzoek is een belangrijk onderdeel bij veel studies. De twee opleidingen sociologie en psychologie hebben veelal meerdere vakken waar statistiek aan bod komt. Ook bètastudies hebben vaak verschillende vakken waar statistiek centraal staat. Lees hier over een aantal begrippen uit de statistiek.
Het begrijpen van statistiek
Een struikelvak is voor veel mensen statistiek. Niet zo vreemd natuurlijk want statistiek is iets wat je moet begrijpen/snappen. Het begrijpen kan behoorlijk frustrerend zijn. Veel studenten vinden statistiek namelijk geen leuk vak. Het begrijpen is echter wel heel belangrijk. Als je de theorie niet begrijpt kun je statistiek ook niet tot nauwelijks toepassen. Het is daarom heel belangrijk om statistische modellen en begrippen goed te kennen. Onderzoekers maken veel gebruik van statistiek. In de meeste gevallen hebben ze daar een computerprogramma voor: SPSS. Met het programma kan een statistisch model ingevoerd worden en kunnen statistische berekeningen worden uitgevoerd.
Begrippenlijst statistiek
Er zijn een aantal begrippen die heel belangrijk zijn bij alle niveau's van statistiek. Lees hier een aantal basisbegrippen die je moet kennen om statistiek te begrijpen en in een onderzoek te kunnen implementeren.
- Betrouwbaarheidsinterval
- Assumpties
- Hypothese
- Multicollineariteit
- Significantietoets
- Standaarddeviatie
- Correlaties
Betrouwbaarheidsinterval
De meeste mensen die zich verdiepen in statistiek hebben wel eens van het woord gehoord. Een betrouwbaarheidsinterval (of BHI) is een interval waar de bijbehorende waarde uit de populatie met C% in kan vallen. Meestal wordt er gerekend met een 95% betrouwbaarheidsinterval. Dit betekent dat een waarde uit de populatie met 95% zekerheid in dat interval valt. Er is bij een 95% BHI dus altijd 5% onzekerheid.
Assumpties
Statistiek is gebouwd op assumpties. Je kunt dit zien als een soort Grondwet van de Statistiek. Het analyseren van een experimenteel onderzoek moet bijvoorbeeld altijd gedaan worden na het checken van de assumpties. Als assumpties worden geschonden levert dat problemen op. De uitkomsten van het onderzoek zijn dan niet juist, worden verkeerd geïnterpreteerd, of zijn niet generaliseerbaar naar de populatie. De volgende assumpties gelden bijna altijd:
- Onafhankelijkheid van de residuen
- Normaliteit van de residuen
- Lineariteit
- 100% betrouwbaarheid (dus geen meetfouten)
- Homoscedasticiteit
Hypothese
Voordat een onderzoek daadwerkelijk wordt uitgevoerd moet er natuurlijk een hypothese zijn. Een hypothese is een verwachting van de uitkomsten. Je verwacht altijd iets (anders doe je natuurlijk geen onderzoek). Je kunt ook meer dan één hypothese hebben. In dat geval spreek je van meerdere hypothesen. Een hypothese is een verwachting van het effect.
Als onderzoeker hoop je natuurlijk altijd op een effect. Is je hypothese (je verwachting) dan ook dat er een effect zal plaatsvinden? Nee! Als onderzoeker verwacht je juist het tegenovergestelde: geen effect of verband tussen bijvoorbeeld populaties, variabelen of scores. Een ''geen effect'' wordt ook wel de nulhypothese (H0) genoemd. Als onderzoeker probeer je dus je eigen hypothese (de nulhypothese) te weerleggen.
Als we het hebben over de hypothese waar elke onderzoeker van droomt dan spreken we over de alternatieve hypothese. De alternatieve hypothese (Ha) is dus de hypothese (de verwachting) dat er wel een effect of verband bestaat tussen je variabelen of scores. In de statistiek probeer je daarom ook altijd de nulhypothese te verwerpen (statistisch onwaarschijnlijk).
Let op! Het begrijpen en snappen van de theorie en werking van hypothesen (Ha en H0) is uitermate belangrijk. Ga niet verder met lezen totdat je snapt wat een nulhypothese en alternatieve hypothese precies is en waarom je juist een hypothese wilt verwerpen.
Multicollineariteit
Als je een onderzoek uitvoerd heb je bijna altijd meerdere variabelen in het model. Deze onafhankelijke variabelen proberen samen zoveel mogelijk variantie van de afhankelijke variabele te verklaren. Als je bijvoorbeeld wilt weten welke variabelen van invloed zijn op het salaris (de afhankelijke variabele), dan kun je een aantal onafhankelijke variabelen opnemen in het statistisch model. Denk bijvoorbeeld aan leeftijd, geslacht en opleidingsniveau. Deze drie onafhankelijke variabelen proberen dan afzonderlijk een bijdrage te leveren.
Het kan gebeuren (en dat is bijna altijd het geval) dat onafhankelijke variablene onderling ook een samenhang hebben. Geslacht en opleidingsniveau kunnen bijvoorbeeld ook samenhang vertonen. Dit wil je juist niet! De samenhang tussen onafhankelijke variabelen wil je altijd zo klein mogelijk houden. De samenhang wordt multicollineariteit genoemd.
Significantietoets
Een significantietoests is een toets die wordt gebruikt om te bepalen of een steekproefgemiddelde op een statistisch niveau significant afwijkt van een andere steekproefgemiddelde / populatiegemiddelde. Bij een significantietoets hoort ook een significantieniveau. Het sig. niveau ligt in de meeste gevallen op 5% (α = 5%). Dit betekent dat je 5% kans op toeval accepteert. Hoe interpreteer je een significantieniveau?
- Als je een p-waarde (de kans) vindt die kleiner is dan 5% (P-waarde = < 0.05), dan verwerp je de nulhypothese (H0).
- Als je een p-waarde (de kans) vindt die groter is dan 5% (P-waarde = > 0.05), dan verwerp je de nulhypothese NIET.
Een significantieniveau van 5% wordt veel gebruik in de sociologie en psychologie. In de economische wetenschappen wordt ook nog wel eens een significantieniveau van 10% gekozen. Hoe groter het significantieniveau is, hoe groter de kans is dat je een nulhypothese verwerpt. Als je kiest voor een significantieniveau van bijvoorbeeld 1% (α = 1%), dan maak je het jezelf (en het onderzoek) wel erg lastig. In dat geval is de kans zeer aanwezig dat je de nulhypothese niet zult verwerpen.
Standaarddeviatie
Een standaarddeviatie is voor veel mensen wel bekend. Ook al heb je geen verstand van statistiek: de term komt je ongetwijfeld wel bekend voor. Een standaarddeviatie betekent letterlijk: standaardafwijking. Het is een samenvattingsmaat. Naast de standaarddeviatie vind je meer samenvattingsmaten:
- Gemiddelde
- Mediaan
- Modus
De standaarddeviatie is heel belangrijk in de statistiek. De sd wordt in heel veel formules gebruikt. Het programma SPSS maakt ook veel gebruik van de standaarddeviatie en kan de waarde geven van een dataset. De standaarddeviatie hoef je daarom in de meesta gevallen zelf niet te berekenen.
Correlaties
Een correlatie is een maat (gestandaardiseere maat) om het lineaire verband tussen twee variabelen (continue of binair) te omschrijven. De correlatie valt met enorm veel verschillende formules te berekenen. Het is daarom ook belangrijk om te kijken naar je dataset en de uitkomsten van een dataset. Een statistisch model met verschillende onafhankelijke variabelen kan zowel partiële als semi-partiële correlatie vertonen. In SPSS kan dit makkelijk worden weergegeven in een tabel.
- Partiële correlatie: dit is de samenhang waarbij uit de afhankelijke en de onafhankelijke variabele het effect van alle andere onafhankelijke variabelen is verwijderd. Onthoud dat zowel de afhankelijke variabele en onafhankelijke variabele een samenhang kan vertonen maar dat er ook samenhang kan zijn tussen de onafhankelijke variabelen!
- Semi-partiële correlatie: dit is de samenhang (verband) waarbij het effect van andere onafhankelijke variabelen uit een onafhankelijke variabele is verwijderd. In dit geval is de samenhang met de afhankelijke variabele niet verwijderd (vandaar ook semi-partieel).
Statistiek is een zeer uitgebreid domein binnen veel studies. Er wordt soms enorm veel nadruk gelegd op het begrijpen van formules en/of begrijpen van modellen. De theorie is natuurlijk ook heel erg belangrijk om statistiek goed te kunnen begrijpen. Heb je vragen en hulp nodig? Laat dan een bericht achter in het reactieformulier onder dit artikel en help elkaar.