9 Correlaties
Elke keer als een verband geanalyseerd wordt, worden de volgende stappen gevolgd.
- Teken het conceptuele of structurele model uit voor het betreffende verband.
- Formuleer de onderzoeksvraag of hypothese die dat verband uitdrukt.
- Bepaal de meetniveaus van de variabelen voor het verband.
- Voer univariate analyses uit voor elk van de twee variabelen.
- Bestudeer de histogrammen of staafdiagrammen.
- Bestudeer de beschrijvingsmaten en/of de frequentieverdelingen.
- Visualiseer het verband tussen de twee variabelen met een plot.
- Bereken de puntschatting en het betrouwbaarheidsinterval voor de effectmaat die dat verband representeert. In dit thema is dat dus Pearson’s r.
- Bereken de p-waarde voor de puntschatting van het verband.
- Bepaal wat gezegd kan worden over het verband in de populatie op basis van de uitkomsten in stappen 1-7.
Deze stappen worden bij elke analyse herhaald. Vaak worden de eerste drie stappen tegelijk gedaan. Ook combineert statistische software vaak meerdere stappen in één keer (stappen 4a en 4b worden bijvoorbeeld vaak gecombineerd in één analyse, net als stappen 5, 6 en 7). In feite zijn thema’s 5, 6 en 7 dus variaties op thema 4. In de meeste opdrachten doorlopen we al deze acht stappen. Het kan zijn dat we in sommige opdrachten een aantal stappen overslaan, vooral als het een voorbeeld betreft.
9.1 Data
9.2 Statistiekangst
Open het databestand “Statistiek Angst”.
Klik links boven op de drie streepjes en vervolgens op Open. Zoek het betreffende databestand op je computer.
Maak eerst een nieuw syntax-bestand. Dit kan door bij het File menu, linksboven, de optie New te kiezen, en daarna Syntax te kiezen. In dit bestand kun je de commando’s typen of copy-pasten.
Wanneer je de volgende commando’s uitvoert, worden de data ingeladen en krijgt de dataset de naam ‘dat’.
GET FILE = 'C:/OU/IO/Data/Statistiek Angst.sav'.
DATASET NAME dat.
Het is belangrijk dat het pad, oftewel de drive, directory en subdirectories, klopt. Zie Zelf analyseren in de praktijk voor extra uitleg.
In SPSS kan de data ook handmatig geopend worden via het menu File, gevolgd door New en Data.
Wanneer je het volgende commando uitvoert, worden de data ingeladen en krijgt de dataset de naam ‘dat’.
dat <- rosetta::getData('C:/OU/IDA/Data/Statistiek Angst.sav');
Hiervoor geldt ook dat het pad moet kloppen. Zie Zelf analyseren in de praktijk voor extra uitleg.
In R kan de data ook handmatig worden geopend met
rosetta::getDat();
Statistiekkennis is gemeten voor en na een interventie. Formuleer een verwachting over de samenhang tussen de statistiekkennis voor en na de interventie. Welk conceptueel model hoort hierbij?
Door de interventie zal de kennis naar verwachting toenemen. Verder lijkt het logisch te veronderstellen dat statistiekkennis voor en na de interventie positief met elkaar samenhangen.
Het conceptueel model ziet er zo uit.
Bekijk de variabelen Statknow1 en Statknow2. Wat is het meetniveau van de variabelen? Wat is het gemiddelde en de mediaan? Zijn er uitschieters (‘outliers’) in deze variabelen? Is er sprake van een scheve of spitse verdeling? Zijn de verdelingen eentoppig?
Het meetniveau van beide variabelen kan het beste als intervalniveau worden beschouwd. Het zijn dus continue variabelen.
Statistiekkennis voor de interventie heeft een gemiddelde en mediaan van rond de 30. Het minimum is 9 en het maximum is 49 met een range van 40. De SD is 6.9. Er zijn enkele uitschieters, zowel relatief extreem lage als extreem hoge scores, maar verder lijkt deze variabele redelijk normaal verdeeld. Dit is het duidelijkst te zien in de boxplot.
Statistiekkennis na de interventie heeft een veel hoger gemiddelde en mediaan (respectievelijk, 65 en 68). De meeste mensen scoren dus vrij hoog. Statistiekkennis is dus door de cursus toegenomen. Het minimum is 38 en het maximum is 78, eveneens een range van 40. De SD is hier veel groter, namelijk 9.76. Er zijn geen uitschieters. De verdeling lijkt scheef naar links.
Ga via het menu naar Analyses → Exploration → Descriptives. Selecteer de variabelen die je wilt weergeven. Bij Statistics kies je de relevante beschrijvings- en verdelingsmaten. Bij Plots zet je een vinkje bij Histogram, Q-Q en Box plot.
Wanneer je de volgende commando’s uitvoert, krijg je de belangrijkste kenmerken van de variabelen.
DATASET ACTIVATE dat.
EXAMINE VARIABLES=Statknow1 Statknow2
/PLOT BOXPLOT /STATISTICS DESCRIPTIVES EXTREME.
Deze syntax kun je ook genereren via het menu Analyze → Descriptive Statistics → Explore.
Wanneer je het volgende commando uitvoert, krijg je de belangrijkste kenmerken van de variabelen.
rosetta::examine(dat$Statknow1, dat$Statknow2);
Maak een scatterplot waarbij statistiekkennis voor de interventie op de x-as staat en statistiekkennis erna op de y-as. Denk je op basis van deze figuur dat er samenhang is? Is deze dan positief of negatief?
Hoewel het natuurlijk een subjectief besluit is, lijkt deze figuur geen sterke samenhang te impliceren. Deze figuur impliceert dat deze twee variabelen in de populatie niet samenhangen.
Om in jamovi een scatterplot te kunnen maken, moet je eerst een extra module installeren. Zie de pagina Zelf analyseren in de praktijk voor meer informatie. Ga in het menu naar Analyses → Exploration → Scatterplot.
Met de volgende commando’s krijg je de gewenste figuur.
DATASET ACTIVATE dat.
GRAPH /SCATTERPLOT(BIVAR)=Statknow1 WITH Statknow2.
Via het menu kies je Graphs → Legacy Dialogs → Scatter/Dot. Kies vervolgens Simple.
Met het volgende commando krijg je de gewenste figuur.
rosetta::ggScatterPlot(dat$Statknow1, dat$Statknow2);
Voer een correlatieanalyse uit. Wat is de samenhang? Is er een zwakke of sterke samenhang?
Het 95%-betrouwbaarheidsinterval rondom de schatting van de correlatiecoëfficiënt is ongeveer [-.08; .23]1, en de puntschatting is .076. De correlatie in de populatie is dus in het beste geval rond de .2, maar zou evengoed afwezig (0) of negatief (-.05) kunnen zijn. In het beste geval is dit verband dus te kwalificeren als triviaal.
1 Let op: het betrouwbaarheidsinterval kan wat verschillen, afhankelijk van hoe het wordt berekend. Bootstrapping gebruikt willekeurig gekozen nummers en kan dus elke keer tot iets andere resultaten leiden. jamovi en R gebruiken de zogenaamde ‘Fisher z-transformatie’ en dit leidt elke keer tot dezelfde resultaten.
Ga via het menu naar Analyses → Regression → Correlation matrix. Selecteer de variabelen die je wilt gebruiken. Vervolgens zet je een vinkje bij confidence interval.
De volgende commando’s geeft de correlatie en het betrouwbaarheidsinterval.
DATASET ACTIVATE dat.
BOOTSTRAP/VARIABLES INPUT = Statknow1 Statknow2.
CORRELATIONS /VARIABLES = Statknow1 Statknow2.
Via het menu is dit te bereiken via Analyze → Correlate → Bivariate. Zet een vinkje bij Perform Bootstrapping.
Het volgende commando geeft de correlatie en het betrouwbaarheidsinterval.
rosetta::rMatrix(dat, x=c('Statknow1', 'Statknow2'));
Zou deze correlatie volgens NHST als ‘significant’ worden bestempeld?
De p-waarde kun je halen uit de analyse van de vorige opdracht. De p-waarde is .326. Dit betekent dat de kans om in een steekproef deze correlatie (.08) of een extremere correlatie te vinden, gelijk is aan 32.6%, onder de aanname dat die steekproef genomen wordt in een populatie waar de correlatie eigenlijk 0 is. Omdat deze kans groter is dan 5% (oftewel, omdat de p-waarde hoger is dan .05), wordt deze correlatie als ‘niet-significant’ gezien.
Wat is de conclusie van deze analyse?
Het is aannemelijk dat statistiekkennis voor en na de interventie niet met elkaar samenhangen. In de steekproef bestaat een zeer lage correlatie. Deze lijkt erop te wijzen dat er ‘in het echt’ (in de populatie) geen correlatie is. Dit kan worden afgeleid uit zowel het betrouwbaarheidsinterval als de hoge p-waarde van de puntschatting.
9.3 Arbeidstevredenheid en betrokkenheid bij het werk
Open het databestand “Assertiviteit op de werkvloer”.
Arbeidstevredenheid en betrokkenheid zijn allebei gemeten voor een assertiviteitstraining. Formuleer een verwachting over de samenhang tussen deze twee variabelen.
Het lijkt waarschijnlijk dat wie betrokken is met zijn werk ook tevreden is. We verwachten dus een positieve samenhang.
Je kan ook redeneren dat betrokken mensen zich sneller zullen ergeren aan alles wat er misgaat in een bedrijf en daardoor juist ontevredener zullen zijn dan niet betrokken mensen. In dat geval verwacht je een negatieve samenhang.
Het is natuurlijk ook mogelijk dat deze begrippen niets met elkaar te maken hebben. Dan zal de samenhang bij benadering nul zijn. Dit is geen gebruikelijke verwachting om te formuleren, maar het kan wel als een onderzoeker hier goede gronden voor heeft.
Bij het formuleren van verwachtingen of hypothesen is het belangrijkste dat deze zijn gebaseerd op evidentie. Dit kan theoretische evidentie zijn (voorspellingen van een theorie), empirische evidentie (uitkomsten uit eerder onderzoek) of een onderbouwde redenering van de onderzoeker.
Voer een correlatieanalyse uit en geef je conclusies met betrekking tot de samenhang tussen arbeidstevredenheid en betrokkenheid.
Allereerst bekijk je de variabelen. Er is één persoon met een extreme hoge arbeidstevredenheid (de persoon op regel 110 heeft een score van 49). Bij betrokkenheid zijn er een paar extremen met lage of hoge scores. De variabelen lijken redelijk normaal verdeeld.
Er blijkt een significante negatieve samenhang te zijn tussen arbeidstevredenheid en betrokkenheid (r = -.5, p < .001, 95%BI = [-.63; -.35]). Het verband is dusdanig sterk dat verwacht mag worden dat dit verband ook in de populatie aanwezig is. Ook de scatterplot laat dit verband duidelijk zien.
Overigens kan het soort bedrijf een belangrijke verklarende factor zijn voor dit verband. Dit zou nader onderzocht moeten worden.
Arbeidstevredenheid wordt ook na de training gemeten. Voer een correlatieanalyse uit en geef je conclusies met betrekking tot de samenhang tussen de arbeidstevredenheid voor en na de training.
Er blijkt een zeer sterke positieve samenhang te zijn tussen arbeidstevredenheid voor en na de training (95%-BI voor r = [.86; .93], puntschatting voor r = .9, p < .001). Het verband is dusdanig sterk dat verwacht mag worden dat dit verband ook in de populatie aanwezig is. De scatterplot laat dit verband heel duidelijk zien.
Wie voor de training tevreden was, zal dat waarschijnlijk ook na de training zijn, en wie dat niet was, zal ook na de training minder tevreden zijn.