10 Regressie Analyses
10.1 Data
10.2 Statistiekangst
Open het databestand “Statistiek Angst”.
Statistiekkennis en statistiekangst zijn beide gemeten voor en na de interventie. Formuleer een verwachting over de samenhang tussen statistiekkennis en statistiekangst waarbij er sprake is van een richting van het verband. Welk conceptueel model hoort hierbij?
Het lijkt voor de hand te liggen om te veronderstellen dat statistiekangst het grootst is bij mensen met weinig kennis van statistiek. Statistiekkennis zou wellicht een deel van de statistiekangst kunnen verklaren. Een hypothese zou kunnen zijn: statistiekkennis heeft een negatief effect op statistiekangst.
Bekijk de variabelen Statknow1 en Fear1. Statknow1 heb je in thema 4 ook al bekeken. Wat is het meetniveau van deze variabelen? Wat is het gemiddelde en de mediaan? Zijn er uitschieters (‘outliers’) op deze variabelen? Is er sprake van een scheve of spitse verdeling? Zijn de verdelingen eentoppig?
Het meetniveau van beide variabelen kan het beste als intervalniveau worden beschouwd. Het zijn dus continue variabelen.
Statistiekkennis voor de interventie (Statknow1) heeft een gemiddelde en mediaan van rond de 30. Het minimum is 9 en het maximum is 49 met een range van 40. De SD is 6.9. Er zijn enkele uitschieters, zowel relatief extreem lage als extreem hoge scores, maar verder lijkt deze variabele redelijk normaal verdeeld. Dit is het duidelijkst te zien in de boxplot.
Statistiekangst voor de interventie (Fear1) heeft een vrij hoog gemiddelde en mediaan. Statistiekangst voor de start van de cursus is dus vrij hoog. Er is veel spreiding in scores. Er zijn dus grote verschillen met betrekking tot statistiekangst. De SD geeft dit ook aan. Er zijn een paar uitschieters, zowel maxima als minima, maar verder lijkt de verdeling redelijk normaal. Zie de boxplot hieronder.
Ga via het menu naar Analyses → Exploration → Descriptives. Selecteer de variabelen die je wilt weergeven. Bij Statistics kies je de relevante beschrijvings- en verdelingsmaten. Bij Plots zet je een vinkje bij Histogram, Q-Q en Box plot.
Wanneer je de volgende commando’s uitvoert, krijg je de belangrijkste kenmerken van de variabelen.
DATASET ACTIVATE dat.
EXAMINE VARIABLES=Statknow1 Fear1
/PLOT BOXPLOT /STATISTICS DESCRIPTIVES EXTREME.
Deze syntax kun je ook genereren via het menu Analyze → Descriptive Statistics → Explore.
Wanneer je het volgende commando uitvoert, krijg je de belangrijkste kenmerken van de variabelen.
rosetta::examine(dat$Statknow1, dat$Fear1);
Bekijk de boxplots voor de verdeling van statistiekangst voor de interventie apart voor mannen en vrouwen. Waar zijn de outliers vooral zichtbaar?
Het blokje in de boxplot van de mannen ligt hoger dan dat van de vrouwen. De meeste mannen in deze steekproef (M = 45,4) scoren dus hoger op statistiekangst dan de meeste vrouwen in deze steekproef (M = 39,2). Natuurlijk kunnen we hier niets uit afleiden over de populatie: dit kan namelijk toeval zijn. De vier uitschieters met hoge statistiekangst zijn allemaal mannen. Deze uitschieters dragen bij aan het hoge gemiddelde.
Ga via het menu naar Analyses → Exploration → Descriptives. Selecteer de variabelen die je wilt weergeven en zet Geslacht in het vakje met de titel Split by. Bij Statistics kies je de relevante beschrijvings- en verdelingsmaten. Bij Plots zet je een vinkje bij Box plot.
Als je het volgende commando uitvoert, krijg je de belangrijkste kenmerken van de variabelen en de boxplot gesplitst naar geslacht.
DATASET ACTIVATE dat.
EXAMINE VARIABLES=Fear1 BY Gender
/PLOT=BOXPLOT.
Via het menu ga je naar: Analyze → Descriptive Statistics → Explore. Selecteer de variabelen die je wilt weergeven en zet Geslacht in het vakje met de titel Factor list.
Met het volgende commando vraag je een boxplot op, gesplitst naar geslacht.
ggplot2::ggplot() +
ggplot2::geom_boxplot(data = dat,
mapping = ggplot2::aes(x = Gender, y = Fear1), outliers = TRUE)
Met het volgende commando krijg je de beschrijvingsmaten voor Fear1, gesplitst naar geslacht.
rosetta::examineBy(dat$Fear1, by=dat$Gender);
Maak een scatterplot waarbij statistiekkennis voor de interventie op de x-as staat en statistiekangst voor de interventie op de y-as. Denk je op basis van deze figuur dat er samenhang is? Is die eventueel positief of negatief?
Er lijkt een negatieve samenhang, maar het beeld is niet heel duidelijk,
Om in jamovi een scatterplot te kunnen maken, moet je eerst een extra module installeren. Zie de pagina Zelf analyseren in de praktijk voor meer informatie. Ga in het menu naar Analyses → Exploration → Scatterplot.
Wanneer je het volgende commando uitvoert, krijg je de scatterplot.
DATASET ACTIVATE dat.
GRAPH/SCATTERPLOT(BIVAR)=Statknow1 WITH Fear1.
Via het menu ga je naar: Graphs → Legacy Dialogs → Scatter/Dot. Kies vervolgens Simple.
Met het volgende commando krijg je de scatterplot.
rosetta::ggScatterPlot(dat$Statknow1, dat$Fear1);
De bolletjes kunnen doorzichtig gemaakt worden om overlap zichtbaar te maken.
rosetta::ggScatterPlot(dat\(Statknow1, dat\)Fear1, alpha=.25);
Voer een regressieanalyse uit waarbij statistiekkennis de onafhankelijke (predictor) variabele is en statistiekangst de afhankelijke variabele. Interpreteer de uitkomsten. Wat is je conclusie?
De regressiecoëfficiënt (\(b\)) van statistiekkennis is negatief en heeft een bijbehorende effectgrootte die klein maar niet verwaarloosbaar is: 95%-BI voor \(b\) is \([-0.52; 0.03]\), puntschatting voor \(b = -.24\); \(SE = .14\); \(\beta = -.14\); \(p = .081\). Het resultaat is niet statistisch significant volgens het \(5\%\) criterium omdat de gevonden \(p\) > .05. De kans op het gevonden resultaat of extremer (een \(b < -0.24\) of een \(b > 0.24\)) is ruim \(8\%\) onder aanname van de nulhypothese, dus aangenomen dat er geen effect is in de populatie.
De interpretatie is als volgt: wanneer je een punt minder statistiekkennis bezit, heb je \(0,24\) punten meer statistiekangst. Of anders gezegd: wanneer je \(1\) standaarddeviatie minder kennis bezit dan heb je \(0.14\) standaarddeviaties meer statistiekangst.
Het intercept is \(50.0\) (afgerond) en die waarde representeert de verwachte waarde van angst bij mensen die \(0\) scoren op statistiekkennis. Wanneer je een regressielijn in de scatterplot tekent (of laat tekenen), zie je dat die lijn bij de waarde \(x=0\) de y-as snijdt bij \(50.0\).
De \(0\) kan echter niet voorkomen in deze data en daarom zegt dit intercept niet zoveel. Als je het intercept inhoudelijk zinvol wilt interpreteren, moet de \(0\) een reële waarde voorstellen voor de predictor. Dit kun je doen door de predictor eerst te centreren, dat wil zeggen het gemiddelde er vanaf trekken, zodat de \(0\) nu het nieuwe gemiddelde is. Het intercept representeert in dat geval de angstscore van mensen die gemiddeld scoren op statistiekkennis.
De \(F\)-toets (\(F_{1, 166} = 3.08, p = .081\)) voor dit model geeft hetzelfde resultaat qua \(p\)-waarde omdat er maar een enkele predictor in het model zit. De \(R^2\) is \(.018\), wat aangeeft dat nog geen \(2\%\) van de statistiekangst wordt verklaard door statistiekkennis.
Conclusie: er lijkt een zeer klein effect te zijn van statistiekkennis op statistiekangst, in de zin dat meer kennis leidt tot (eigenlijk: samengaat met) minder angst. Het effect is echter gering van grootte en is in deze steekproef niet statistisch significant.
Via het menu ga je naar Analyses → Regression → Linear Regression. Selecteer de variabelen die je in de analyses wilt opnemen. Onder Model fit vink je F test aan en onder Model coefficients Standardised estimate en Confidence intervals.
Wanneer je het volgende commando uitvoert, krijg je de belangrijkste resultaten van de regressieanalyse.
DATASET ACTIVATE dat.
REGRESSION
/STATISTICS COEFF OUTS CI(95) R ANOVA
/DEPENDENT Fear1
/METHOD=ENTER Statknow1.
Dit kan ook via het menu: Analyze → Regression → Linear. Selecteer de variabelen die je in de analyses wilt opnemen. Onder Statistics vink je Descriptives en Confidence intervals aan.
Wanneer je het volgende commando uitvoert, krijg je de belangrijkste resultaten van de regressieanalyse.
regr(dat$Fear1 ~ dat$Statknow1);
Maak nogmaals de scatterplot voor het verband tussen statistiekkennis en statistiekangst, maar nu met de regressielijn daarin getekend.
De lijn loopt van linksboven naar rechtsonder wat duidt op een negatief verband. We zien dat de lijn de \(y\)-as snijdt bij het punt \(50\) (dat is de waarde van het intercept). Het is tevens duidelijk dat de lijn de puntenwolk niet echt goed beschrijft: de \(R^2\) is dan ook klein.
Vraag een scatterplot op via het menu: Analyses → Exploration → Scatterplot. Selecteer de variabelen die je wilt weergeven. Zet onder Regression line “Linear”.
SPSS kent geen commando, noch een menu om zo’n regressielijn toe te voegen. Maar het kan anders. Ga in de SPSS-output naar de scatterplot die je eerder al gemaakt hebt en dubbelklik erop. De zogenaamde Chart editor gaat open en je kunt allerlei wijzigingen aanbrengen in de figuur door ergens op te klikken. Boven de figuur zit onder andere een kop met de naam Fit Line at Total. Die moet je aanklikken om de gewenste lijn te krijgen.
De scatterplot kan tegelijk met de regressieanalyse worden opgevraagd.
rosetta::regr(dat$Fear1 ~ dat$Statknow1, plot=TRUE);
10.2.1 Arbeidstevredenheid
Open het databestand “Arbeidstevredenheid”.
Toename in arbeidstevredenheid is gemeten als het verschil van arbeidstevredenheid voor en na een assertiviteitstraining. Hoe hoger de score, hoe meer de tevredenheid is toegenomen. Formuleer een verwachting (hypothese) of een vraagstelling over het verband tussen leeftijd en de toename in arbeidstevredenheid.
Het is aannemelijk dat ouderen minder veranderen door de training dan jongeren. Omdat we verwachten dat de tevredenheid bij jongeren toeneemt door de training en die van ouderen gelijk blijft of minder toeneemt, zal er een negatief verband zijn tussen leeftijd en arbeidstevredenheid. De hypothese kan dan zijn: leeftijd heeft een negatief effect op de toename in arbeidstevredenheid.
Voer een regressieanalyse uit om deze vraagstelling te beantwoorden en te toetsen. Wat zijn je conclusies?
Je moet dezelfde stappen doorlopen als in de vorige opdracht. De boxplots laten zien dat toename in arbeidstevredenheid drie uitschieters heeft met een vrij hoge score. Leeftijd heeft geen uitschieters. Beide variabelen zijn verder redelijk normaal verdeeld.
De regressiecoëfficiënt (\(b\)) van leeftijd is negatief en heeft een bijbehorende effectgrootte die middelmatig is. Het resultaat is statistisch significant. De kans op het gevonden resultaat of extremeris \(0.41\%\) onder aanname van de nulhypothese, dus aangenomen dat er geen effect is in de populatie.
Het lijkt inderdaad dat naarmate iemand ouder is, de toename in arbeidstevredenheid minder is. Als sprake is van een causaal verband, zal leeftijd verklarend zijn voor de toename in arbeidstevredenheid. De omgekeerde richting is logisch gezien onmogelijk.