7  SPSS

Auteurs

Dirk Hoek, Natascha de Hoog & Peter Verboon
22 juli 2022

Hieronder vind je alle basisinformatie die je nodig hebt om met SPSS aan de slag te gaan en alle handelingen en analyses uit deze cursus uit te voeren. De handelingen worden beschreven via zowel het analysescript, ook wel de syntax genoemd, als via de menustructuur. Geadviseerd wordt als je graag via de menustructuur werkt om na het selecteren van een analyse niet op OK te klikken maar op PASTE. SPSS plakt dan de code voor de analyse die je geselecteerd hebt in een syntax-file. Zo kun je toch makkelijk met het menu werken en tegelijk leren hoe de syntax werkt en alle stappen die je zet vastleggen.

7.0.0.1 Een dataset openen

Een dataset is meestal opgeslagen in een bestand op de harde schijf. Er zijn verschillende formats voor zulke databestanden. SPSS gebruikt de .sav-extensie. Gebruik om een databestand te openen het volgende commando.

GET FILE = 'C:/OU/IO/Data/Statistiek_Angst.sav'.

Het is belangrijk dat de drive en de directories in het pad kloppen. Het juiste pad kun je gemakkelijk achterhalen door rechts te klikken op het gedownloade bestand en dan op eigenschappen.

Geef het databestand daarna een naam, zodat je dit databestand kunt aanspreken in het analysescript.

DATASET NAME dat.

Dit is belangrijk omdat het mogelijk is om meerdere datasets tegelijk te openen. Het is verstandig om gelijk aan te leren steeds te specificeren in welke dataset gewerkt moet worden.

Je kunt een databestand ook openen via het menu. Hiervoor klik je linksboven op File en dan vervolgens op Open en Data. Dit werkt hetzelfde als in andere softwareprogramma’s, zoals bijvoorbeeld Word (Je kunt niet rechttstreeks op je computer op het databestand klikken. Het werkt alleen als je het opent vanuit SPSS).

7.0.0.2 Variabelen en variabelenamen bekijken

Het is handig om de variabelenamen in een dataset eerst te bekijken om te verifiëren dat de dataset goed is ingeladen. Er zijn verschillende manieren om dit te doen: de snelste methoden worden hier besproken.

SPSS toont de data in een spreadsheetachtig scherm, de Data View. De variabelenamen zijn te inspecteren door de titels van de kolommen te bekijken. Het is ook mogelijk het tweede tabblad, de Variable View, te openen, waar een lijst van de variabelen zichtbaar is.

Het is overigens heel belangrijk om vanaf het begin de gewoonte aan te leren nooit iets te veranderen in deze Data View of Variable View. Alle wijzigingen dienen traceerbaar te zijn en dat kan alleen door ze via een analysescript (‘syntax’ in SPSS) uit te voeren. Alle handelingen, vanaf het inlezen van de ruwe data tot aan de laatste analyses, horen in een of meer analysescripts terug te vinden te zijn.

7.0.0.3 Variabelen hernoemen

Soms is het nodig om variabelen te hernoemen. Hier staan de commando’s waar dat mee kan. Er zijn verschillende conventies die gevolgd kunnen worden bij het benoemen van variabelen. Het is verstandig de volgende richtlijnen te volgen.

  • Gebruik uitsluitend alfanumerieke karakters en underscores (liggende streepjes, _).
  • Gebruik als eerste teken uitsluitend een letter.
  • Gebruik namen die zo systematisch mogelijk zijn.

Omdat je spaties in variabelenamen beter kunt vermijden, zijn er een aantal manieren om woorden te onderscheiden. Een hiervan is om spaties te vervangen door underscores. Een andere manier is om elk nieuwe woord met een hoofdletter te beginnen. Dit heet CamelCase. Het eerste woord kan met een kleine letter starten (lowerCamelCase) of ook met een hoofdletter (UpperCamelCase).

Het volgende commando hernoemt een variabele (het eerste commando geeft aan in welke dataset de variabele hernoemd moet worden).

DATASET ACTIVATE dat.
RENAME VARIABLES oudenaam = thisIsTheNewVariableName.

7.0.0.4 Categorische variabelen verkennen: frequentietabellen en staafdiagrammen

Om te bekijken hoe een categorische variabele verdeeld is, kun je frequentieverdelingen en staafdiagrammen opvragen. Dit kan met het volgende commando.

DATASET ACTIVATE dat.
FREQ VARIABLES=thisIsTheVariableName thisIsAnotherVariableName 
  /BARCHART FREQ.

Het laatste argument, /BARCHART FREQ, geeft aan dat ook de staafdiagram weergegeven moet worden; dit kun je eventueel weglaten. Vergeet niet dat alle commando’s in SPSS afgesloten moeten worden met een punt (.)! In plaats van FREQ kun je overigens ook FREQUENCIES gebruiken (In SPSS kun je commando’s vaak afkorten).

Het opvragen van een frequentieverdelingen kun je ook via het menu doen door te gaan naar Analyze –> Descriptive statistics –> Frequencies. Vervolgens selecteer je de variabelen die je wilt weergeven en geef je aan welke grafiek je wilt zien.

7.0.0.5 Continue variabelen verkennen: beschrijvingsmaten, histogrammen, Q-Q-plots en boxplots

Omdat met continue variabelen berekeningen uitgevoerd kunnen worden, zijn er meer mogelijkheden om de datareeksen van continue variabelen te verkennen. De betreffende beschrijvingsmaten, histogrammen, Q-Q-plots en boxplots vraag je met de volgende commando’s op.

Om beschrijvingsmaten, een histogram en een boxplot op te vragen, kun je het volgende commando gebruiken.

DATASET ACTIVATE dat.
EXAMINE VARIABLES=thisIsTheVariableName 
  /PLOT BOXPLOT HISTOGRAM.

De resultaten van dit EXAMINE commando kun je ook apart opvragen voor de verschillende niveaus van een categorische variabele, oftewel per subgroep. Dit kan door een BY-variabele te specificeren.

DATASET ACTIVATE dat.
EXAMINE VARIABLES=thisIsTheVariableName BY thisIsACategoricalVariable
  /PLOT=BOXPLOT.
  

Via het menu kun je beschrijvingsmaten en bijbehorende figuren opvragen door te gaan naar Analyze –> Descriptive statistics –> Explore. Vervolgens selecteer je de variabelen die je wilt weergeven en geef je aan welke beschrijvingsmaten of figuren je wilt zien.

Als je alleen een histogram wilt zien, kun je dit ook opvragen via het FREQ commando en daarbij aangeven dat de frequentietabel niet getoond hoeft te worden.

DATASET ACTIVATE dat.
FREQUENCIES VARIABLES=thisIsTheVariableName 
  /FORMAT=NOTABLE 
  /HISTOGRAM NORMAL.
  

Via het menu doe je dit door te gaan naar Analyze –> Descriptive statistics –> Frequencies. Vervolgens selecteer je de variabelen die je wilt weergeven en geef je aan welke grafieken je wilt zien.

Voor de Q-Q-plot kun je het volgende commando gebruiken.

DATASET ACTIVATE dat.
PPLOT 
  /VARIABLES=thisIsTheVariableName 
  /TYPE=Q-Q.

Via het menu vraag je een Q-Q-plot op door te gaan naar Analyze –> Descriptive statistics –> Q-Q plots. Vervolgens selecteer je de variabelen die je wilt weergeven. Er zijn hier veel opties om te kiezen, maar die kun je negeren. Standaard staat het juist ingesteld.

7.0.0.6 Het verband tussen twee continue variabelen: de correlatie

Met een scatterplot kun je het verband tussen twee continue variabelen visualiseren. Lineaire verbanden kunnen vervolgens gekwantificeerd worden met correlatiecoëfficiënten. Scatterplots en correlatiecoëfficiënten kun je als volgt opvragen.

Dit commando geeft een scatterplot.

DATASET ACTIVATE dat.
GRAPH /SCATTERPLOT(BIVAR)=thisIsTheVariableName WITH thisIsAnotherVariableName.

Via het menu kun je een scatterplot opvragen door te gaan naar Graphs –> Legacy Dialogs –> Scatter/Dot. Standaard staat dit ingesteld op Simple scatter en dat is prima om te gebruiken. Vervolgens klik je op Define en selecteer je de variabelen die je wilt weergeven. Zet deze bij X en Y.

Een correlatie en het bijbehorende betrouwbaarheidsinterval vraag je op met het volgende commando.

DATASET ACTIVATE dat.
BOOTSTRAP /VARIABLES INPUT = thisIsTheVariableName thisIsAnotherVariableName.
CORRELATIONS /VARIABLES = thisIsTheVariableName thisIsAnotherVariableName.

Het BOOTSTRAP commando specificeert dat er ook betrouwbaarheidsintervallen voor de correlaties berekend moeten worden.

Via het menu kun je de correlatie met betrouwbaarheidsinterval opvragen door te gaan naar Analyze –> Correlate –> Bivariate. Vervolgens selecteer je de variabelen die je wilt weergeven. Klik op Bootstrapping en selecteer Perform bootstrapping zodat er betrouwbaarheidsintervallen gegeven worden.

7.0.0.7 Het verband tussen twee continue variabelen: regressieanalyse

Als twee continue variabelen samenhangen, kun je regressieanalyse gebruiken om een model te bouwen waarmee de waarde van de ene variabele voorspeld kan worden uit de andere variabele.

Dit commando voert een regressieanalyse uit. De variabele achter /DEPENDENT is de afhankelijke variabele. Achter /METHOD=ENTER kun je een of meerdere voorspellers plaatsen.

DATASET ACTIVATE dat.
REGRESSION
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /DEPENDENT thisIsTheVariableName
  /METHOD=ENTER thisIsAnotherVariableName.
  

Via het menu voer je een regressieanalyse uit door te gaan naar Analyze –> Regression –> Linear. Vervolgens selecteer je de variabelen die je wilt analyseren. Vink dan onder de knop Statistics Confidence intervals en Descriptives aan, zodat je deze te zien krijgt in de uitdraai.

Bij een regressieanalyse is het handig het verband te visualiseren met een scatterplot waar de regressielijn doorheen loopt. Helaas kent SPSS geen commando of menuoptie om een dergelijke regressielijn toe te voegen. Maar het kan wel. Maak hiervoor eerst een scatterplot.

DATASET ACTIVATE dat.
GRAPH /SCATTERPLOT(BIVAR)=thisIsTheriableName WITH thisIsAnotherVariableName.

Dubbelklik op deze scatterplot in de SPSS output. De zogenaamde Chart editor gaat open en je kunt door ergens op te klikken allerlei wijzigingen aanbrengen in de figuur. Boven de figuur zit onder andere een optie met de naam Fit Line at Total. Deze moet je aanklikken om de gewenste lijn te krijgen.

Zie onder het kopje correlatie hoe je een scatterplot opvraagt via het menu.

7.0.0.8 Het verband tussen een dichotome en een continue variabele: de t-toets

Er zijn twee \(t\)-toetsen. Als de twee datareeksen, die ontstaan wanneer de datareeks van de continue variabele wordt opgesplitst per niveau van de dichotome variabele, volledig onafhankelijk zijn, gebruik je de onafhankelijke \(t\)-toets. Als de twee datareeksen wel samenhangen, gebruik je de gepaarde of de afhankelijke \(t\)-toets. Dit laatste is bijvoorbeeld het geval als de continue variabele twee keer gemeten wordt bij dezelfde onderzoekseenheden, of als de continue variabele gemeten wordt bij zogenaamde dyaden, groepen van steeds twee gerelateerde onderzoekseenheden, zoals twee ouders of verzorgers van hetzelfde kind.

De onafhankelijke \(t\)-toets kun je opvragen met het volgende commando.

DATASET ACTIVATE dat.
T-TEST /VARIABLES= thisIsTheVariableName
    /GROUPS=thisIsADichotomousVariable(1,2).
    

Via het menu vraag je de onafhankelijke t-toets op door te gaan naar Analyze –> Compare means –> Independent samples t-test. Vervolgens selecteer je de variabelen die je wilt analyseren, Test variable is de afhankelijke variabele en Grouping variable de onafhankelijke. Bij die laatste moet je nog de waarden opgeven van de twee categorieën van de variabele.

Om een gepaarde \(t\)-toets uit te voeren, kun je het volgende commando gebruiken.

T-TEST PAIRS = thisIsTheVariableName WITH
               thisIsAnotherVariableName (PAIRED).
               

Via het menu vraag je de gepaarde \(t\)-toets op door te gaan naar Analyze –> Compare means –> Paired samples t-test. Vervolgens selecteer je de variabelen die je wilt analyseren.

SPSS versie 27 (of nieuwer) geeft bij de \(t\)-toetsen ook de effectgrootte van Cohen’s \(d\) met de bijbehorende betrouwbaarheidsintervallen. Wanneer je een oudere versie van SPSS gebruikt, moet je de effectgroottes met de hand uitrekenen (zie thema 6).

7.0.0.9 Het verband tussen een categorische en een continue variabele: variantieanalyse

Als de categorische variabele meer dan twee meetwaarden heeft, en zich dus manifesteert als meer dan twee groepen, kun je variantieanalyse gebruiken.

Om een eenweg-variantieanalyse uit te voeren, gebruik je het volgende commando.

DATASET ACTIVATE dat.
ONEWAY
  /VARIABLES= thisIsTheVariableName BY thisIsACategoricalVariable
    /STATISTICS=DESCRIPTIVES HOMOGENEITY
    /PLOT MEANS
    /POSTHOC = BONFERRONI.

Het argument /STATISTICS geeft de gemiddelden en de toets op gelijke (homogene) varianties. Hier kun je WELCH toevoegen om de correcties in geval van ongelijke varianties ook op te vragen. Het is sowieso een goed idee om altijd de Welch-correctie te gebruiken. Het argument /PLOT MEANS geeft de grafiek. Tot slot vraag je de post-hoc-testen op met het argument /POSTHOC = BONFERRONI. In plaats van BONFERRONI kun je ook een andere post-hoc-test opvragen, bijvoorbeeld TUKEY, SIDAK of GH voor de Games-Howell correctie.

In SPSS versie 27 (of nieuwer) kun je ook de effectgroottes opvragen. Dit kun je doen door het /ES-commando toe te voegen.

DATASET ACTIVATE dat.
ONEWAY
  /VARIABLES= thisIsTheVariableName BY thisIsACategoricalVariable
  /ES=Overall
    /STATISTICS=DESCRIPTIVES HOMOGENEITY
    /PLOT MEANS
    /POSTHOC = BONFERRONI.

Via het menu kun je een eenweg-variantieanalyse uitvoeren door te gaan naar Analysz → Compare means → One-way ANOVA. Vervolgens selecteer je de variabelen die je wilt analyseren. Bij SPSS versie 27 (of nieuwer) kun je ook nog aanvinken dat je de effectgroottes wilt zien. Bij de tab Posthoc selecteer je de post-hoc-testen die je wilt uitvoeren. Selecteer bij SPSS versie 27 onder Null Hypothesis test de tweede optie, anders kun je foutmeldingen krijgen. Onder Options vink je Descriptives, Homogenity of variance test en de Welch test aan.

Oudere versies van SPSS geven geen effectgroottes bij de oneway-ANOVA. Wel kun je de (\(\eta^2\)) opvragen, maar daarvoor moet je niet het commando voor een eenweg-variantieanalyse gebruiken, maar het algemene commando voor variantieanalyse. Dit gaat als volgt.

DATASET ACTIVATE dat.
UNIANOVA thisIsTheVariableName BY thisIsACategoricalVariable
    /METHOD=SSTYPE(3)
    /INTERCEPT=INCLUDE
    /PRINT ETASQ
    /DESIGN = thisIsACategoricalVariable.