Ækvivalensstudier – fra papir og blyant-administrering til Q-interactive

I en overgangsperiode vil mange af de test, der tilbydes på Q-interactive (i sin helhed eller delvist), have tilsvarende papir og blyant-versioner (herefter p/b), og normer bygget på data indsamlet med en p/b-version. Et grundlæggende spørgsmål er hvorvidt den psykometriske information, som findes for en p/b test, også er gældende for dens digitale version – eller indebærer det digitale administreringsformat en så omfattende forandring, at normerne ikke længere er pålidelige? Det digitale format indebærer i princippet, at administrering af testopgaverne foregår via to synkroniserede iPads, hvor testlederen læser instruktioner, registrerer testpersonens svar og tager tid på sin iPad, og testpersonen eksponeres for stimuli og afgiver svar på sin iPad. Pearson i USA gennemfører kontinuerligt såkaldte ækvivalensstudier, der har til formål, at undersøge hvorvidt p/b-normer kan anvendes, selvom administreringsmåden ændres. Ækvivalensstudier gennemføres delprøve for delprøve, og undersøgelsesdesignet varierer mellem forskellige opgavetyper. Nedenfor præsenteres et generelt ræsonnement om ækvivalensstudier.

Her kan du læse mere om ækvivalensstudierne for WISC-V ››

Et mål for tilpasningen til digital administrering på Q-interactive har været, at opnå overensstemmelse mellem råscorer genereret med p/b-versionen af testen og dens digitale modpart; med andre ord at det ikke skal spille nogen rolle for en testpersons præstation, om testningen er blevet gennemført med p/b-versionen eller på Q-interactive. Hvis en sådan ækvivalens kan ses, så kan man sige, at den psykometriske information som gælder for p/b-versionen (som normer, reliabilitet og validitet), også er gældende for resultater opnået på Q-interactive. Dette er en af grundene til, at visse karakteristika fra p/b-versionerne af testene (som for eksempel klodserne i delprøven Blokmønstre og visse opgavehæfter i andre test) har beholdt deres originalformat. Målet er, at langt størstedelen af det fysiske testmateriale efterhånden skal erstattes af det interaktive digitale format. På nuværende tidspunkt vurderes det dog, at den tilpasning som visse delprøver kræver, betyder at ækvivalensen i råscorer bliver truet, hvilket kan påvirke muligheden for at anvende normer indsamlet med p/b-versioner.

Udgangspunktet for alle gennemførte ækvivalensstudier er antagelsen om, at digitalt assisteret administrering kan påvirke testresultatet af flere forskellige grunde, som for eksempel testpersonens og testlederens interaktion med iPads, hvordan testopgaver og stimuli præsenteres for testpersonen, hvor korrekt systemet formår at registrere og score testpersonens tryk på iPad’en, og generelle effekter af den digitale administrering. Som et eksempel på en sådan effekt kan nævnes tidlige forsøg med at anvende iPad’ens tastatur, hvormed testlederen skulle registrere testpersonens mundtlige svar. Dette ledte blandt andet til, at testpersoner begyndte at svare langsommere, for at testlederen kunne følge med, hvilket resulterede i, at dette format blev opgivet (dette var én blandt flere årsager).

Hvis en testopgave ikke indledningsvist blev vurderet til at være ækvivalent mellem de to formater (det vil sige, at der var grund til at antage, at råscoren blev påvirket på grund af den digitale administrering), blev den bagvedliggende årsag undersøgt. I princippet gælder, at hvis en effekt er resultatet af, at testlederen (for eksempel i og med at visse fejlkilder automatisk elimineres) bliver mere nøjagtig i sin administrering eller scoring, indebærer Q-interactive et metodisk fremskridt, og bristen på ækvivalens er ikke nødvendigvis et problem. Et rimeligt mål for ny teknik er at producere resultater, der er ækvivalente med de, som opnås af testledere, der anvender p/b-formatet korrekt. Det digitale format bør ikke forventes at kopiere administrerings- eller scoringsfejl. På den anden side hvis en digital effekt beror på reduceret nøjagtighed fra enten testlederens eller testpersonens side, bør prioriteringen være at justere Q-interactive, så denne fejlkilde elimineres. Kun når dette er umuligt, bør effekten håndteres ved normjustering. Under de gennemførte ækvivalensstudier er administrering og scoring blevet filmet for at muliggøre analyser af effekter af administreringsformatet.

Flere eksperimentelle modeller er blevet anvendt for at undersøge graden af ækvivalens mellem p/b og Q-interactive. I de rapporter som kan downloades fra www.helloq.com/research, redegøres der for de forskellige fremgangsmåder, der er tilpasset til forskellige delprøvers opgavetyper. Det niveau der sættes for ækvivalens for udfaldet af p/b vs. digital administrering måtte ikke overstige en effektstørrelse (Cohen's d) på 0.2.

De konklusioner man kan drage af hidtil gennemførte ækvivalensstudier er, at selvom små effekter af administreringsformatet kan observeres, er disse effekter ikke – så længe en åbenlys årsag ikke kan bemærkes (for eksempel ved at undersøge videooptagelser af testadministreringer) - reproducerbare eller systematiske. Gennemførte undersøgelser har desuden vist, at der ikke forekommer nogen statistisk signifikante forskelle hvad angår effekt af administreringsformat mellem grupper baseret på alder, køn, etnicitet, socioøkonomisk status eller intelligensniveau.

Sammenfattet kan man konstatere, at hidtil gennemførte undersøgelser af forskelige opgavetyper, hvor forskellige typer af modificeringer er blevet foretaget ved digitaliseringen, viser at den psykometriske information, som blev indsamlet med p/b-versioner af delprøver er gældende, også når administrering sker på Q-interactive. For mere detaljeret information henvises til www.helloq.com/research.