SlideShare uma empresa Scribd logo
1 de 196
Baixar para ler offline
VERANTWOORD METEN IN HET GEZONDHEIDSZORGONDERWIJS

HANDBOEK VOOR DE BEOORDELING VAN LEERRESULTATEN

   Keuze van de juiste toetsvorm
   Praktische voorbeelden
   Nieuwe ontwikkelingen
   Kwaliteitsbewaking




J.G.M. Schotten
W.C.L. Robroek
Dit handboek vormt de afsluiting van een samenwerkingsproject van de VOVB (Vereniging van
Opleidingsinstituten voor Verplegende en verzorgende Beroepen) en het Cito Instituut voor Toetsontwikkeling
voor de ontwikkeling van toetsen voor opleidingen voor de verpleging en (zieken)verzorging. Dit project werd
mede gefinancierd door ministerie van Volksgezondheid, Welzijn en Sport.
VERANTWOORD METEN IN HET GEZONDHEIDSZORGONDERWIJS

HANDBOEK VOOR DE BEOORDELING VAN LEERRESULTATEN




J.G.M. Schotten
W.C.L. Robroek



Met medewerking van:
G.J.J.M. Straetmans
A.M.A. Stolk
D. Tarenskeen
J. van Weeren
C.G.M. Liebrand
© 1997 Bohn Stafleu Van Loghum, Houten

Alle rechten voorbehouden. Niets van deze uitgave mag worden verveelvoudigd, opgeslagen in een
geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij
elektronisch, mechanisch, door fotokopieën, opnamen, of enige andere manier, zonder voorafgaande
schriftelijke toestemming van de uitgever.
Voorzover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel 16B Auteurswet
1912j° het Besluit van 20 juni 1974, St.b. 351, zoals gewijzigd bij Besluit van 23 augustus 1985, St.b.
471 en artikel 17 Auteurswet 1912, dient men de daarvoor wettelijk verschuldigde vergoedingen te
voldoen aan de Stichting Reprorecht (Postbus 882, 1180 AW Amstelveen). Voor het overnemen van
(een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (artikel 16
Auteurswet 1912) dient men zich tot de uitgever te wenden.

ISBN 90 313 24272
D/1997/3407/025




Bohn Stafleu Van Loghum
De Molen 77
3995 AW Houten

Kouterveld 2
1831 Diegem
1 Uitgangspunten




Het voor u liggende handboek over evaluatie in het onderwijs is gebaseerd op twee uitgangspunten.
Het eerste uitgangspunt is ’de aansluiting bij de praktijk’: in toenemende mate is er in het onderwijs
belangstelling voor praktische vaardigheden, zowel beroepsspecifieke als algemene vaardigheden. De
gedachte daarachter is dat leerlingen daardoor beter zijn voorbereid op de eisen die er vanuit het beroep
en de maatschappij aan hen gesteld worden. Wanneer opleidingen daar serieus werk van willen maken,
heeft dat consequenties voor het hele didactische proces: de doelstellingen, de onderwijsleersituaties en
derhalve ook de toetssituaties moeten beter aansluiten bij de praktijk(vaardigheden). In dit handboek
wordt aangesloten bij Romiszowski, die in zijn de visie sterk de nadruk legt op vaardigheden.
Dit leidt vanzelf tot het tweede uitgangspunt, ’de gezamenlijkheid’: wanneer deze wijzigingen
doorgevoerd moeten worden, moeten alle verantwoordelijkheidsniveaus binnen de opleiding dit dragen.
De aansluiting bij de praktijk zal in eerste instantie geïmplementeerd/gerealiseerd moeten worden op
curriculumniveau, maar vanuit dat niveau zal dat gevolgen hebben voor het managementniveau
(facilitering en organisatie van het hele proces) en voor wat in dit handboek genoemd wordt het
uitvoeringsniveau (onderwijs en toetsing, didactiek en evaluatie).
De problematiek van het verantwoord meten van leerresultaten wordt in dit handboek vanuit deze twee
uitgangspunten benaderd. Dat betekent dat er naast een bespreking van de noodzakelijke voorwaarden
voor verantwoord meten veel aandacht zal worden besteed aan het meten van vaardigheden.

De functie van het handboek is het bevorderen van de toetsdeskundigheid. Het maakt docenten bewust
van de noodzaak om verschillende doelen te toetsen met verschillende toetsvormen.
Op curriculumniveau moet dit tot uiting komen in de onderwijs- en examenregeling.
Voor het uitvoeringsniveau worden vervolgens de nodige handreikingen gegeven. Voor de kennistoetsen
en de meeste vormen van vaardigheidstoetsen zijn de richtlijnen voldoende uitgewerkt om zelf tot
constructie over te gaan. Voor die vormen van vaardigheidstoetsen waarvan de constructie te complex
is (zoals computersimulaties), kunnen de richtlijnen gebruikt worden om de op de markt aangeboden
toetsen te screenen of om in onderhandeling met een toetsconstructeur een eisenpakket op tafel te leggen.
Voor alle vaardigheidstoetsen geldt echter dat het vaststellen van de kwaliteit ervan arbeidsintensief is
en veel expertise vereist op het gebied van de psychometrie.

Het zich bewust zijn van de zin en noodzaak van verantwoord meten en beoordelen is een essentiële
schakel in het gehele systeem van kwaliteitszorg, een noodzakelijke voorwaarde op de weg naar
kwaliteitsbewaking en -verbetering.




                                                                                                       1
Hoofdstuk 1



1.1     Aansluiting bij de praktijk

1.1.1   Het model ’didactische analyse’: geen gesloten model

Om de plaats van meten in het onderwijsleerproces aan te geven, wordt vaak gebruik gemaakt van het
model ’didactische analyse’ (Van Gelder, 1971).
Dit model is in afbeelding 1 terug te vinden in het gestippelde kader:




                        afb. 1 - Externe invloeden op het onderwijsleerproces

In afbeelding 1 staan respectievelijk leerdoelen, beginsituatie, onderwijsleersituatie en meten/beoordelen
genoemd. In paragraaf 2.2 zal dit model uitgebreider besproken worden. Eerst wordt nu besproken welke
externe factoren invloed uitoefenen op de verschillende onderdelen van het model. Deze worden
aangegeven door de grote pijlen in de afbeelding.

1.1.2   De input vanuit de beroepspraktijk in het model

Uiteraard is dit model geen gesloten systeem. Vanuit de beroepswereld en vanuit de maatschappij worden
eisen gesteld, die invloed hebben op de verschillende onderdelen van dit model.
Allereerst drukt de beroepspraktijk een belangrijk stempel op de eindtermen en leerdoelen van het
onderwijs. Het gaat immers om beroepsonderwijs; er worden mensen opgeleid om in de beroepspraktijk
te functioneren. Telkens wanneer het beroep zich ontwikkelt, zullen de toeleverende opleidingen daarop
moeten inspelen. Scholen zullen steeds optimaal moeten aansluiten bij de beroepspraktijk, niet alleen
door bij het formuleren van eindtermen uit te gaan van taak- en functieanalyses, maar ook door het
onderwijsleerproces zo in te richten dat er een naadloze overgang is van theorie naar praktijk. Dit
betekent onder meer dat de beroepspraktijkvorming niet alleen in de beroepsbegeleidende leerweg
(’werken/leren’) maar ook in de beroepsopleidende leerweg (’leren/stage’) een belangrijke plaats zal
krijgen.



2
Uitgangspunten



Voor toetsen geldt diezelfde eis van aansluiting bij de praktijk. Traditioneel is men bij het meten en
beoordelen van leerresultaten vaak in eerste instantie gericht op het meten van cognitieve vaardigheden
(het kunnen herkennen en benoemen van zaken), hetgeen dan veelal plaatsvindt in de vorm van
schriftelijke toetsen. Dat is ook wel te verklaren: het maken van toetsen voor cognitieve vaardigheden
is relatief eenvoudiger dan het ontwikkelen van kwalitatief goede instrumenten of procedures voor het
meten van praktische vaardigheden. Het op een eenduidige en objectieve manier vaststellen van prestaties
van leerlingen op het gebied van praktische vaardigheden (bijv. communicatieve vaardigheden) is zeker
geen eenvoudige zaak. In het gezondheidszorgonderwijs worden de praktijkvaardigheden van leerlingen
gewoonlijk beoordeeld door een functionaris van de arbeidsorganisatie (praktijkbegeleider). Ondanks de
vaardigheid die de meesten van hen hebben in het beoordelen van praktijkvaardigheden, is het oordeel
nog steeds gebaseerd op de individuele (en vaak subjectieve) opvatting van de beoordelaar. Vaak weet
de leerling nauwelijks op welke criteria hij beoordeeld wordt en in een aantal gevallen hanteert de ene
beoordelaar andere maatstaven dan de andere.

In dit handboek wordt daarom uitvoerig ingegaan op de verschillende vaardigheden die een leerling zich
gedurende de opleiding eigen moet maken, de wijze waarop deze getoetst kunnen worden en de
toetsvormen die daarvoor het meest geschikt zijn.

1.1.3   De input vanuit de maatschappij in het model

Ook de maatschappij stelt zijn eisen aan het individu. Wil men als volwaardig burger in de zich steeds
sneller veranderende maatschappij functioneren, dan is het noodzakelijk dat men daarvoor voldoende is
toegerust. Steeds meer ontstaat het besef dat de maatschappij vraagt om, wat wel genoemd wordt,
algemene vaardigheden: geen kant-en-klare kennis, maar instrumentele en strategische vaardigheden, die
een persoon in staat stellen zich aan te passen aan veranderingen in beroep en maatschappij.
Deze vaardigheden krijgen in steeds meer examenprogramma’s en eindtermendocumenten een plaats en
het onderwijs bezint zich op methoden om deze vaardigheden systematisch te onderwijzen en vervolgens
ook te toetsen.
Dat brengt ons op een andere duidelijke invloed vanuit de maatschappij: om de waarde van diploma’s
te kunnen garanderen, moeten bepaalde minimumeisen gesteld worden aan de toetsen en examens die
recht geven op een diploma. Dit ’civiel effect’ kan op verschillende manieren verkregen worden,
namelijk door middel van:
– centrale examens, waarbij alle opleidingen op hetzelfde moment hetzelfde examen afnemen;
– landelijke examens, waarbij opleidingen de keuze hebben om op een bepaald moment aan een
    centraal geconstrueerd examen mee te doen;
– visitaties, waarbij opleidingen eens in de zoveel tijd doorgelicht worden op alle aspecten uit het
    didactisch model;
– externe legitimering, waarbij alle opleidingen een vastgesteld deel van hun toetsing ter controle aan
    een onafhankelijke instelling moeten voorleggen.
Op welke wijze dit civiel effect gewaarborgd wordt, is over het algemeen onderworpen aan wettelijke
regelingen. Voor het beroepsonderwijs in het algemeen vormen de WEB (Wet Educatie en Beroepsonder-
wijs) en de WHW (Wet Hoger onderwijs en Wetenschappelijk onderzoek) hiervoor het belangrijkste
kader. Daarnaast heeft de sector Gezondheidszorg per december 1997 specifiek te maken met de Wet
BIG (Beroepen in de Individuele Gezondheidszorg), waarin onder andere voor de verschillende
beroepsgroepen de vereiste bekwaamheid wordt aangegeven.

1.1.4   Aansluiting van de kwalitatieve en kwantitatieve uitstroom bij de behoefte van het werkveld

Een ander aspect waaraan zowel het beroepsveld als de maatschappij groot belang hecht, is de
aansluiting van de uitstroom bij de behoefte van het werkveld, niet alleen in kwalitatieve maar ook in

                                                                                                      3
Hoofdstuk 1



kwantitatieve zin. Uiteraard hebben ook de leerlingen er baat bij wanneer ze enerzijds adequaat worden
toegerust voor het beroep dat ze willen gaan uitoefenen en anderzijds gewild zijn op de arbeidsmarkt
vanwege hun specifieke deskundigheid. Opleidingstrajecten moeten leiden tot die kwalificaties waaraan
behoefte is. Deze afstemming zal veelal regionaal moet plaatsvinden, in overleg tussen werkgevers en
opleiders.
In dit verband is het relevant te melden dat men steeds meer uitgaat van brede kwalificaties, waardoor
afgestudeerden op meer plaatsen inzetbaar zijn.

1.1.5   Aansluiting van verschillende opleidingen op elkaar: modulen en certificaateenheden

In opleidingen wordt tegenwoordig hoe langer hoe meer gewerkt met modulen en certificaateenheden.
Dit zijn zelfstandige leereenheden waarvoor de leerling wordt toegelaten als hij aan een beginvoorwaarde
voldoet en die wordt afgesloten met een toets. Een voldoende resultaat is vaak voorwaarde voor toelating
tot een volgende module. Een certificaateenheid heeft een dusdanige omvang, dat de leerling die een
voldoende resultaat bereikt heeft op de toets een certificaat ontvangt.
Soms is dit werken met modulen alleen een manier om lesinhouden te ordenen en volgen alle leerlingen
van een bepaald leerjaar gezamenlijk de modulen. Vaak is het echter ook een manier om individuele
leerlingen in de gelegenheid te stellen een eigen leerroute te kiezen. Niet in de laatste plaats biedt het
voordelen bij het instromen van leerlingen uit andere opleidingen of bij het (her)plaatsen van leerlingen
die enige tijd uit het onderwijsproces zijn geweest.
Door de vereiste beginsituatie voor de betreffende module eenduidig vast te leggen, kan getoetst worden
of leerlingen die aan deze module willen deelnemen aan de gestelde beginvoorwaarde voldoen.
Ook in het gezondheidszorgonderwijs zal deze modulering in de nabije toekomst een steeds belangrijker
rol gaan spelen. Op de gevolgen van modulering voor de organisatie van toetsing en afsluiting wordt
nader ingegaan in paragraaf 6.2, waar het optimale gebruik van een opgavenbank wordt besproken.
Een andere belangrijke reden voor het moduleren van opleidingen is het beperken van de ongekwalifi-
ceerde uitstroom: ook leerlingen die niet de hele opleiding afmaken, zullen een aantal eenheden hebben
afgesloten en daarvoor een certificaat hebben ontvangen. Zo staan zij niet langer met lege handen op de
arbeidsmarkt.


1.2     Een gezamenlijke verantwoordelijkheid

Een project ’verantwoord meten’ kan niet enkel en alleen gerealiseerd worden op het niveau van de
individuele docent. Een bepaalde docent kan natuurlijk best zorgen voor een kwalitatief goede toetsing
van zijn leerlingen, maar als de toetsresultaten door anderen op de verkeerde manier worden
geïnterpreteerd of belangrijke beslissingen worden genomen op basis van andere gegevens, is het nut van
zijn inspanningen erg beperkt. Bovendien is het zaak om door intercollegiale screening of het aanstellen
van een toetsdeskundige of toetscommissie de kwaliteit van de beoordelingen te bewaken: legt elke
docent dezelfde normen aan, berijdt iemand niet steeds dezelfde stokpaardjes etc.
Van verantwoord meten kan alleen sprake zijn als bij de invoering ervan rekening wordt gehouden met
het opleidingssysteem als geheel. Als docenten geen faciliteiten geboden worden voor de ontwikkeling
of aanschaf van nieuwe toetsvormen, mag men geen hooggespannen verwachtingen koesteren over het
effect van bijvoorbeeld een cursus ’het kiezen van de juiste toetsvorm’ of ’toetsontwikkeling’. Als de
inspanningen op het gebied van verantwoord meten kans van slagen willen hebben, is een samenhangend
beleid daarom noodzakelijk.
In dat beleid zijn drie niveaus aanwijsbaar waarop beslissingen worden genomen:
– managementniveau;
– curriculumniveau;
– uitvoeringsniveau.

4
Uitgangspunten



Afhankelijk van het niveau waarop men functioneert, kan de aard van de beslissingen of uitspraken
echter verschillen. Men heeft behoefte aan specifieke informatie om op grond daarvan specifieke
conclusies te kunnen trekken. De vragen die men beantwoord wil zien op grond van dezelfde
meetgegevens, zijn vaak verschillend. In de volgende paragrafen wordt hierop nader ingegaan.

1.2.1   Managementniveau: facilitering (procesbeheersing/procesinrichting)

Op dit niveau wordt in globale zin de functie van verantwoord meten vastgelegd en worden de
voorzieningen getroffen die nodig zijn voor het uitvoeren van de geplande activiteiten. Voor het
management spelen bijvoorbeeld vragen als:
– Wegen de investeringen (van geld en menskracht) op tegen de opbrengsten (kosten/baten-analyse)?
– Hoe is de kwaliteit van onze instelling in vergelijking met andere opleidingen?
– Met welke gegevens kan ons beleid naar buiten toe (bijv. ministerie) verantwoord onderbouwd
   worden?
– Komt het rendement van het binnenschools leren overeen met de afspraken die met de zorginstellin-
   gen daarover gemaakt zijn? Hoe goed is de inzetbaarheid van de leerlingen in de zorginstellingen?

Op managementniveau richt men zich op de randvoorwaarden en de beleidskeuzen. Ook zal een aantal
voorzieningen getroffen moeten worden om een verantwoorde toetsing mogelijk te maken. Voorbeelden
van aandachtspunten op dit niveau zijn:
– De opleiding moet een duidelijke visie op meten en beoordelen ontwikkelen en deze visie moet zich
   vertalen in toetsingsbeleid door directie en bestuur.
– Meten en beoordelen zijn belangrijke instrumenten bij kwaliteitsbepaling en -bewaking door het
   management. Er moeten daarom maatregelen, beslissingen en faciliteiten vanuit het management
   worden gecreëerd waardoor de interne kwaliteitszorg gestalte krijgen.
– Toetsing hoort bij het takenpakket van de docent, maar voor het opzetten en in uitvoering nemen van
   een systeem van verantwoord meten is een dermate grote tijdsinvestering nodig dat bepaalde
   docenten daarvoor gedeeltelijk vrijgeroosterd zullen moeten worden.
– Door te toetsen komt informatie beschikbaar. Tenzij die wordt opgeslagen in een toegankelijk
   administratiesysteem, zal die informatie vluchtig van aard zijn. Er zal daarom nagedacht moeten
   worden over het ontwerp van een dergelijk systeem en over het beheer daarvan.
– Vernieuwingen of veranderingen op het gebied van verantwoord meten moeten, om kans van slagen
   te hebben, gedragen worden door het merendeel van de medewerkers. De acceptatie zal gemakkelij-
   ker verlopen als de medewerkers goed op de hoogte zijn van de motieven, de uitvoeringsprocedures
   en de implicaties voor het eigen functioneren.
– Bij welke instantie, hoe en waartegen (bijv. tegen de beoordeling zelf of tegen de wijze waarop
   getoetst is, e.d) kan de leerling in beroep gaan? Welke procedure volgt de beroepsinstantie bij het
   afwikkelen van een beroep en wie stelt die werkwijze vast?

1.2.2   Curriculumniveau: aansturing

Ten aanzien van het curriculum spelen vragen als:
– Hoe effectief is het gegeven onderwijs (onderwijsmethode, hulpmiddelen etc.)?
– Voldoet het binnenschools leren aan de eisen van de zorginstellingen?
– Sluit het onderwijs voldoende aan bij de leerdoelen en bij de beginsituatie van de leerlingen?
– Met welke gegevens kan de kwaliteit van het gegeven onderwijs aangetoond worden aan
   bijvoorbeeld directie en bestuur?




                                                                                                    5
Hoofdstuk 1



Op curriculumniveau houdt men zich onder meer bezig met de voorwaarden voor en de onderlinge
afstemming van de toetsen. Op dit niveau moeten (tenzij dit in de onderwijs- en examenregeling al is
vastgelegd) afspraken gemaakt worden over bijvoorbeeld:
– Curriculumopbouw:
    . Hoe wordt de doorstroming van leerlingen in de opleiding geregeld (bijv. jaarklassensysteem,
        studiepuntensysteem)? Wie bepaalt deze regeling?
    . Welke vakken of studieonderdelen zijn voorwaardelijk voor andere vakken of studieonderdelen?
    . Kunnen vrijstellingen gegeven worden voor bepaalde studieonderdelen? Wat zijn daarvoor de
        criteria en wie stelt die vast?
– Onderwijs- en examenregeling:
    . Welke vakken of studieonderdelen moeten worden getoetst? En op welke momenten?
    . Op welke wijze worden de verschillende onderdelen getoetst (schriftelijk of mondeling;
        kennistoets of vaardigheidstoets; werkstuk; etc.)?
    . Wat is de geldigheidsduur van toetsresultaten, certificaten e.d.?
    . Is er een officieel afsluitend examen? Hoe wordt dat vormgegeven en wat zijn de consequenties
        van een onvoldoende resultaat?
    . Wie bepaalt wanneer de toetsmomenten zijn, hoeveel herkansingen er zijn en wat de gevolgen
        zijn van ’niet halen’ van de laatste herkansing?
– De functie van toetsen:
    . Wat is de functie van toetsen op de verschillende momenten: diagnostisch, evaluerend of
        certificerend?
    . Hoe kunnen de toetsresultaten benut worden bij de curriculumevaluatie?
– Normering en cijfergeving:
    . Hoe moeten toetsscores gewaardeerd worden (hoe wordt de cesuur vastgesteld)? Wie bepaalt dat?
    . Hoe worden de toetsresultaten weergegeven (cijferschaal van 1 tot 10 of voldoende-onvoldoende-
        goed)?
– Kwaliteitsbewaking:
    . Hoe en wanneer (bij elke toets of alleen bij afsluitende toetsen) moet de kwaliteit van toetsen
        onderzocht worden?
– Administratie:
    . Hoe worden toetsresultaten geadministreerd, voor hoe lang en wie hebben toegang tot die
        administratie?
– Constructieprocedures:
    . Wie dragen zorg voor de ontwikkeling van toetsen op grond waarvan belangrijke beslissingen
        genomen worden over leerlingen?
    . Wie bewaakt het proces van de toetsontwikkeling?
    . Wie voert het onderzoek uit naar de kwaliteit van de vervaardigde toetsen en op welke wijze?
        Hoe wordt daarover gerapporteerd en aan wie? Welke acties worden ondernomen als achteraf
        (nadat ze zijn afgenomen) blijkt dat toetsen onvoldoende kwaliteit hadden?

1.2.3   Uitvoeringsniveau: constructie/aanschaf, afname/verwerking, beoordeling

De deskundigheid van docenten beperkt zich niet tot het geven van lessen en het begeleiden van
leerlingen, maar richt zich ook op het formuleren van doelstellingen, het kiezen van toetsvormen, het
meten van leerresultaten en het uiteindelijk op een zo verantwoord mogelijke wijze beslissingen nemen
op grond van deze leerresultaten. Zoals in paragraaf 1.2.2 duidelijk is te lezen, worden op curriculumni-
veau, in overleg tussen docenten en management, de benodigde kaders vastgesteld. Docenten die zich
met de uitvoering bezighouden, zullen vooral geïnteresseerd zijn in zaken als:
– Hebben de leerlingen de gestelde leerdoelen bereikt?
– Zijn er bepaalde leerlingen die remediërend onderwijs nodig hebben?

6
Uitgangspunten



–     Voldoen de leerlingen aan de minimum-eisen om aan een bepaalde cursus of module deel te nemen?

Op uitvoeringsniveau zullen zij zich daarom moeten bezighouden met de volgende aspecten van
verantwoord meten en beoordelen:
– Wanneer aan een toets grote consequenties voor de leerlingen zijn verbonden (al dan niet een
    certificaat), moet die toets aan bepaalde minimale kwaliteitseisen voldoen. Welke eisen zijn dat en
    hoe kan daaraan voldaan worden?
– Wanneer een toets vooral een diagnostische functie heeft, spelen weer andere eisen een rol. Wanneer
    levert zo’n toets waardevolle en bruikbare informatie op?
– Hoe kunnen bepaalde toetsvormen het beste geconstrueerd worden? Welke stappen zijn er te
    onderscheiden en welke fouten moeten er vermeden worden?


1.3      Leeswijzer

In het inleidende hoofdstuk 1 is met name de opzet van het handboek uitgelegd: voor de indeling van
het handboek is aansluiting gezocht bij de toenemende aandacht voor vaardigheden vanuit beroep en
maatschappij. Verder wordt betoogd dat verantwoord meten een zaak is van alle verantwoordelijkheidsni-
veaus binnen een opleiding. In de verdere hoofdstukken worden deze uitgangspunten nader uitgewerkt.
In hoofdstuk 2 wordt besproken wat onder meten en beoordelen wordt verstaan en wat de plaats van
meten en beoordelen in het didactisch proces is. Ook de verschillende functies van toetsen worden
beschreven.
Omdat een kwalitatieve uitspraak (een beoordeling) over de meetgegevens pas verantwoord is als er
zekerheid bestaat over de juistheid van deze gegevens, zal in hoofdstuk 3 worden ingegaan op de
kwaliteitseisen met betrekking tot meten en beoordelen.
In hoofdstuk 4 passeren de verschillende toetsvormen heel kort de revue. De volgorde waarin dit gebeurt,
is bepaald door de mate waarin de respectieve toetsvormen aansluiten bij de praktijk. Bovendien worden
van elke toetsvorm de sterke en zwakke punten genoemd, zodat op basis van dit hoofdstuk een keuze
gemaakt kan worden voor de meest geschikte toetsvorm.
In de daaropvolgende hoofdstukken worden de beslissingen en activiteiten op de drie verantwoordelijk-
heidsniveaus beschreven.
In hoofdstuk 5 is dat allereerst het curriculumniveau. Met de gegevens uit hoofdstuk 4 moet men op dat
niveau komen tot het opstellen van een onderwijs- en examenregeling. Wanneer het toetsplan is
uitgewerkt, moet op het uitvoeringsniveau allereerst gewerkt worden aan de constructie of aanschaf van
de benodigde toetsen.
Hoofdstuk 6 geeft in de vorm van stroomdiagrammen algemene richtlijnen voor de constructie. Hierbij
wordt om een aantal redenen onderscheid gemaakt tussen enerzijds kennistoetsen en anderzijds
vaardigheidstoetsen.
Deze algemene richtlijnen worden in hoofdstuk 7 voor de meeste toetsvormen uitgewerkt tot specifieke
richtlijnen, vuistregels en concrete voorbeelden. Voor een aantal andere toetsvormen wordt volstaan met
aanwijzingen voor het beoordelen van de kwaliteit.
Hoofdstuk 8 bevat richtlijnen voor de afname van de toetsen en de verwerking van de resultaten.
In het afsluitende hoofdstuk 9 worden de beslissingen en voorzieningen op managementniveau
beschreven: welke maatregelen moeten er getroffen worden om te zorgen dat verantwoord meten een
vast onderdeel wordt en blijft van het totale opleidingsproces.




                                                                                                      7
2 De plaats van meten en beoordelen in het didactisch proces




Meten speelt een belangrijke rol in veel activiteiten die kenmerkend zijn voor ’het onderwijs’.
Curriculumevaluatie, school- en beroepskeuze, examinering, voortgangsbewaking: op al deze gebieden
wordt gemeten om verantwoord beslissingen te kunnen nemen over leerlingen, het onderwijzend
personeel, curricula en opleidingen.

In het onderwijsleerproces vervult toetsing een centrale rol. Toetsing voorziet in de informatiebehoefte
van docenten die ontstaat als er beslissingen moeten worden genomen om het onderwijsleerproces
optimaal te laten verlopen. In het onderwijsleerproces worden op verschillende momenten vragen gesteld
waarop met behulp van toetsen een bevredigend antwoord gegeven kan worden. Zodra de doelstellingen
van een stuk onderwijs bepaald zijn, komt de vraag op waar het onderwijs een aanvang moet nemen (de
vraag naar de beginsituatie). Tijdens het onderwijsleerproces moet op gezette momenten gecontroleerd
worden of de leerlingen voldoende vorderingen maken. Als bijsturing noodzakelijk mocht zijn, kan dit
plaatsvinden in het leerproces (de leerling verandert zijn leeractiviteiten) en/of in het onderwijsproces
(de docent past de instructietactiek en/of -strategie aan). Na afloop van de instructieperiode dient
vastgesteld te worden of leerlingen de beoogde kennis en vaardigheden hebben verworven.

In paragraaf 1.1 kwam het model van Van Gelder al ter sprake om te laten zien op welke wijze het
onderwijsleerproces beïnvloed wordt of moet worden door invloeden van buitenaf. In dit hoofdstuk
worden de verschillende onderdelen van het didactisch model aan de orde gesteld: aan welke eisen
moeten de eindtermen/doelstellingen voldoen, hoe kun je daar je onderwijsleersituatie op afstemmen,
welke gevolgen moet dat hebben voor je toetsing, wat zijn de tegenstrijdigheden tussen de verschillende
eisen?
Vervolgens wordt ingegaan op de terugkoppeling van de meetgegevens naar informatie voor de
verschillende verantwoordelijkheidsniveaus, zoals deze in paragraaf 1.2 aan de orde kwamen: in eerste
instantie geeft het feedback aan de leerling en de docent, in tweede instantie (bij vergelijking tussen
klassen of bij herhaalde meting) feedback over het curriculum en in laatste instantie (vergelijking met
andere scholen, rendementsgegevens) feedback op managementniveau.
Alvorens daartoe wordt overgegaan, zal eerst kort worden aangegeven wat onder meten en beoordelen
wordt verstaan.
Het hoofdstuk wordt afgesloten met een bespreking van de verschillende functies die toetsen kunnen
hebben.


2.1    Meten en beoordelen: een begripsbepaling

Vaak worden de termen ’meten’, ’toetsen’, ’evalueren’ en ’beoordelen’ naar willekeur door elkaar
gebruikt. Daarom is het goed om deze begrippen kort nader toe te lichten.
De begrippen ’meten’ en ’toetsen’ zijn in feite gangbare synoniemen en kunnen worden omschreven als:
het systematisch en op objectieve wijze vaststellen van (studie- of leer)resultaten; een toets is het
meetinstrument; het eindresultaat van meten is een score (het aantal goede antwoorden of verrichtingen,
al dan niet gewogen).

8
De plaats van meten en beoordelen in het didactisch proces



De begrippen ’beoordelen’ en ’evalueren’ mogen (althans in het kader van onderwijs-/leerresultaten) ook
als synoniemen worden opgevat en kunnen worden omschreven als: het systematische proces van
verzamelen, analyseren en interpreteren van de bij meting verkregen gegevens teneinde vast te stellen
in welke mate de gestelde (leer)doelen zijn bereikt. Dit proces impliceert het toekennen van een
(waarde)oordeel aan een meetresultaat op grond waarvan (onderwijskundige) beslissingen genomen
worden. Schematisch kan deze samenhang aldus worden weergeven:

                    BEOORDELEN = METEN + WAARDEREN + BESLISSEN

Meten en beoordelen zijn processen die in elkaars verlengde liggen: een kwalitatieve uitspraak kan pas
gedaan worden nadat er een kwantitatieve uitspraak is gedaan. Dus eerst meten en pas dan beoordelen.
Daarbij moet men zich ook realiseren dat meten en beoordelen gewoonlijk geen eenmalige activiteiten
zijn die klaar zijn zodra er een kwalitatieve uitspraak gedaan is. Meten en beoordelen vormen een min
of meer continu proces waarbij vaak op meerdere momenten gemeten en beoordeeld wordt.
Zoals de titel van het handboek Verantwoord meten in het gezondheidszorgonderwijs wordt aangegeven
dat van de hierboven genoemde begrippen, het meten centraal staat: welke plaats heeft meten in het
onderwijsproces, aan welke eisen moeten goede meetinstrumenten voldoen en hoe kunnen goede
meetinstrumenten geconstrueerd worden. Dit wil overigens niet zeggen dat aan de andere zaken
(waarderen en beslissen)
geen aandacht zal worden besteed.


2.2    Het didactisch proces: de relatie tussen leerdoelen, beginsituatie, onderwijsleersituatie en
       toetsing

In paragraaf 1.1 werden de externe invloeden op het model ’didactische analyse’ besproken. Hieronder
wordt nader ingegaan op het model zelf.




                              afb. 2 - Het model ’Didactische Analyse’

De leerdoelen zijn concretiseringen (operationalisaties) van de eind- of tussentermen van de opleiding
en geven aan wat de leerling gedurende de onderwijsleerperiode moet leren: kennis en vaardigheden en
leerinhouden.

                                                                                                     9
Hoofdstuk 2



De beginsituatie heeft betrekking op de vraag naar het niveau van de leerling aan het begin van de
opleiding of aan het begin van een module: ’Op welk niveau moet de docent aansluiten met zijn
onderwijsproces? Wat weet de leerling al? Welke vaardigheden beheerst hij al?’

Om de leerdoelen te bereiken, moet er – rekening houdend met de beginsituatie – een reeks van
activiteiten worden gepland. Dit speelt zich af in de onderwijsleersituatie waarin vragen aan de orde
komen als: ’Welke leerstof past bij de leerdoelen? Welke didactische werkvormen kunnen er het beste
gebruikt worden? Welke hulpmiddelen zijn zinvol in het onderwijsleerproces? Welke leeractiviteiten
moeten ontplooid worden?’

Het meten/beoordelen ten slotte heeft betrekking op het vaststellen in hoeverre de leerdoelen bereikt zijn.
Er is dus een duidelijke relatie tussen de leerdoelen en de meting van studieresultaten: aan de hand van
de leerdoelen wordt gemeten wat de ’opbrengst’ is van het onderwijsleerproces.
Tevens is er een voortdurende terugkoppeling van meten/beoordelen naar de onderwijsleersituatie: de
meetgegevens kunnen relevante informatie opleveren over het gegeven onderwijs, de leeractiviteiten
etcetera.


2.3      De functie van toetsen

De functie van meten in het didactisch proces kan rechtstreeks worden afgeleid uit de plaats van meten
ten opzichte van de beginsituatie, de onderwijsleersituatie en de leerdoelen, zoals beschreven in de vorige
paragraaf.
Toetsen vindt plaats vóór of na een stukje onderwijs. Hierbij moet dan gedacht worden aan de kleinst
mogelijke onderdelen die binnen een onderwijsprogramma te onderscheiden zijn en die beginnen met
of afgesloten worden met een toets. Het kan hierbij gaan om een lesuur, een module of een cursus.
In tabel 1 wordt weergegeven hoe toetsmomenten en toetsfuncties onderling samenhangen.

tabel 1 - Toetsmomenten en toetsfuncties
moment        doel(en)                                               functie(s)
vooraf        •   Meten of het beginniveau van de leerling(en)       selectie / plaatsing
                  voldoende is voor het onderwijsprogramma.
              •   Meten welke leerdoelen voor welke leerlingen       classificatie
                  haalbaar zijn.
              •   Meten welk leertraject voor welke leerlingen het   interne differentiatie
                  meest geschikt is.
achteraf      •   Meten wat de vorderingen van de leerling zijn      diagnosticering / remediëring
                  en of remediëring gewenst is.
              •   Meten wat de kwaliteit of het rendement van het    curriculumevaluatie
                  gegeven onderwijs is.
              •   Meten of de leerling het vereiste kennis- en       selectie / certificering
                  vaardigheidsniveau heeft bereikt.



Uit de tabel blijkt dat toetsen verschillende functies kunnen hebben. Afhankelijk van de toetsfunctie
worden bepaalde eisen aan de meting gesteld (zie tabel 23 op blz. 60). De belangrijkste functies c.q. de
meest voorkomende toepassingen van toetsing zijn in de tabel geaccentueerd: toetsing vindt vooral plaats



10
De plaats van meten en beoordelen in het didactisch proces



na (een deel van) het onderwijsprogramma. In enkele stroomdiagrammen wordt een en ander verder
verduidelijkt.
De rechthoek hieronder stelt een onderwijsprogramma in algemene zin voor. Het kan daarbij gaan om
de leerstof van een hoofdstuk in een leerboek, een oefening, een module van een paar weken of zelfs
om een complete cursus. De pijl links verwijst naar de leerlingen die met het programma gaan beginnen
en de pijl rechts verwijst naar de leerlingen die het programma hebben doorlopen:




                          afb. 3 - Stroomdiagram van onderwijsprogramma


2.3.1   Selectiemiddel voor plaatsing

Wanneer een toets voorafgaand aan een bepaald onderwijsprogramma wordt afgenomen met het doel de
beste kandidaten te selecteren (selectie bij de poort), zal het schema er aldus uitzien:




                                     afb. 4 - Selectie bij de poort

Op grond van de toetsresultaten wordt beslist wie wel en wie niet met het programma mag starten. Van
belang is hier dat afgewezen kandidaten bij de planning van het onderwijs geen rol meer spelen. Ze
worden eenvoudig niet tot het programma toegelaten en daar blijft het bij, ook al krijgen ze allerlei
adviezen.
Voorbeelden:
– Een farmaceutisch bedrijf in Frankrijk biedt een groot Nederlands ziekenhuis voor een aantal
    personeelsleden een nascholingscursus aan op een van de Franstalige eilanden in het Caraïbisch
    gebied. Van de directie mogen alleen diegenen intekenen die over voldoende kennis van het Frans
    beschikken. Dit wordt door een taleninstituut door middel van een toets vastgesteld.
– In veel landen wordt op basis van een toelatingsexamen beslist wie tot een universiteit wordt
    toegelaten en wie niet.

Plaatsingstoetsen, zoals dergelijke instrumenten wel worden genoemd, kunnen op verschillende manieren
worden ingezet en verschillende doelen dienen.
In de bovenstaande voorbeelden worden ze gebruikt om een antwoord te geven op de vraag of de
leerlingen over de voorwaardelijke kennis en vaardigheden beschikken om aan een cursus, module of
opleiding deel te nemen c.q. in hoeverre de leerlingen de doelstellingen van de te volgen cursus, module,
opleiding al hebben bereikt (bijv. door een eerdere module of opleiding). Het gaat hierbij om een
absolute norm.
Men kan plaatsingstoetsen echter ook gebruiken als men wil nagaan welke leerlingen de meeste kans
van slagen hebben in een vervolgopleiding. In dat geval is er sprake van een relatieve norm. Dit doet
zich bijvoorbeeld voor als slechts een beperkt aantal plaatsen beschikbaar is in de vervolgopleiding.

                                                                                                      11
Hoofdstuk 2



2.3.2   Classificatie of externe differentiatie

Een variant hierop waarbij met onderwijs aan alle leerlingen rekening wordt gehouden, is de volgende:




                                  afb. 5 - Classificatie van leerlingen

De toetsresultaten worden gebruikt om te beslissen wie voor het ene dan wel het andere onderwijspro-
gramma in aanmerking komt. Van belang is dat met beide programma’s verschillende doelstellingen
worden nagestreefd (X en Y in het stroomdiagram). Kandidaten die naar programma A mogen, behalen
andere leerresultaten dan kandidaten die programma B gaan volgen. Deze procedure wordt classificatie
genoemd. Ook spreekt men wel van ’externe differentiatie’, omdat een bepaalde groep leerlingen van
de oorspronkelijke groep wordt afgezonderd.
Voorbeelden:
– Na het doorwerken van een hoofdstuk in het leerboek wordt op basis van een toets beslist wie de
    leerstof volledig beheerst en derhalve met verrijkingsstof mag beginnen en wie herhalingsstof en
    extra oefeningen nodig heeft.
– Na selectie van geschikte leerlingen voor de nascholingscursus biedt de directie de overige
    gegadigden een cursus van één dag in Nederland aan waar het verhaal van een ’ingevlogen’
    medewerker van het Franse bedrijf door een tolk wordt vertaald.

2.3.3   Interne differentiatie

Een derde vorm is de interne differentiatie. Door middel van een toets wordt beslist wie het ene of het
andere onderwijsprogramma mag gaan volgen, echter zonder dat daarbij andere leerresultaten worden
nagestreefd. Beide programma’s hebben dezelfde doelstellingen.
Het is echter heel goed mogelijk dat de ene onderwijsmethode meer geschikt is voor de ene groep dan
voor de andere. Beslissend is echter dat op het eind van de rit dezelfde eisen worden gesteld, men
dezelfde verwachtingen heeft etcetera. In afbeelding 6 staat het bijbehorende stroomdiagram:




                                     afb. 6 - Interne differentiatie



12
De plaats van meten en beoordelen in het didactisch proces



Bij de volgende varianten wordt een toets pas na afloop van het onderwijsprogramma afgenomen. Deze
vorm van toetsing komt het meeste voor. De toetsuitslag geeft aan of, en in hoeverre de kandidaten de
leerstof daadwerkelijk onder de knie hebben. Zo’n afsluitende toets kan zoals gezegd verschillende
functies hebben.

2.3.4   Feedbackfunctie voor de individuele leerling: diagnostisch

De eerste vorm van toetsing achteraf is gericht op terugkoppeling naar de individuele leerling en heeft
een diagnostische functie. Een consequente doorvoering hiervan kan worden gevonden bij beheersingsle-
ren of ’mastery learning’. Leerlingen met scores van meer dan bijvoorbeeld 80% hebben het programma
met succes doorlopen en kunnen verder met het volgende leerstofgedeelte. De anderen dienen de leerstof
vanaf een bepaald punt te herhalen, totdat iedereen of bijna iedereen de stof beheerst. Vaak echter zal
de leerstof op een iets andere wijze worden aangeboden omdat mogelijk de eerdere instructie bij
sommige leerlingen onvoldoende resultaat opleverde. In dat geval is er sprake van remediëring en
ontstaat een stroomdiagram dat sterk lijkt op dat van afbeelding 6.




                                     afb. 7 - Een diagnostische toets

Wanneer toetsing plaatsvindt ter afsluiting van een relatief klein deel van het curriculum met als
belangrijkste oogmerk informatie te krijgen over de vorderingen van de leerlingen, spreekt men van
diagnostische toetsen (of formatieve toetsen). Dergelijke toetsen worden op gezette tijden tijdens het
onderwijsleerproces afgenomen om de vorderingen van de leerlingen te kunnen volgen en bijtijds
maatregelen te kunnen nemen ingeval van vertraging of achterstand.
Het belang van dit soort toetsen is de feedbackfunctie. Leerlingen kunnen uit de toetsuitslag precies
aflezen waar hun lacunes zitten. Voorwaarde is daarbij wel dat de toetsuitslag voldoende gedetailleerd
is (dus alleen het toekennen van een cijfer of het aantal behaalde scorepunten is ten enenmale
ontoereikend).
In het ideale geval is de toets zodanig geconstrueerd dat aanknopingspunten voor remediëring
(individueel of als groep) van het onderwijsleerproces direct afgeleid kunnen worden uit de ’gemiste’
vragen of opdrachten, dat wil zeggen de fouten die individueel of groepsgewijs opvallend vaak of
stelselmatig gemaakt worden. Maar: formatieve toetsen zijn verre van gemakkelijk te construeren,
aangezien elk fout antwoord van de leerling ’vertaald’ moet kunnen worden in een aanwijsbare lacune
(in kennis, denken of dergelijke). Indien uit een formatieve toetsing blijkt dat een groot aantal leerlingen
bepaalde doelen nog niet beheerst, is dit een signaal voor de docent om de gehanteerde onderwijsstrate-
gie aan een kritisch onderzoek te onderwerpen en zo nodig te wijzigen.
Formatieve toetsen zeggen dus niet alleen iets over de vorderingen van de leerlingen (’wat weten ze
(nog) niet?’), maar kunnen ook zeer nadrukkelijk informatie geven over het onderwijsleerproces (’welke
onderwerpen moeten opnieuw of anders besproken worden’; ’hoe effectief is de manier van lesgeven?’;
’zijn de doelen correct afgestemd op het niveau van de groep?’ etc.). Deze functie komt in de volgende
paragraaf aan de orde.




                                                                                                         13
Hoofdstuk 2



2.3.5   Feedbackfunctie voor het onderwijsleerproces (opleider): evaluerend

Toetsen geven echter niet alleen informatie over de leerlingen, maar ook over het gegeven onderwijs.
Vanuit het resultaat van een of (vaak) meer toetsen wordt gekeken hoe het gegeven onderwijs bij de
leerlingen is overgekomen. Bij dit evaluerend gebruik van toetsing staat de kwaliteit of het rendement
van het onderwijs centraal.




                                     afb. 8 - Curriculumevaluatie

2.3.6   Selectiemiddel voor afsluiting: certificerend

Het bekendste voorbeeld van een afsluitende toets is wel het examen. Na een compleet onderwijspro-
gramma of certificaateenheid wordt een toets voorgelegd. De belangrijkste functie van zo’n toets is het
certificeren van succesvolle leerlingen.




                                        afb. 9 - Certificering

De afgewezen leerlingen kunnen over het algemeen een herkansing doen. Wanneer ze ook daarvoor
zakken, zijn er verschillende mogelijkheden:
– ze verlaten de school en proberen op de arbeidsmarkt aan de slag te komen;
– ze stromen door naar een eenvoudiger onderwijstype om op dat niveau een certificaat te behalen;
– ze doen (een deel van) het onderwijsprogramma over om zo alsnog te trachten voor het examen te
    slagen.
In afbeelding 9 is alleen de stroom van succesvolle leerlingen aangeduid.
Met behulp van summatieve toetsen (ook wel selectieve toetsen genoemd) wordt aan het einde van een
cursus, module of opleiding nagegaan of en zo ja in welke mate de leerlingen het vereiste kennis- en
vaardigheidsniveau hebben bereikt, c.q. de leerdoelen hebben bereikt. De uitslag van een summatieve
toets bepaalt gewoonlijk of leerlingen een (deel)certificaat of diploma mogen ontvangen en mogen
doorstromen naar het vervolgonderwijs (vervolgcursus of volgende module).




14
De plaats van meten en beoordelen in het didactisch proces



2.4     Eisen voor de formulering c.q. de concretisering van eindtermen/leerdoelen als voorwaarde
        voor een verantwoorde toetsing en beoordeling

2.4.1   Het ontwikkelen van eindtermen vanuit de kwalificatiestructuur

Eindtermen vormen de uitwerking van een kwalificatiestructuur en geven ook inhoud aan die
kwalificatiestructuur. Door middel van de eindtermen worden de verschillende (deel)kwalificaties
verduidelijkt en concreet gemaakt.
In het beroepsonderwijs is de beroepskwalificatie van primair belang. Dat betekent echter niet dat er
alleen eindtermen zullen bestaan die van het beroepsprofiel zijn afgeleid. De kwalificatiestructuur richt
zich op een drievoudige kwalificatie:
– de beroepskwalificatie;
– de maatschappelijke en culturele kwalificatie;
– de doorstroomkwalificatie.
De ontwikkeling van eindtermen voor de beroepskwalificatie geschiedt op basis van de beroepsprofielen.
Bij de ontwikkeling van eindtermen voor de doorstroomkwalificatie zal gekeken moeten worden naar
de instroomeisen en instroomprofielen van het vervolgonderwijs. De eindtermen die gericht zijn op de
maatschappelijke en culturele kwalificatie moeten ontleend worden aan het functioneren als burger in
de samenleving en als werknemer in het bedrijfsleven.
Eindtermen hebben een belangrijke functie voor het onderwijs. Het moeten hanteerbare beschrijvingen
zijn van kennis, inzicht, vaardigheden en attitudes, met voldoende indicaties voor de inrichting van het
onderwijs en de examinering.
Eindtermen zullen over het algemeen geen uitwerking geven van voorwaardelijke kennis en
vaardigheden. Voor de daadwerkelijke vormgeving van het onderwijs en de toetsing bestaat behoefte aan
een concretisering van de eindtermen. Derhalve zal een analyse moeten plaatsvinden om het traject dat
voert naar de eindtermen vorm te geven: welke tussenstappen zijn er te onderscheiden? Het resultaat van
deze analyse zijn de leerdoelen. In paragraaf 2.4.3 worden de eisen beschreven waaraan de formulering
van leerdoelen moet voldoen. Eerst wordt in paragraaf 2.4.2 ingegaan op het gebruik van een taxonomie
bij het in kaart brengen van eindtermen en leerdoelen.

2.4.2   Taxonomie

Een taxonomie is een hiërarchisch classificatiesysteem voor het formuleren en ordenen van eindtermen
en leerdoelen. In de loop van de tijd zijn verschillende taxonomieën bedacht, die onderling veel
overeenkomsten vertonen. In elke taxonomie is bijvoorbeeld een gedragscomponent en een inhoudscom-
ponent te onderscheiden.
In dit handboek wordt de taxonomie van Romiszowski (1981) gehanteerd. De reden hiervoor is dat in
deze taxonomie een duidelijk accent ligt op vaardigheden. Bovendien wordt zijn indeling in het
gezondheidszorgonderwijs inmiddels vaak gehanteerd.
Romiszowski onderscheidt allereerst kennis en vaardigheden. Onder kennis verstaat hij ’informatie
opgeslagen in de hersenen’; iemand heeft kennis of heeft die niet. Kennis vormt de basis voor
vaardigheden. Vaardigheden zijn acties die iemand uitvoert om een bepaald doel te bereiken;
vaardigheden ontwikkelen zich door ervaring en oefening, iemand kan dus in meer of mindere mate over
een bepaalde vaardigheid beschikken. Het niet volmaakt beheersen van een vaardigheid kan betekenen
dat iemand alle delen kan uitvoeren, maar op een lager niveau van precisie of productiviteit.
In het beroepsonderwijs wordt steeds meer uitgegaan van het goed kunnen functioneren in de
beroepspraktijk. De leerling moet bepaalde beroepsvaardigheden kunnen uitoefenen. Voor het juist
uitvoeren heeft hij ook kennis nodig; kennis is voorwaardelijk.




                                                                                                      15
Hoofdstuk 2



Kennis
In tabel 2 is weergegeven op welke wijze kennis door Romiszowski wordt opgesplitst.

              tabel 2 - Het kennisdomein volgens Romiszowski
                                                          concrete feiten
                                           feiten         verbale informatie
                                                          feitelijke systemen
                            feitelijk
                                                          ketens
                                           procedures     discriminaties
                                                          algoritmen
              kennis
                                                          concrete begrippen
                                           begrippen      abstracte begrippen
                                                          begrippensystemen
                            begripsmatig
                                                          natuurprincipes
                                           principes      handelingsprincipes (heuristieken)
                                                          regelsystemen



Bij feitelijke kennis gaat het om herinneren of herkennen van feiten of procedures. Bij feiten gaat het
om objecten, gebeurtenissen, namen e.d. Bij procedures richt de kennis zich op de juiste handelwijze in
een specifieke situatie.
Er is sprake van begripsmatige kennis wanneer er inzicht aan te pas komt. Hierbij kan een onderscheid
worden gemaakt in begrippen en principes. Bij begrippen gaat het om min of meer abstracte klassen,
zoals (van concreet naar abstract) ’rood’, ’kleur’ en ’fysieke eigenschappen’. Bij principes gaat het om
het kennen van regels die onze handelingen kunnen sturen of veranderingen kunnen verklaren.

Vaardigheid
Romiszowski onderscheidt vier soorten vaardigheden:
– cognitieve vaardigheden: het toepassen van kennis, het controleren en benutten van de geestelijke/in-
   tellectuele vermogens;
– psychomotorische vaardigheden: het uitvoeren van fysieke, motorische handelingen, gebruikmakend
   van kennis en inzicht;
– reactieve vaardigheden: het hanteren van emoties, aandacht hebben voor, (beroeps)houding tonen,
   handelen overeenkomstig een waardensysteem;
– interactieve vaardigheden: het hanteren van sociale en communicatieve aspecten in de dagelijkse
   omgang met anderen, tijdens overleg en bij samenwerking.

Voor elke categorie wordt door Romiszowski vervolgens een onderscheid gemaakt in reproductieve en
productieve vaardigheden. Het kenmerk van reproductieve vaardigheden is dat ze min of meer
geautomatiseerd verlopen; leerdoelen zijn reproductief als ze verwijzen naar vaardigheden die een
leerling volgens een vaststaande procedure, een duidelijk voorschrift of protocol uitvoert. In een nieuwe
situatie kan de leerling deze vaardigheid min of meer vanzelf reproduceren.
Het kenmerk van productieve vaardigheden is dat er een creatieve, planmatige aanpak voor nodig is.
Leerdoelen zijn productief als ze verwijzen naar vaardigheden die de leerling in een nieuwe situatie moet
uitvoeren zonder dat daarbij teruggevallen kan worden op een vaste procedure of vast handelingsvoor-



16
De plaats van meten en beoordelen in het didactisch proces



schrift. De leerling moet in dit geval geleerde principes en strategieën kunnen toepassen in een nieuwe
situatie. Een nadere uitwerking is te vinden in tabel 3.

Een reproductieve vaardigheid kan een productieve vaardigheid worden zodra de leerling de vaardigheid
moet kunnen toepassen in een nieuwe situatie waarin hij de geleerde principes niet zonder meer – min
of meer automatisch – kan gebruiken. In dergelijke situaties moet hij een appèl doen op meerdere
verworven vaardigheden.
Voorbeelden:
Het injecteren van een patiënt is in principe een reproductieve psychomotorische vaardigheid. Maar dit
kan veranderen in een productieve vaardigheid als de patiënt die geïnjecteerd moet worden zeer agressief
gedrag vertoont en als dit voor de leerling een nieuwe situatie is waarin hij onvoldoende houvast heeft
aan vaste handelingsvoorschriften.
Hetzelfde geldt voor de in principe reproductieve vaardigheid ’wassen en aankleden van een patiënt’.
Bij een patiënt met hevige spasmen zou het weleens een productieve vaardigheid kunnen zijn.

tabel 3 - Vaardigheden volgens Romiszowski
                                     reproductieve vaardigheden          productieve vaardigheden
cognitieve vaardigheden              berekenen wanneer een infuusfles    een verpleegplan opstellen
                                     vervangen moet worden
psychomotorische vaardigheden        bloeddruk meten in een routine-     een injectie toedienen
                                     situatie
reactieve vaardigheden               aandacht geven aan de patiënt       zelfverwerkelijking
interactieve vaardigheden            goede manieren hebben               leiderschap


Het grote voordeel van een indeling als die van Romiszowski is dat men daarmee een soms complexe
taak goed kan analyseren. Hierdoor wordt helderder welke vaardigheden vereist zijn voor het uitvoeren
van die taak. Ook bij het concretiseren van eindtermen in leerdoelen biedt een taxonomie houvast.

2.4.3   Leerdoelen

Een leerdoel is pas echt een leerdoel als een verschil kan worden waargenomen tussen leerlingen die het
doel hebben bereikt en leerlingen voor wie dat (nog) niet het geval is. Zo’n verschil biedt een eerste
aanzet voor toetsontwikkeling. Leerdoelen kunnen alleen gerealiseerd worden als valt na te gaan of ze
bereikt zijn, dus ieder leerdoel moet precies gedefinieerd worden. Wat niet precies kan worden
beschreven, is lastig te verantwoorden, nog moeilijker te onderwijzen en onmogelijk te toetsen!

Een toetsbaar leerdoel is constateerbaar en meetbaar. ’Constateerbaar’ wil zeggen dat kan worden
waargenomen of een leerling het leerdoel heeft bereikt. ’Meetbaar’ houdt in dat de mate waarin het
leerdoel is bereikt, kan worden gekwantificeerd. Dat wil zeggen in een waarde kan worden uitgedrukt,
bijv.: 1 = bereikt, 0 = niet bereikt, ½ = gedeeltelijk bereikt; 10 punten = geheel bereikt, 8 punten = voor
80% bereikt, etcetera.
Het formuleren van een leerdoel op een zodanige manier dat bereiken ervan constateerbaar is, heet
concretiseren. Het zodanig formuleren van een leerdoel dat de mate van realisatie meetbaar is, heet
operationaliseren. Concretiseren en operationaliseren worden wel in één woord samengevat met
specificeren.




                                                                                                        17
Hoofdstuk 2



Voor de specificatie van leerdoelen gelden enkele algemene regels:

1    Omschrijf een leerdoel als resultaat van een leerproces, dus als een leereffect.

     Voorbeeld: ’Voorkomen en bestrijden van doorliggen bij bedlegerige patiënten’ (als resultaat van de
     opleiding) en niet: ’De verpleegkundige doordringen van de noodzaak om doorliggen bij bedlegerige
     patiënten te voorkomen en te bestrijden’ (deze formulering heeft immers betrekking op het
     instructieproces).

2    Geef onder elk leerdoel een representatief aantal voorbeelden van wat de leerling moet kunnen als
     hij het leerdoel heeft bereikt.

     ’representatief’ wil hier zeggen: als het profiel van de leerling beantwoordt aan de voorbeelden, heeft
     hij het gestelde leerdoel bereikt.

     Voorbeeld: ’Zorgt stelselmatig voor een gladde en droge onderlaag bij bedlegerige patiënten’.

3    Begin iedere formulering met een werkwoord dat een waarneembaar gedrag aanduidt.

     Dus niet: ’De leerling dient in staat te zijn om getallen van twee cijfers op te tellen’, maar: ’Telt
     getallen van twee cijfers op’; al het andere is overbodig.
     En ook niet: ’Beheerst de regels van het optellen van meercijferige getallen’. Hierbij wordt niet
     meteen duidelijk, hoe die beheersing moet blijken. Denkbaar is bijvoorbeeld dat de leerling die regels
     zelf zou moeten formuleren!

     Werkwoorden of werkwoordelijke omschrijvingen die een waarneembaar gedrag aanduiden, zijn
     bijvoorbeeld: aanwijzen, beschrijven, berekenen, citeren, definiëren, de verschillen aangeven tussen,
     een onderscheid maken tussen, een verklaring geven van, een voorbeeld geven van, noemen, noteren,
     opsommen, opstellen (bijv. van een grafiek). Bij het definiëren van beroepsvaardigheden worden in
     de regel werkwoorden gebruikt die naar observeerbare handelingen verwijzen.

4    Vermeld de voorwaarden/omstandigheden waaronder het gedrag vertoond moet worden.

5    Noem de normen waaraan het gedrag moet voldoen.

     Voorbeeld: ’Typt [waarneembaar gedrag] een geschreven concept over in WP 5.1 [voorwaarden/om-
     standigheden: de tekst wordt in geschreven vorm aangeboden en als tekstverwerker moet WP 5.1
     gebruikt worden] met minimaal 100 aanslagen per minuut waarbij maximaal 5 fouten per getypte
     pagina mogen worden gemaakt [norm]’.

     Voorbeeld: ’Geeft aan welke zuigelingen niet gebaad mogen worden’. In deze vorm is het leerdoel
     wel erg open; moet de leerling een sluitende opsomming van alle mogelijke en denkbare gevallen
     leveren? Alternatief:

     ’Geeft aan welke zuigelingen wel en welke niet gebaad mogen worden, gegeven de volgende
     aandoeningen [volgt een lijst die de voorwaarden/omstandigheden preciseert waaronder het gewenste
     gedrag – aangeven wel of niet – vertoond moet worden]’.




18
De plaats van meten en beoordelen in het didactisch proces



    Een leerdoel dat volgens de regels 1 t/m 5 geformuleerd is, heeft het karakter van een taakomschrij-
    ving.


    Andere voorbeelden:

    ’Noemt 6 van de 10 verschillen tussen ziekte A en ziekte B als vermeld in het leerboek (p. 316 -
    321).’

    ’Voert bij 90% van de patiënten een venapunctie zodanig uit, dat 1) de patiënt niet meer pijn heeft
    dan nodig is en 2 het buisje zich met bloed vult.’

6   Splits complexe taakomschrijvingen uit, waardoor ze overzichtelijker worden.

    Dus niet: ’Maakt een onderscheid tussen vier toedieningswijzen van injecties naar werkingsduur,
    injectieplaats, opnamesnelheid en gevaar’, maar:
    1 Noemt vier toedieningswijzen van injecties.
    1.1     Geeft daarbij het orgaan aan, waar de injectievloeistof het eerst terechtkomt.
    1.2     Rangschikt de toedieningswijzen naar werkingsduur/opnamesnelheid.
    1.3     Noemt per toedieningswijze twee risico’s voor de patiënt.

2.4.4   Het toetsen van kennis en vaardigheden

Ook bij de toetsconstructie is het zinvol gebruik te maken van de taxonomie van Romiszowski. Dat geldt
zeker als het gaat om meetinstrumenten of beoordelingsprocedures ten behoeve van meer complexe
taken. Door het vooraf analyseren van de leerdoelen en de kennis- en vaardigheidscomponenten waaruit
deze leerdoelen bestaan, verkrijgt men een goed beeld van de complexiteit van de taak.
Een (sterk vereenvoudigd) voorbeeld maakt dit duidelijk:
Er moet een observatielijst ontwikkeld moet worden voor de taak ’begeleiden van een patiënt met AIDS’.
De eerste stap om de complexiteit van de taak in beeld te krijgen, zal bestaan uit het analyseren van de
vaardigheden die in deze taak aan de orde zijn.
Dit kan leiden tot de volgende vaardigheden:
– cognitieve vaardigheden;
– reactieve vaardigheden;
– interactieve vaardigheden.
De volgende fase zal zijn om iedere vaardigheid nader te analyseren.
Dit kan leiden tot een verdere verfijning van cognitieve vaardigheden in de vorm van:
. toepassen van kennis en inzicht in de aandoening;
. toepassen van kennis en inzicht in stervensbegeleiding;
Deze cognitieve vaardigheden vormen in de uitvoering van de taak de voorwaarde voor de andere
vaardigheden.
Voor de reactieve component kan dit de volgende deelvaardigheden opleveren:
. kunnen hanteren van eigen emoties en die van de patiënt;
. aandacht hebben voor de patiënt en diens emoties en gevoelens;
. beroepshouding tonen;
. handelen volgens een waardensysteem;
Voor de interactieve component kunnen de deelvaardigheden er als volgt uitzien:
. kunnen communiceren met de patiënt en diens relaties;
. voorlichting kunnen geven aan de patiënt en diens relaties.
Indien zinvol zou men de deelvaardigheden nog verder kunnen analyseren.

                                                                                                     19
Hoofdstuk 2



Door op deze wijze een taak uiteen te rafelen in deelvaardigheden, daarbij desgewenst ook nog aan te
geven of het gaat om reproductieve of om productieve vaardigheden, verkrijgt men een gestructureerde
lijst met observatiepunten.
Het is dan vervolgens aan de inhoudsdeskundigen om vast te stellen of de observatiepunten tezamen de
taak ’dekken’ (validiteitsvraag) en of elk observatiepunt even zwaar weegt in de beoordeling etcetera.
Hierop wordt in dit hoofdstuk verder niet ingegaan.

Uit dit voorbeeld wordt duidelijk dat de meeste taken in de beroepssituatie bestaan uit verschillende
vaardigheden of, zoals dat ook wel genoemd wordt, een ’mix van componenten’ (Dochy, 1995).
In het begin van de opleiding of module hebben taken vaak betrekking op één soort vaardigheid (meestal
cognitief of psychomotorisch). Naarmate de opleiding vordert, worden de taken complexer en staan de
taken dichter bij de werkelijke praktijk; de taken omvatten dan vaak meer dan één vaardigheid. Daarbij
is het vaak moeilijk aan te geven welke component het grootste stempel drukt op de taak.

2.5     Ordeningsmogelijkheden voor toetsvormen

In dit handboek wordt een scala aan toetsvormen gepresenteerd, worden aanwijzingen gegeven voor de
constructie of aanschaf en worden eisen geformuleerd waaraan toetsen moeten voldoen. Het belangrijkste
punt is misschien echter wel de keuze voor een bepaalde toetsvorm. Welke toets uit de hele scala is op
welk moment in het didactische proces nu het meest geschikt? Op deze vraag wordt in deze paragraaf
vanuit twee verschillende invalshoeken een eerste antwoord gegeven.

2.5.1   Aansluiting bij de leerdoelen: de ’fit’

Als na analyse duidelijk is uit welke inhoud en vaardigheden een taak bestaat en de leerdoelen daarmee
duidelijk geworden zijn, moet vervolgens de passende toetsvorm worden gekozen. De toetsvorm wordt
bepaald door de eindtermen/leerdoelen. De mate waarin de toets past bij de beschreven doelstellingen
wordt wel de ’fit’ genoemd (P. Cras in Kessels & Smit, dl. 10).
Uit oogpunt van validiteit (zie par. 3.3) is het van belang dat de toets meet wat men beoogt te meten.
Het gewenste gedrag moet door de toets worden uitgelokt.
Als de leerling blijkens de leerdoelen een cognitieve vaardigheid moet beheersen, bijvoorbeeld het
kunnen uitleggen van een procedure, zal de toetsvorm zodanig moeten zijn dat de leerling deze
vaardigheid ook daadwerkelijk kan tonen. In zo’n geval zal dan van een schriftelijke toets of een
mondelinge opdracht worden gebruikt. Als de leerling moet tonen dat hij een bepaalde handeling correct
kan uitvoeren, zal hem in de toets ook de opdracht gegeven moeten worden om deze handeling uit te
voeren.

In het kader van het beoordelen van toetsen wordt wel een viertal ’fits’ onderscheiden.
1 Perfect fit: de uitvoering van de toetsopdracht levert de gewenste informatie op over de prestaties
    van de leerling. Het is goed mogelijk op basis daarvan uitspraken te doen over het beheersen van
    de leerdoelen.
    Voorbeeld:
    Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt.
    Toetsvorm:     In een vooraf bepaalde zorgsituatie de leerling een anamnesegesprek laten voeren met
                   een patiënt.
2 Fair fit: de uitvoering van de toetsopdracht levert met enige beperking (door de toetsopdracht zelf
    en/of door de situatie waarin wordt getoetst) informatie op over de prestaties van de leerling.
    Uitspraken over het beheersen van de leerdoelen kunnen met enig voorbehoud worden gedaan.
    Voorbeeld:
    Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt.

20
De plaats van meten en beoordelen in het didactisch proces



    Toetsvorm:       In een rollenspel, waarin een medeleerling de rol van patiënt speelt, de leerling een
                     anamnesegesprek laten voeren met ’de patiënt’.
3   Conditional fit: de uitvoering van de toetsopdracht levert informatie op over het beheersen van voor
    de leerdoelen noodzakelijke voorwaarden. Dit is echter een onvoldoende basis om uitspraken te doen
    over het daadwerkelijk beheersen van de leerdoelen.
    Voorbeeld:
    Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt.
    Toetsvorm:       De leerling schriftelijk of mondeling laten beschrijven waaruit de voorbereiding,
                     uitvoering en afhandeling van een anamnesegesprek bestaat.
4   Misfit: de uitvoering van de toetsopdracht levert informatie op waarmee op geen enkele wijze
    uitspraken gedaan kunnen worden over het beheersen van de leerdoelen. De validiteit van de meting
    is in dit geval dus slecht.
    Voorbeeld:
    Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt.
    Toetsvorm:       De leerling een schriftelijke toets voorleggen over communicatiemodellen.

Het zal duidelijk zijn dat in principe steeds naar een perfect fit dient te worden nagestreefd.
Opgemerkt dient ook te worden dat de grens tussen perfect fit en fair fit niet altijd even scherp te
trekken is: het kan zijn dat de rol door de medeleerling dermate goed gespeeld wordt dat er een situatie
ontstaat die in feite als perfect fit aan te merken is.

2.5.2   Aansluiting bij de beroepspraktijk: de representativiteit

In de vorige paragraaf is betoogd dat de keuze van de toetsvorm bepaald wordt door de leerdoelen die
men wil meten. Een schriftelijke toets met open vragen kan een perfect fit betekenen als men als
doelstelling heeft de cognitieve vaardigheden te meten met betrekking tot bepaalde leerinhouden.
Dezelfde toets zal een misfit zijn als men als doelstelling heeft de leerling zijn psychomotorische en/of
reactieve of interactieve vaardigheden te laten tonen met betrekking tot die leerinhouden.
Dit betekent dat er over de geschiktheid van een toetsvorm alleen maar een uitspraak kan worden gedaan
in relatie tot de leerdoelen die de toets moet meten.

Zolang de leerdoelen één bepaalde vaardigheid bevatten, bijvoorbeeld de cognitieve vaardigheid, kan er
een duidelijke uitspraak gedaan worden over de best passende toetsvorm. Dat wordt aanzienlijk
ingewikkelder naarmate leerdoelen meer vaardigheden omvatten. Dat brengt ons op de tweede
invalshoek: de mate van representativiteit van de toets voor de praktijksituatie.
De representativiteit van een toets wordt bepaald door de volgende twee eigenschappen: omvattendheid
en natuurgetrouwheid.
De omvattendheid van een toets wordt groter naarmate meer verschillende taaksituaties (die wel allemaal
een beroep doen op dezelfde vaardigheden) worden aangeboden. Het wordt daardoor meer verantwoord
om uitspraken te doen over taaksituaties die niet in de toets zijn opgenomen.
Met natuurgetrouwheid wordt bedoeld de mate waarin de taaksituatie een afspiegeling is van de
taakuitvoering in een reële werksituatie.
Hoe groter de representativiteit van de toets, des te groter de rechtvaardiging om op basis van de
toetsprestatie uitspraken te doen over de competentie van leerlingen.

Om duidelijk te maken hoe de ’fit’ (of mate van validiteit) en de representativiteit zich tot elkaar
verhouden, worden in afbeelding 10 beide begrippen geïllustreerd. De verticale pijlen geven de relatie
tussen leerdoelen en toetsvorm (de ’fit’). De horizontale pijl geeft de mate van representativiteit aan. In
de loop van een bepaalde leereenheid (bijv. een module) of van de gehele opleiding verschuiven de



                                                                                                        21
Hoofdstuk 2



leerdoelen van ’theorie’ naar ’praktijk’ of – anders gezegd – van ’overwegend cognitief’ (aan de
linkerkant) naar ’een mix van vaardigheden’ (aan de rechterkant).
De werkelijke beroepspraktijk wordt in de loop van de opleiding dus steeds meer benaderd. De taken
worden derhalve ook complexer.
De toetsen die op deze leerdoelen betrekking hebben, verschuiven op overeenkomstige wijze: de verticale
pijlen moeten voor een ’perfect fit’ loodrecht naar beneden lopen.




                                afb. 10 - Evaluatie van het onderwijs


In het begin van de leereenheid of opleiding hebben de toetsen voornamelijk betrekking op de theorie/de
cognitieve vaardigheden. Deze toetsen zijn meestal weinig representatief voor de praktijksituatie en
meten meestal voorwaardelijke kennis en inzicht.
Aan het eind van de leereenheid of opleiding heeft de toetsing betrekking op alle relevante vaardigheden
die de leerling volgens de leerdoelen in de praktijksituatie moet beheersen. De toetsing vindt dan zo
natuurgetrouw en volledig mogelijk plaats.
Anders gezegd: de toetsing loopt gedurende de opleidingsfase van ’laag representatief’ via ’gemiddeld
representatief’ naar ’hoog representatief’.
Zolang het meetinstrument meet wat het moet meten (de leerinhoud en de vaardigheid die in het leerdoel
beschreven staan), is de toets valide en is er sprake van een perfect fit.

Representativiteit als indelingsprincipe voor de toetsvormen in dit handboek
Op basis van het uitgangspunt van representativiteit (de relatie tussen de toetsvorm en de beroepsprak-
tijk) is een indeling van toetsvormen tot stand gekomen zoals weergegeven in tabel 4 (zie ook
Straetmans, 1994).



22
De plaats van meten en beoordelen in het didactisch proces



tabel 4 - Indeling toetsvormen naar representativiteit

representativiteit   omschrijving                        voorbeelden
laag                 niet natuurgetrouw, meestal één     •   toetsen met gesloten vragen
                     vaardigheid                         •   toetsen met open vragen
                                                         •   casustoetsen
                                                         •   potlood-en-papier-toetsen
gemiddeld            matig natuurgetrouw, vaak meer      • computersimulatie, beeldplaat
                     dan één vaardigheid                 • simulator
                                                         • skill sample test
hoog                 hoog tot zeer hoog natuurge-        • patiëntsimulatie
                     trouw, integratie van vaardighe-    • work sample test / praktijktoetsing op de werkplek
                     den


In het handboek worden de toetsvormen gepresenteerd van laag representatief naar hoog representatief.
In principe moet gekozen worden voor een toetsvorm die wat representativiteit betreft perfect aansluit
bij de betreffende leerdoelen c.q. het voorafgaande onderwijs. Om verschillende redenen, die in de
volgende hoofdstukken aan de orde komen, moeten soms concessies worden gedaan ten aanzien van dit
uitgangspunt. Dat betekent over het algemeen dat genoegen moet worden genomen met een toetsvorm
die iets minder representatief is dan het leerdoel. Door nu de toetsvormen te rangschikken naar
representativiteit kan een optimaal compromis gevonden worden tussen wat enerzijds wenselijk en
anderzijds haalbaar is.




                                                                                                           23
3 Kwaliteitseisen voor de toets als meetinstrument




De beslissingen die genomen worden op grond van de meting van leerresultaten hebben vaak
vérstrekkende consequenties voor de leerlingen. Zij hebben dan ook recht op kwalitatief goede
meetinstrumenten en beoordelingsprocedures. Ook moeten zij zich op een adequate manier kunnen
voorbereiden op de meting. Dit impliceert dat zij een duidelijk beeld moeten hebben van wat er van hen
verwacht wordt.
Daarbij is het ook van belang zich te realiseren dat het studiegedrag van leerlingen in het algemeen sterk
gestuurd wordt door toetsing (examens, toetsen en beoordelingsprocedures): wat niet getoetst wordt,
wordt nauwelijks geleerd. Dit heeft rechtstreeks consequenties voor het onderwijs.
Dat daarmee een zware verantwoordelijkheid ligt bij ’de toetsing’ (het meetinstrument, de procedures
en de constructeurs hiervan) moge duidelijk zijn. Het is dus een absolute noodzaak dat het meetinstru-
ment en de beoordelingsprocedures zélf voortdurend onderwerp van kwaliteitszorg zijn. Vragen als: ’Hoe
valide en hoe betrouwbaar zijn de gegevens van de toets of de beoordelingsprocedure?’, ’Weet de
leerling van tevoren wat er van hem verwacht wordt?’ en ’Hoe aanvaardbaar zijn de beslissingen voor
de leerlingen, de opleiding, de overheid, de maatschappij?’ zijn terecht gestelde vragen in het kader van
een verantwoorde meting. Als externe instanties, zoals ministerie of zorginstellingen, zich een oordeel
willen vormen over de kwaliteit van de opleiding, zal de wijze waarop deze opleiding gestalte geeft aan
het toetsingsbeleid en de kwaliteitseisen die daaraan gesteld worden een belangrijk element in de
beoordeling van de kwaliteit van de opleiding zijn.

In dit hoofdstuk wordt ingegaan op de belangrijkste kwaliteitseisen die aan een examen, toets of
beoordelingsprocedure gesteld worden.
In paragraaf 3.1 wordt eerst ingegaan op de objectiviteit van metingen.
Vervolgens komt in paragraaf 3.2 het begrip betrouwbaarheid aan de orde. Daarbij wordt tevens ingegaan
op het schatten van de (standaard)meetfout.
Daarna wordt in paragraaf 3.3 het begrip validiteit besproken.
In paragraaf 3.4 wordt aandacht besteed aan de kwaliteitseisen: efficiëntie, transparantie, aanvaardbaar-
heid en specificiteit.
Vervolgens wordt in paragraaf 3.5 ingegaan op het spanningsveld tussen betrouwbaarheid, validiteit en
efficiëntie.
Ten slotte wordt in paragraaf 3.6 een aantal aandachtspunten gepresenteerd ter verhoging van de kwaliteit
van een meetinstrument of beoordelingsprocedure.


3.1    Objectiviteit

Objectiviteit betekent beoordelaarsonafhankelijkheid. Een meting is objectief als de prestaties van de
leerlingen – ongeacht de beoordelaar of de beoordelingssituatie – steeds hetzelfde beoordeeld of
gewaardeerd worden.
Maar zolang er mensen betrokken zijn bij het beoordelen, is er altijd sprake van een zekere mate van
subjectiviteit. Om die reden wordt objectiviteit ook wel opgevat als intersubjectiviteit oftewel de mate
waarin twee of meer (per definitie subjectieve) beoordelingen met elkaar overeenstemmen.

24
Kwaliteitseisen m.b.t. de toets als meetinstrument



Door objectiviteit van een beoordeling te omschrijven als intersubjectiviteit ontstaat er een mogelijkheid
om de mate van objectiviteit te bepalen. Door twee of meer beoordelaars onafhankelijk van elkaar een
beoordeling te laten uitvoeren en te bepalen hoe de resultaten daarvan onderling correleren, is de
objectiviteit vast te stellen. Men spreekt in dit geval ook wel van interbeoordelaarsbetrouwbaarheid.
Men kan op dezelfde wijze ook de objectiviteit verhogen: door de toetsprestaties van leerlingen door
minimaal twee beoordelaars te laten beoordelen en de beoordelaars vervolgens de uitkomsten hiervan
met elkaar te laten vergelijken en bespreken, kan een zekere mate van overeenstemming tussen de
beoordelaars worden bereikt. De invloed van een mogelijk subjectief oordeel van een individuele
beoordelaar wordt op deze wijze ’geneutraliseerd’.
Deze manier is met name geschikt voor het verantwoord beoordelen van prestaties van leerlingen op
open vragen (lang antwoord) of bij het beoordelen van praktische vaardigheden, omdat hierbij in het
algemeen minder gemakkelijk sluitende antwoordmodellen te maken zijn en de kans op interpretatiever-
schillen tussen de beoordelaars dus groter is.

In zijn algemeenheid is er over objectiviteit een aantal uitspraken te doen:
– Objectiviteit is geen ’hard gegeven’, maar een intentie om subjectieve elementen in de beoordeling
    zoveel mogelijk uit te schakelen en daarmee de ’eerlijkheid’ in de beoordeling van de prestaties van
    leerlingen te bevorderen.
– De objectiviteit van een beoordeling neemt toe indien de beoordelaar gebruikmaakt van vooraf
    opgestelde antwoordmodellen, beoordelingsprocedures of -protocollen en deze bij elke leerling op
    eenzelfde wijze hanteert. Men noemt dit ook wel ’standaardisatie’ van de beoordelingsprocedure.
– Alleen als de verwerking van de prestaties van leerlingen op een toets via een volledig gestandaardi-
    seerde procedure (bijv. door de computer) wordt verricht, is er sprake van een volledige objectiviteit.
    Er komt immers geen beoordelaar meer aan te pas: de toetsprestaties van de leerlingen worden alle
    volgens dezelfde maatstaven beoordeeld op basis van vooraf vastgestelde criteria (sleutels,
    antwoordmodellen, procedures).
– Naarmate de beoordelingssituatie complexer is, is het moeilijker eenduidige beoordelingsmodellen
    te ontwikkelen en is de kans op subjectiviteit dus groter. Het verdient daarom aanbeveling – zeker
    bij het toetsen van praktische vaardigheden – om ervoor te zorgen dat de te beoordelen praktijksitua-
    tie overzichtelijk en hanteerbaar is (zijn) voor de beoordelaar. Een praktijkopdracht die qua omvang
    beperkt is en waarin de te beoordelen vaardigheden helder zijn voor alle betrokkenen, biedt een
    grotere kans op objectiviteit dan een veel ruimere opdracht.
– Naarmate de te beoordelen vaardigheden meer concreet en direct waarneembaar zijn, is de kans op
    een objectieve uitspraak van de beoordelaar groter.
    Beoordelaars zullen eerder tot eenzelfde oordeel over de prestatie van een leerling komen als het gaat
    om instrumenteel-technische vaardigheden (bijv. het kunnen verwisselen van een infuus) dan bij het
    beoordelen van sociale of communicatieve vaardigheden.
– Wanneer in een kort tijdsbestek meerdere leerlingen moeten worden beoordeeld op eenzelfde
    vaardigheid of in een gelijksoortige beoordelingssituatie, kan de objectiviteit geschaad worden
    doordat de beoordelaar de prestaties van de leerlingen onbewust met elkaar vergelijkt (volgorde- of
    sequentie-effect). In dat geval voegt de beoordelaar in feite – naast de aanwezige protocollen of
    antwoordmodellen – nog een ’eigen’ beoordelingscriterium toe. In paragraaf 8.2 worden suggesties
    gegeven om dergelijke beoordelaarseffecten te minimaliseren.
– De objectiviteit van een meetinstrument of van een beoordelingsprocedure speelt een niet
    onbelangrijke rol bij de betrouwbaarheid van het meetinstrument. Hierover gaat de volgende
    paragraaf.




                                                                                                        25
Hoofdstuk 3



3.2     Betrouwbaarheid

Het doel van meten en beoordelen van leerresultaten van leerlingen is zo zuiver mogelijk vast te stellen
of de leerling de beoogde leerdoelen beheerst. De toetsprestaties van de leerling (goed of slecht) moeten
daarbij ook werkelijk aan deze leerling toegeschreven kunnen worden en niet aan diverse omliggende
factoren. Voorbeelden van factoren die de toetsprestaties (onbewust en onbedoeld) beïnvloeden, zijn de
patiëntensituatie, de te krappe tijd voor de toetsopdracht, het gokken van antwoorden of het niet-
gestandaardiseerd zijn van een toetssituatie.
Ook een subjectieve beoordeling van de toetsprestaties door de beoordelaar is een factor die de
betrouwbaarheid van de meting schaadt. Immers: de ene beoordelaar zal dan tot een andere uitspraak
komen over de leerresultaten van de leerling dan zijn collega.

Bij betrouwbaarheid gaat het om vragen als: ’Zijn de uitkomsten van de meting gelijk als deze wordt
verricht door verschillende personen?’ of ’Als we deze toets overmorgen weer afnemen, zijn de
toetsresultaten dan hetzelfde?’ of ’Zijn de toetsprestaties van de leerling gelijk ongeacht de
patiëntensituatie?’.

De betrouwbaarheid van een meetinstrument geeft aan de mate waarin het meetinstrument consistent is
bij het meten: de mate waarin de meetresultaten nauwkeurig en reproduceerbaar (d.w.z. vrij van
meetfouten) zijn.
Het zal duidelijk zijn dat de meting zuiverder en de toetsuitslag dus betrouwbaarder is naarmate de
invloed van bovengenoemde factoren op de toetsing geringer is.

3.2.1   Schatting van de betrouwbaarheidscoëfficiënt

De betrouwbaarheid van een toets wordt meestal uitgedrukt in een correlatiecoëfficiënt. Dat is een maat
voor de relatie tussen twee reeksen getallen (bijv. tussen de scores op toets A op tijdstip X en de scores
op dezelfde toets op tijdstip Y). De betrouwbaarheid van toets A, uitgedrukt in een correlatie-coëfficiënt,
kan variëren van 0 tot 1. Een correlatie van 0 wil zeggen dat er geen enkel verband is tussen de scores
op de tijdstippen X en Y. Dat kan alleen voorkomen als de scores op basis van toeval aan de leerlingen
zijn toegekend. Zo’n toets is uiteraard niet informatief met betrekking tot de hoeveelheid kennis die
leerlingen bezitten. Als de correlatie 1 bedraagt, zijn de scores op tijdstip Y perfect te voorspellen vanuit
de scores op tijdstip X. (Hierbij is het niet noodzakelijk dat de scores op tijdstip X en Y identiek zijn.
Wél moet de rangorde van leerlingen op basis van hun toetsscores identiek zijn.) Toets A meet dan met
een maximale nauwkeurigheid. Beide extreme waarden zijn, zoals gezegd, echter alleen in theorie
bereikbaar!

Voor het uitdrukken van de betrouwbaarheid van een toets in de vorm van een correlatiecoëfficiënt, is
het een vereiste dat men beschikt over twee reeksen toetsscores die bij dezelfde leerlingen verzameld
zijn. Deze twee reeksen kunnen op verschillende manieren tot stand gekomen zijn:
– door herhaalde afname van de toets;
– door de afname van een paralleltoets (d.i. een gelijkwaardige versie van de originele toets);
– door de toets te verdelen in twee helften (bijv. een deel van een toets bestaande uit opgaven met
    even volgnummers en een deel bestaande uit opgaven met oneven volgnummers), de zogenaamde.
    splitsingsmethode.
Deze methoden zijn te herkennen in afbeelding 11 (Drenth en Sijtsma, 1990). In dit overzicht is ook een
vierde methode opgenomen, die gebaseerd is op de covarianties tussen alle individuele items: de interne-
consistentie-methode.




26
Kwaliteitseisen m.b.t. de toets als meetinstrument




                           afb. 11 - Methoden voor betrouwbaarheidsschatting


Test-hertest-methode
De leerlingen krijgen twee keer dezelfde toets voorgelegd met een bepaald interval tussen beide
toetsafnamen. Vervolgens wordt de correlatie berekend tussen de resultaten van de eerste en de tweede
afname.
Aan deze methode kleven echter bezwaren. De leerlingen herinneren zich wellicht nog antwoorden die
ze bij de vorige afname gegeven hebben of profiteren misschien op een andere manier van de eerdere
ervaring. Daarbij is het niet duidelijk of alle leerlingen in gelijke mate van deze ’oefensituatie’ profiteren.
Een praktisch bezwaar van deze methode is bovendien dat het meestal aan tijd zal ontbreken om
leerlingen twee keer dezelfde toets te laten maken. Deze methode wordt om die reden niet nader
uitgewerkt.

Parallelvorm-methode
Bij eenzelfde groep leerlingen worden op dezelfde dag of met een bepaald tijdsinterval tussen beide
afnamen, twee paralleltoetsen afgenomen. Vervolgens wordt de correlatie berekend tussen de
toetsresultaten op de eerste toets en die op de paralleltoets.
Deze methode komt aan enkele methodologische bezwaren van de test-hertest-methode tegemoet. Toch
wordt er in dit handboek geen uitwerking aan gegeven omdat ook deze methode een groot beroep doet
op extra tijdsinvestering van zowel docent als leerlingen.

Splitsingsmethode
Deze methode is bruikbaar in de onderwijspraktijk omdat leerlingen geen extra toets hoeven te maken
en docenten geen extra tijd hoeven te investeren in de constructie van een paralleltoets. De twee
scorereeksen die nodig zijn om een schatting te maken van de betrouwbaarheid, worden op kunstmatige
wijze ontleend aan één afname. De opgaven waaruit de toets bestaat, worden verdeeld over twee
toetsgedeelten (bijv. de ene toets bevat alle even vraagnummers en de andere toets bevat alle oneven
vraagnummers). Vervolgens kan de correlatie tussen beide delen van de toets berekend worden.
De totale toets moet in dit geval wel voldoende beoordelingspunten bevatten om nog twee ’bruikbare’
toetsgedeelten over te houden.
Het belangrijkste probleem van deze methode schuilt echter in de wijze waarop de toetsopgaven verdeeld
worden over de twee delen; de bedoeling is dat de twee delen beschouwd kunnen worden als
paralleltoetsen. Elke wijze van opdeling leidt echter tot een (iets) andere betrouwbaarheidsschatting. Voor
dit probleem bestaat een oplossing, die tegenwoordig bekendstaat als de interne-consistentie-methode.




                                                                                                            27
Hoofdstuk 3



Interne-consistentie-methode
Deze methode verdeelt de toets niet echt in twee delen, maar levert een schatting op van de gemiddelde
betrouwbaarheid van alle mogelijke manieren om de toets te verdelen in helften.
De betrouwbaarheid die op deze manier geschat wordt zegt iets over de interne consistentie van de toets.
Interne consistentie verwijst naar het antwoordpatroon van de leerlingen.
In tabel 5 is een volledig consistent antwoordpatroon te zien (een ideaal-situatie!).

                   tabel 5 - Intern consistent antwoordpatroon
                                               leerlingen             moeilijkheidsgraad
                       opgaven
                                      1    2    3     4     5   6         opgaven

                           1          1    1    1     1     1   0             .84
                           2          1    1    1     1     0   0             .66
                           3          1    1    1     1     0   0             .66
                           4          1    1    1     0     0   0             .50
                           5          1    1    0     0     0   0             .33
                      toetsscore      5    5    4     3     1   0


De moeilijkheidsgraad van de opgaven is hier aangeduid met de p-waarde, d.i. het percentage leerlingen
dat deze opgave goed heeft gemaakt: hoe lager de p-waarde, hoe moeilijker de vraag voor deze groep
leerlingen was.
Het antwoordpatroon in dit schema geeft geen aanleiding om twijfels te uiten over de kwaliteit van de
toets. Dat zou anders zijn als bijvoorbeeld leerling 2 (een goede leerling) op opgave 2 (een relatief
gemakkelijke vraag) een fout antwoord had gegeven of als leerling 5 (een leerling met een lage
toetsscore) een correct antwoord op opgave 4 (een relatief moeilijke vraag) had gegeven.
Als dit soort onlogische antwoordpatronen veel voorkomt, zal de betrouwbaarheid van de toets laag zijn.

Het bepalen van de interne consistentie vergt vele berekeningen en is bij grote aantallen leerlingen alleen
haalbaar als men de beschikking heeft over een computerprogramma. Indien de scoring geautomatiseerd
is, wordt vaak ook de interne consistentie standaard berekend. De output vermeldt dan ofwel de KR-20
of coëfficiënt alpha. Coëfficiënt alpha (α) is wiskundig equivalent aan de KR-20 en wordt gebruikt
ingeval de antwoorden niet dichotoom gescoord kunnen worden met 0 (fout) en 1 (goed).
De formule voor het berekenen van alpha luidt als volgt:




Hier is n het aantal items in de toets, si2 de variantie van een item en st2 de variantie van de totale toets.
Omdat bij een dichotoom gescoorde vraag de variantie van een item (si2) gelijk is aan pi(1−pi), kan
gebruik worden gemaakt van een eenvoudiger formule, de KR-20:




28
Kwaliteitseisen m.b.t. de toets als meetinstrument




In deze formule is pi het percentage leerlingen dat item i juist heeft beantwoord. (1−pi is dan dus het
percentage leerlingen dat datzelfde item fout heeft beantwoord). Deze formule gaat ervan uit dat alle
items een gelijke standaarddeviatie bezitten.

Als er sprake is van een toets waarvan alle items ongeveer een gelijke moeilijkheidsgraad hebben, kan
een schatting verkregen worden van de hoogte van KR-20 met behulp van een formule die bekendstaat
als KR-21:




Hierbij is Mp de gemiddelde p-waarde voor alle items.

KR-21 geeft een onderschatting van KR-20. Die onderschatting wordt ernstiger naarmate de opgaven
in de toets meer variëren in moeilijkheidsgraad.

Betrouwbaarheid van beslissingen
Tot nu toe is steeds uitgegaan van de toets- of itemscores als basis voor het schatten van de
toetsbetrouwbaarheid. Het is ook mogelijk de betrouwbaarheid te schatten met als uitgangspunt de
beslissingen die naar aanleiding van de toetsscores genomen worden. Het gaat dan om beslissingen als
zakken vs. slagen, onvoldoende vs. voldoende of niet-beheerser vs. beheerser.
Voor dit type betrouwbaarheid moet een toets twee keer aan dezelfde leerlingen worden afgenomen (of
er moeten twee parallelversies worden afgenomen). De proportie consistente beslissingen is een maat
voor de beslissingsbetrouwbaarheid van de toets.

                 tabel 6 - Beslissingsconsistentie bij herhaalde toetsafname
                                                  tweede afname
                                                             onvoldoen-
                                              voldoende
                                                                 de
                                                 (a)              (b)
                                voldoende    consistente     inconsisten-      a+b
                      eerste                  beslissing     te beslissing
                     afname                       (c)            (d)
                                onvoldoen-
                                             inconsisten-    consistente       c+d
                                    de
                                             te beslissing    beslissing
                                                a+c             b+d          N=a+b+c+d

De beslissingsbe-
trouwbaarheid wordt berekend door:




                                                                                                     29
Hoofdstuk 3



De interpretatie van deze proportie is eenvoudig. Een proportie van 0.80 betekent dat over 80% van de
leerlingen bij de tweede afname dezelfde beslissing is genomen als bij de eerste afname. En dus dat er
bij 20% van de leerlingen een inconsistente beslissing is genomen.

3.2.2   Meetfouten

Als een persoon wordt opgemeten om te bepalen wat zijn lengte is, zal de nauwkeurigheid van die
meting niet perfect zijn. Dit komt tot uiting als niet één keer maar meer keren wordt gemeten: de eerste
keer levert bijvoorbeeld 183,5 cm op, de tweede keer 183,3 cm, etcetera. De ware score kan echter niet
bepaald worden: het is een theoretische waarde.
De Groot (1975) definieert de ware score als de gemiddelde score die een leerling zou halen wanneer
deze de toets onder alle mogelijke omstandigheden zou maken, aangenomen dat geen leereffecten of
vermoeidheidsverschijnselen zouden optreden.

Elke toetsscore is opgebouwd uit een ’ware score’ en een ’meetfout’. De ware score is datgene waar het
om gaat (de mate waarin de leerdoelen werkelijk beheerst worden); de meetfout is de onzuiverheid
waarmee gemeten wordt.
De meetfout kan de toetsscore ten onrechte hoger of lager doen zijn. Naarmate de verhouding tussen de
meetfout en de ware score ongunstiger wordt, neemt de kans op het nemen van verkeerde beslissingen
over leerlingen toe.

De   meetfout kan veroorzaakt worden door
–    het meetinstrument zélf en/of
–    de eigenschappen van de leerling en/of
–    de omstandigheden tijdens de toetsafname en/of
–    (interpretatie)verschillen bij de correctoren.

Het meetinstrument zélf veroorzaakt onnauwkeurigheid in de metingen als het extreem gemakkelijke of
moeilijke opgaven of opdrachten bevat: opgaven die niemand kan beantwoorden of die iedereen kan
beantwoorden; opdrachten die niemand kan uitvoeren of iedereen kan uitvoeren. Het is dan niet meer
duidelijk wat er gemeten wordt. Met andere woorden, er wordt onvoldoende gediscrimineerd
(onderscheid gemaakt) tussen ’goede’ en ’zwakke’ leerlingen. Normaliter is immers te verwachten dat
relatief moeilijke vragen of opdrachten met name door de ’goede’ leerlingen goed beantwoord of
uitgevoerd worden. Als dat stelselmatig niet het geval is, is er reden te twijfelen aan het meetinstrument
zélf.
Een tekort aan toetsopgaven of observatiepunten is een andere bron van onnauwkeurigheid: de invloed
van elke toetsvraag of elk observatiepunt op de uitslag van de totale meting is dan relatief erg hoog.
Door meer meetpunten in een toets of opdracht op te nemen, neemt de kans op meetfouten af (en dus
de meetnauwkeurigheid toe) of – anders gezegd – door meer meetpunten op te nemen wordt de invloed
van de meetfout op de totale toetsbeoordeling kleiner.
Dit pleit dus voor een langere toets en/of voor meer (relevante) beoordelingscriteria in een observatielijst.
Daarbij moet uiteraard rekening gehouden worden met de hanteerbaarheid van de toets (een te lange
toets of een te lange lijst van beoordelingscriteria is niet meer hanteerbaar).

Ook de eigenschappen van de leerling kunnen onnauwkeurigheid in de meting veroorzaken. Het gaat
hier dan om eigenschappen die in feite niets met de beheersing van de leerdoelen te maken hebben maar
niettemin van invloed kunnen zijn op de toetsprestatie: een leerling die last heeft van examenvrees zal
waarschijnlijk onder zijn niveau presteren. Ook minder stabiele eigenschappen zoals gemoedstoestand
of gezondheid kunnen de toetsprestatie negatief beïnvloeden.



30
Kwaliteitseisen m.b.t. de toets als meetinstrument



Onnauwkeurigheid in de metingen kan ook veroorzaakt worden door de omstandigheden tijdens de
toetsing. Lawaai in de naaste omgeving, slechte toetsinstructies, slechte verlichting of ventilatie zijn
voorbeelden van storende beïnvloeding van de meetnauwkeurigheid. Zij dragen bij aan de meetfout en
daarmee aan de onbetrouwbaarheid van de beslissingen die genomen worden op grond van de
toetsprestaties. Ook als leerlingen in de gelegenheid zijn om bijvoorbeeld ’af te kijken’ of ’te spieken’
zal de toetsscore geen goede indicatie zijn voor de mate van beheersing van de leerdoelen.

Zoals ook al aangegeven is in paragraaf 3.1 (objectiviteit) kan onnauwkeurigheid van de meting ten slotte
ook veroorzaakt worden door (interpretatie)verschillen van correctoren of beoordelaars. Als twee
correctoren of beoordelaars tot een duidelijk afwijkend oordeel komen over eenzelfde prestatie van een
leerling, is de meting niet consistent: afhankelijk van degene die beoordeelt kan de uitspraak over de
studieresultaten verschillen.
Ook indien eenzelfde beoordelaar een toets of een praktijkopdracht diverse keren achter elkaar moet
beoordelen (van verschillende leerlingen) is de beoordeling ervan vaak inconsistent (sequentie-effect).
De toetsprestaties van een leerling op een toets of bij een opdracht kan dus zowel positief als negatief
beïnvloed worden door de corrector of beoordelaar.
Bij meerkeuzevragen speelt dit probleem niet omdat het antwoord van tevoren vastligt en er (ingeval van
mechanische verwerking) geen interpretatie aan te pas komt.
Bij open vragen (lang-antwoord), praktijkopdrachten of dergelijke speelt dit subjectiviteitsprobleem echter
wel degelijk.
In het voorgaande blijkt dat de betrouwbaarheid van een meting door velerlei factoren (meetfouten)
beïnvloed kan worden en niet met zekerheid aan te geven is. De betrouwbaarheid kan echter wel geschat
worden. Voor deze schatting bestaan verschillende methoden (zie par. 3.2). Het uiteindelijk resultaat is
een getal als maat voor de betrouwbaarheid van de meting.

Hoe hoog de betrouwbaarheid voor een specifiek meetinstrument moet zijn is moeilijk aan te geven. De
betrouwbaarheid wordt immers door een aantal factoren beïnvloed, zoals bijvoorbeeld toetslengte: hoe
langer de toets, des te minder kans op toevalstreffers en des te hoger de betrouwbaarheid. Maar aan de
lengte van de toets moeten soms aanzienlijke concessies gedaan worden in verband met de hanteerbaar-
heid. Het zou dan onredelijk zijn om een vaste hoogte voor de betrouwbaarheid te hanteren.
Ook de consequenties voor de leerlingen kunnen een rol spelen bij de vraag wat een aanvaardbare
betrouwbaarheid is. Als die consequenties gering zijn, mag genoegen worden genomen met een lagere
betrouwbaarheid dan wanneer die consequenties ’zwaar’ zijn.
Afhankelijk van het doel van het meetinstrument moet men dus een afweging maken welke hoogte van
de betrouwbaarheid wel of niet meer acceptabel is. Hier ligt dus een taak voor bijvoorbeeld een
toetsingscommissie van de opleiding.

3.2.3   De standaardmeetfout

In principe kan bij elke meting de betrouwbaarheid geschat worden. Dit betekent dat ook de meetfout
geschat kan worden.
De schatting van de meetfout wordt de standaardmeetfout genoemd. Deze wordt evenals de
betrouwbaarheid uitgedrukt in een getal en wordt berekend met behulp van de toetsbetrouwbaarheid.
De standaardmeetfout geeft een schatting van de te verwachten grootte van de afwijkingen van de
toetsscores van de ene op de andere meting. Of, anders gezegd: de standaardmeetfout geeft de meetfout
aan die ’in doorsnee’ bij meting met een bepaalde toets verwacht mag worden.
Met de standaardmeetfout kan een interval berekend worden rondom elke individuele toetsscore
waarbinnen met een bepaalde zekerheid de ware score van de betreffende leerling zal liggen. Hoe kleiner
de standaardmeetfout, des te dichter ligt de toetsscore in de buurt van de ’ware’ score.



                                                                                                        31
Hoofdstuk 3



Verondersteld mag worden dat de toetsscores bij herhaalde meting normaal verdeeld zullen zijn rondom
de gemiddelde score. Het beeld ziet er dan uit zoals weergegeven in afbeelding 12.




                   afb. 12 - Normaalverdeling van toetsscores bij herhaalde meting

Er is sprake van een normale verdeling wanneer de grafiek symmetrisch klokvormig is. De spreiding
(standaarddeviatie) van die herhaalde metingen bij dezelfde persoon is dan de standaardmeetfout. Met
70% zekerheid ligt de ware score van de leerling tussen zijn toetsscore min één standaarddeviatie (−1
SD) en zijn toetsscore plus één standaarddeviatie (+1 SD).

In de praktijk is het uiteraard niet mogelijk om een toets zo vaak bij een en dezelfde leerling af te nemen
dat de standaarddeviatie voor die leerling berekend kan worden.
Wanneer de toets bij een groep leerlingen is afgenomen, kan de standaardmeetfout (SE) echter geschat
worden met behulp van de betrouwbaarheid (rXX’) en de standaarddeviatie van de toets (St):



Voor het berekenen van de betrouwbaarheid kan gebruik worden gemaakt van de hiervoor beschreven
formules (α of KR-20). De formule voor de standaarddeviatie luidt:




Hierbij is n het aantal items in de toets, xi de score op item i en X de gemiddelde score.

In de volgende afbeeldingen wordt het verband tussen toetsscore (het cijfer), ware score (de vaardigheid)
en standaardmeetfout nader uitgewerkt voor drie leerlingen (A, B en C).
Bij de standaardmeetfout is altijd sprake van een bandbreedte rondom een bepaalde waarde.
Uitgaande van een bepaalde toetsscore (bijv. 6,5) en een standaardmeetfout (bijv. 2,5: een vrij
onnauwkeurige meting) kun je met 70% zekerheid zeggen dat de ware score zal liggen tussen 6,5 − 2,5
en 6,5 + 2,5. De vaardigheid van de leerling ligt op de bepaalde cijferschaal dus tussen 4 en 9. Dit
betekent derhalve dat drie leerlingen, die allemaal een 6,5 halen, toch aanzienlijk kunnen verschillen in
vaardigheid. Deze situatie is weergegeven in afbeelding 13.




32
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs
Verantwoord Meten In Het Gezondheidszorgonderwijs

Mais conteúdo relacionado

Destaque

Comite Consultivo Huancasancos
Comite Consultivo HuancasancosComite Consultivo Huancasancos
Comite Consultivo Huancasancosjuan cherre
 
Web Authenication with Shibboleth - a view from the Flat East
Web Authenication with Shibboleth - a view from the Flat EastWeb Authenication with Shibboleth - a view from the Flat East
Web Authenication with Shibboleth - a view from the Flat EastJon Warbrick
 
Taller iglekids 1
Taller iglekids 1Taller iglekids 1
Taller iglekids 1adelisj
 
Diapositivas prevención violencia de género (definitivo)(2)
Diapositivas prevención violencia de género (definitivo)(2)Diapositivas prevención violencia de género (definitivo)(2)
Diapositivas prevención violencia de género (definitivo)(2)anabg16
 
Arte contemporáneo frente a la crisis ecológica
Arte contemporáneo frente a la crisis ecológicaArte contemporáneo frente a la crisis ecológica
Arte contemporáneo frente a la crisis ecológicaLisa_Blu
 
Making healthcare analytics fast, easy and flexible
Making healthcare analytics fast, easy and flexibleMaking healthcare analytics fast, easy and flexible
Making healthcare analytics fast, easy and flexibleYellowfin
 
Olives. Experiències a l'Ecola Balandrau
Olives. Experiències a l'Ecola Balandrau Olives. Experiències a l'Ecola Balandrau
Olives. Experiències a l'Ecola Balandrau EscolaBalandrau
 
Global entry strategies global p s of marketing
Global entry strategies global p s of marketingGlobal entry strategies global p s of marketing
Global entry strategies global p s of marketingSourav Karmakar
 
Taller iglekids 1
Taller iglekids 1Taller iglekids 1
Taller iglekids 1adelisj
 
Антирадянські виступи 1921 року
Антирадянські виступи 1921 рокуАнтирадянські виступи 1921 року
Антирадянські виступи 1921 рокуKseniya Armashula
 
VSP 5.5 | VMware Sales Professional 5.5
VSP 5.5 | VMware Sales Professional 5.5VSP 5.5 | VMware Sales Professional 5.5
VSP 5.5 | VMware Sales Professional 5.5Marcio Amaral
 
Texto 5 y 6
Texto 5 y 6Texto 5 y 6
Texto 5 y 6jkrls
 

Destaque (20)

ford company
ford companyford company
ford company
 
Comite Consultivo Huancasancos
Comite Consultivo HuancasancosComite Consultivo Huancasancos
Comite Consultivo Huancasancos
 
KẾ HOẠCH HỌC TẬP (TUẦN 38)
KẾ HOẠCH HỌC TẬP (TUẦN 38)KẾ HOẠCH HỌC TẬP (TUẦN 38)
KẾ HOẠCH HỌC TẬP (TUẦN 38)
 
20160412080141442
2016041208014144220160412080141442
20160412080141442
 
Web Authenication with Shibboleth - a view from the Flat East
Web Authenication with Shibboleth - a view from the Flat EastWeb Authenication with Shibboleth - a view from the Flat East
Web Authenication with Shibboleth - a view from the Flat East
 
Taller iglekids 1
Taller iglekids 1Taller iglekids 1
Taller iglekids 1
 
Diapositivas prevención violencia de género (definitivo)(2)
Diapositivas prevención violencia de género (definitivo)(2)Diapositivas prevención violencia de género (definitivo)(2)
Diapositivas prevención violencia de género (definitivo)(2)
 
Ruth Jarmul
Ruth JarmulRuth Jarmul
Ruth Jarmul
 
Android SQLite
Android SQLiteAndroid SQLite
Android SQLite
 
Mississippi flood 2011
Mississippi flood 2011Mississippi flood 2011
Mississippi flood 2011
 
Arte contemporáneo frente a la crisis ecológica
Arte contemporáneo frente a la crisis ecológicaArte contemporáneo frente a la crisis ecológica
Arte contemporáneo frente a la crisis ecológica
 
Making healthcare analytics fast, easy and flexible
Making healthcare analytics fast, easy and flexibleMaking healthcare analytics fast, easy and flexible
Making healthcare analytics fast, easy and flexible
 
Bitten By Python
Bitten By PythonBitten By Python
Bitten By Python
 
Olives. Experiències a l'Ecola Balandrau
Olives. Experiències a l'Ecola Balandrau Olives. Experiències a l'Ecola Balandrau
Olives. Experiències a l'Ecola Balandrau
 
Global entry strategies global p s of marketing
Global entry strategies global p s of marketingGlobal entry strategies global p s of marketing
Global entry strategies global p s of marketing
 
Taller iglekids 1
Taller iglekids 1Taller iglekids 1
Taller iglekids 1
 
Антирадянські виступи 1921 року
Антирадянські виступи 1921 рокуАнтирадянські виступи 1921 року
Антирадянські виступи 1921 року
 
RobDiploma
RobDiplomaRobDiploma
RobDiploma
 
VSP 5.5 | VMware Sales Professional 5.5
VSP 5.5 | VMware Sales Professional 5.5VSP 5.5 | VMware Sales Professional 5.5
VSP 5.5 | VMware Sales Professional 5.5
 
Texto 5 y 6
Texto 5 y 6Texto 5 y 6
Texto 5 y 6
 

Semelhante a Verantwoord Meten In Het Gezondheidszorgonderwijs

Hoofdstuk 2 toetsen op school
Hoofdstuk 2 toetsen op schoolHoofdstuk 2 toetsen op school
Hoofdstuk 2 toetsen op schoolErik Roelofs
 
#evalu8 - Leerrendement - V-model
#evalu8 - Leerrendement - V-model#evalu8 - Leerrendement - V-model
#evalu8 - Leerrendement - V-model#evalu8
 
Informatieblad ROI bij opleidingen (Bimoa, November 2011)
Informatieblad ROI bij opleidingen (Bimoa, November 2011)Informatieblad ROI bij opleidingen (Bimoa, November 2011)
Informatieblad ROI bij opleidingen (Bimoa, November 2011)bimoa
 
En wat nou als we de student eigenaar zouden maken van het toetsen?
En wat nou als we de student eigenaar zouden maken van het toetsen? En wat nou als we de student eigenaar zouden maken van het toetsen?
En wat nou als we de student eigenaar zouden maken van het toetsen? robert bouwhuis
 
Onder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwen
Onder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwenOnder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwen
Onder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwenSimon de Graaf
 
Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...
Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...
Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...robert bouwhuis
 
La1 henkmassink 0863371_herkansing
La1 henkmassink 0863371_herkansingLa1 henkmassink 0863371_herkansing
La1 henkmassink 0863371_herkansingHenk Massink
 
Paper, LEREN van het LEREN (maart 2012)
Paper, LEREN van het LEREN (maart 2012)Paper, LEREN van het LEREN (maart 2012)
Paper, LEREN van het LEREN (maart 2012)Giel Kessels
 
Evaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwo
Evaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwoEvaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwo
Evaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwoLuc Sluijsmans
 
Attainment Targets in Action
Attainment Targets in ActionAttainment Targets in Action
Attainment Targets in ActionEduSkills OECD
 
Triple a encyclopedie
Triple a encyclopedieTriple a encyclopedie
Triple a encyclopediemkuiten
 
Mgo Paper Ord2011 Versie 05062011
Mgo Paper Ord2011 Versie 05062011Mgo Paper Ord2011 Versie 05062011
Mgo Paper Ord2011 Versie 05062011Heks1956
 
Evaluatie maatschappijwetenschappen-havo
Evaluatie maatschappijwetenschappen-havoEvaluatie maatschappijwetenschappen-havo
Evaluatie maatschappijwetenschappen-havoLuc Sluijsmans
 
2010 5 25 Pres 27 Mei 10
2010 5 25 Pres 27 Mei 102010 5 25 Pres 27 Mei 10
2010 5 25 Pres 27 Mei 10Johan Lapidaire
 
Werkdocument Onderwijsland.08092013
Werkdocument Onderwijsland.08092013Werkdocument Onderwijsland.08092013
Werkdocument Onderwijsland.08092013Dominique Ebbing
 
2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdf
2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdf2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdf
2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdfssuser7c8583
 
Oplossing Kwaliteit Nieuwe Stijl
Oplossing Kwaliteit Nieuwe StijlOplossing Kwaliteit Nieuwe Stijl
Oplossing Kwaliteit Nieuwe StijlEvelien Verkade
 
pharmaceutical training mei 2015
pharmaceutical training mei 2015pharmaceutical training mei 2015
pharmaceutical training mei 2015Linda Vereycken
 

Semelhante a Verantwoord Meten In Het Gezondheidszorgonderwijs (20)

Hoofdstuk 2 toetsen op school
Hoofdstuk 2 toetsen op schoolHoofdstuk 2 toetsen op school
Hoofdstuk 2 toetsen op school
 
#evalu8 - Leerrendement - V-model
#evalu8 - Leerrendement - V-model#evalu8 - Leerrendement - V-model
#evalu8 - Leerrendement - V-model
 
Informatieblad ROI bij opleidingen (Bimoa, November 2011)
Informatieblad ROI bij opleidingen (Bimoa, November 2011)Informatieblad ROI bij opleidingen (Bimoa, November 2011)
Informatieblad ROI bij opleidingen (Bimoa, November 2011)
 
En wat nou als we de student eigenaar zouden maken van het toetsen?
En wat nou als we de student eigenaar zouden maken van het toetsen? En wat nou als we de student eigenaar zouden maken van het toetsen?
En wat nou als we de student eigenaar zouden maken van het toetsen?
 
Onder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwen
Onder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwenOnder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwen
Onder-wijsheid_hoe_controlemechanismen_het_onderwijs_overschaduwen
 
Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...
Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...
Het vergroten van toegankelijkheid van - en transparantie in (hoger) onderwij...
 
La1 henkmassink 0863371_herkansing
La1 henkmassink 0863371_herkansingLa1 henkmassink 0863371_herkansing
La1 henkmassink 0863371_herkansing
 
Paper, LEREN van het LEREN (maart 2012)
Paper, LEREN van het LEREN (maart 2012)Paper, LEREN van het LEREN (maart 2012)
Paper, LEREN van het LEREN (maart 2012)
 
Evaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwo
Evaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwoEvaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwo
Evaluatie van-het-vernieuwde-examenprogramma-maatschappijwetenschappen-voor-vwo
 
Attainment Targets in Action
Attainment Targets in ActionAttainment Targets in Action
Attainment Targets in Action
 
Triple a encyclopedie
Triple a encyclopedieTriple a encyclopedie
Triple a encyclopedie
 
Mgo Paper Ord2011 Versie 05062011
Mgo Paper Ord2011 Versie 05062011Mgo Paper Ord2011 Versie 05062011
Mgo Paper Ord2011 Versie 05062011
 
IKZ in het sociaal-cultureel volwassenenwerk
IKZ in het sociaal-cultureel volwassenenwerkIKZ in het sociaal-cultureel volwassenenwerk
IKZ in het sociaal-cultureel volwassenenwerk
 
Evaluatie maatschappijwetenschappen-havo
Evaluatie maatschappijwetenschappen-havoEvaluatie maatschappijwetenschappen-havo
Evaluatie maatschappijwetenschappen-havo
 
2010 5 25 Pres 27 Mei 10
2010 5 25 Pres 27 Mei 102010 5 25 Pres 27 Mei 10
2010 5 25 Pres 27 Mei 10
 
Werkdocument Onderwijsland.08092013
Werkdocument Onderwijsland.08092013Werkdocument Onderwijsland.08092013
Werkdocument Onderwijsland.08092013
 
Evaluatie
EvaluatieEvaluatie
Evaluatie
 
2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdf
2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdf2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdf
2.Flexibel_werken_met_leeruitkomsten_en_(gevalideerde)_bewijslast(1).pdf
 
Oplossing Kwaliteit Nieuwe Stijl
Oplossing Kwaliteit Nieuwe StijlOplossing Kwaliteit Nieuwe Stijl
Oplossing Kwaliteit Nieuwe Stijl
 
pharmaceutical training mei 2015
pharmaceutical training mei 2015pharmaceutical training mei 2015
pharmaceutical training mei 2015
 

Verantwoord Meten In Het Gezondheidszorgonderwijs

  • 1. VERANTWOORD METEN IN HET GEZONDHEIDSZORGONDERWIJS HANDBOEK VOOR DE BEOORDELING VAN LEERRESULTATEN Keuze van de juiste toetsvorm Praktische voorbeelden Nieuwe ontwikkelingen Kwaliteitsbewaking J.G.M. Schotten W.C.L. Robroek
  • 2. Dit handboek vormt de afsluiting van een samenwerkingsproject van de VOVB (Vereniging van Opleidingsinstituten voor Verplegende en verzorgende Beroepen) en het Cito Instituut voor Toetsontwikkeling voor de ontwikkeling van toetsen voor opleidingen voor de verpleging en (zieken)verzorging. Dit project werd mede gefinancierd door ministerie van Volksgezondheid, Welzijn en Sport.
  • 3. VERANTWOORD METEN IN HET GEZONDHEIDSZORGONDERWIJS HANDBOEK VOOR DE BEOORDELING VAN LEERRESULTATEN J.G.M. Schotten W.C.L. Robroek Met medewerking van: G.J.J.M. Straetmans A.M.A. Stolk D. Tarenskeen J. van Weeren C.G.M. Liebrand
  • 4. © 1997 Bohn Stafleu Van Loghum, Houten Alle rechten voorbehouden. Niets van deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen, of enige andere manier, zonder voorafgaande schriftelijke toestemming van de uitgever. Voorzover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel 16B Auteurswet 1912j° het Besluit van 20 juni 1974, St.b. 351, zoals gewijzigd bij Besluit van 23 augustus 1985, St.b. 471 en artikel 17 Auteurswet 1912, dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de Stichting Reprorecht (Postbus 882, 1180 AW Amstelveen). Voor het overnemen van (een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (artikel 16 Auteurswet 1912) dient men zich tot de uitgever te wenden. ISBN 90 313 24272 D/1997/3407/025 Bohn Stafleu Van Loghum De Molen 77 3995 AW Houten Kouterveld 2 1831 Diegem
  • 5. 1 Uitgangspunten Het voor u liggende handboek over evaluatie in het onderwijs is gebaseerd op twee uitgangspunten. Het eerste uitgangspunt is ’de aansluiting bij de praktijk’: in toenemende mate is er in het onderwijs belangstelling voor praktische vaardigheden, zowel beroepsspecifieke als algemene vaardigheden. De gedachte daarachter is dat leerlingen daardoor beter zijn voorbereid op de eisen die er vanuit het beroep en de maatschappij aan hen gesteld worden. Wanneer opleidingen daar serieus werk van willen maken, heeft dat consequenties voor het hele didactische proces: de doelstellingen, de onderwijsleersituaties en derhalve ook de toetssituaties moeten beter aansluiten bij de praktijk(vaardigheden). In dit handboek wordt aangesloten bij Romiszowski, die in zijn de visie sterk de nadruk legt op vaardigheden. Dit leidt vanzelf tot het tweede uitgangspunt, ’de gezamenlijkheid’: wanneer deze wijzigingen doorgevoerd moeten worden, moeten alle verantwoordelijkheidsniveaus binnen de opleiding dit dragen. De aansluiting bij de praktijk zal in eerste instantie geïmplementeerd/gerealiseerd moeten worden op curriculumniveau, maar vanuit dat niveau zal dat gevolgen hebben voor het managementniveau (facilitering en organisatie van het hele proces) en voor wat in dit handboek genoemd wordt het uitvoeringsniveau (onderwijs en toetsing, didactiek en evaluatie). De problematiek van het verantwoord meten van leerresultaten wordt in dit handboek vanuit deze twee uitgangspunten benaderd. Dat betekent dat er naast een bespreking van de noodzakelijke voorwaarden voor verantwoord meten veel aandacht zal worden besteed aan het meten van vaardigheden. De functie van het handboek is het bevorderen van de toetsdeskundigheid. Het maakt docenten bewust van de noodzaak om verschillende doelen te toetsen met verschillende toetsvormen. Op curriculumniveau moet dit tot uiting komen in de onderwijs- en examenregeling. Voor het uitvoeringsniveau worden vervolgens de nodige handreikingen gegeven. Voor de kennistoetsen en de meeste vormen van vaardigheidstoetsen zijn de richtlijnen voldoende uitgewerkt om zelf tot constructie over te gaan. Voor die vormen van vaardigheidstoetsen waarvan de constructie te complex is (zoals computersimulaties), kunnen de richtlijnen gebruikt worden om de op de markt aangeboden toetsen te screenen of om in onderhandeling met een toetsconstructeur een eisenpakket op tafel te leggen. Voor alle vaardigheidstoetsen geldt echter dat het vaststellen van de kwaliteit ervan arbeidsintensief is en veel expertise vereist op het gebied van de psychometrie. Het zich bewust zijn van de zin en noodzaak van verantwoord meten en beoordelen is een essentiële schakel in het gehele systeem van kwaliteitszorg, een noodzakelijke voorwaarde op de weg naar kwaliteitsbewaking en -verbetering. 1
  • 6. Hoofdstuk 1 1.1 Aansluiting bij de praktijk 1.1.1 Het model ’didactische analyse’: geen gesloten model Om de plaats van meten in het onderwijsleerproces aan te geven, wordt vaak gebruik gemaakt van het model ’didactische analyse’ (Van Gelder, 1971). Dit model is in afbeelding 1 terug te vinden in het gestippelde kader: afb. 1 - Externe invloeden op het onderwijsleerproces In afbeelding 1 staan respectievelijk leerdoelen, beginsituatie, onderwijsleersituatie en meten/beoordelen genoemd. In paragraaf 2.2 zal dit model uitgebreider besproken worden. Eerst wordt nu besproken welke externe factoren invloed uitoefenen op de verschillende onderdelen van het model. Deze worden aangegeven door de grote pijlen in de afbeelding. 1.1.2 De input vanuit de beroepspraktijk in het model Uiteraard is dit model geen gesloten systeem. Vanuit de beroepswereld en vanuit de maatschappij worden eisen gesteld, die invloed hebben op de verschillende onderdelen van dit model. Allereerst drukt de beroepspraktijk een belangrijk stempel op de eindtermen en leerdoelen van het onderwijs. Het gaat immers om beroepsonderwijs; er worden mensen opgeleid om in de beroepspraktijk te functioneren. Telkens wanneer het beroep zich ontwikkelt, zullen de toeleverende opleidingen daarop moeten inspelen. Scholen zullen steeds optimaal moeten aansluiten bij de beroepspraktijk, niet alleen door bij het formuleren van eindtermen uit te gaan van taak- en functieanalyses, maar ook door het onderwijsleerproces zo in te richten dat er een naadloze overgang is van theorie naar praktijk. Dit betekent onder meer dat de beroepspraktijkvorming niet alleen in de beroepsbegeleidende leerweg (’werken/leren’) maar ook in de beroepsopleidende leerweg (’leren/stage’) een belangrijke plaats zal krijgen. 2
  • 7. Uitgangspunten Voor toetsen geldt diezelfde eis van aansluiting bij de praktijk. Traditioneel is men bij het meten en beoordelen van leerresultaten vaak in eerste instantie gericht op het meten van cognitieve vaardigheden (het kunnen herkennen en benoemen van zaken), hetgeen dan veelal plaatsvindt in de vorm van schriftelijke toetsen. Dat is ook wel te verklaren: het maken van toetsen voor cognitieve vaardigheden is relatief eenvoudiger dan het ontwikkelen van kwalitatief goede instrumenten of procedures voor het meten van praktische vaardigheden. Het op een eenduidige en objectieve manier vaststellen van prestaties van leerlingen op het gebied van praktische vaardigheden (bijv. communicatieve vaardigheden) is zeker geen eenvoudige zaak. In het gezondheidszorgonderwijs worden de praktijkvaardigheden van leerlingen gewoonlijk beoordeeld door een functionaris van de arbeidsorganisatie (praktijkbegeleider). Ondanks de vaardigheid die de meesten van hen hebben in het beoordelen van praktijkvaardigheden, is het oordeel nog steeds gebaseerd op de individuele (en vaak subjectieve) opvatting van de beoordelaar. Vaak weet de leerling nauwelijks op welke criteria hij beoordeeld wordt en in een aantal gevallen hanteert de ene beoordelaar andere maatstaven dan de andere. In dit handboek wordt daarom uitvoerig ingegaan op de verschillende vaardigheden die een leerling zich gedurende de opleiding eigen moet maken, de wijze waarop deze getoetst kunnen worden en de toetsvormen die daarvoor het meest geschikt zijn. 1.1.3 De input vanuit de maatschappij in het model Ook de maatschappij stelt zijn eisen aan het individu. Wil men als volwaardig burger in de zich steeds sneller veranderende maatschappij functioneren, dan is het noodzakelijk dat men daarvoor voldoende is toegerust. Steeds meer ontstaat het besef dat de maatschappij vraagt om, wat wel genoemd wordt, algemene vaardigheden: geen kant-en-klare kennis, maar instrumentele en strategische vaardigheden, die een persoon in staat stellen zich aan te passen aan veranderingen in beroep en maatschappij. Deze vaardigheden krijgen in steeds meer examenprogramma’s en eindtermendocumenten een plaats en het onderwijs bezint zich op methoden om deze vaardigheden systematisch te onderwijzen en vervolgens ook te toetsen. Dat brengt ons op een andere duidelijke invloed vanuit de maatschappij: om de waarde van diploma’s te kunnen garanderen, moeten bepaalde minimumeisen gesteld worden aan de toetsen en examens die recht geven op een diploma. Dit ’civiel effect’ kan op verschillende manieren verkregen worden, namelijk door middel van: – centrale examens, waarbij alle opleidingen op hetzelfde moment hetzelfde examen afnemen; – landelijke examens, waarbij opleidingen de keuze hebben om op een bepaald moment aan een centraal geconstrueerd examen mee te doen; – visitaties, waarbij opleidingen eens in de zoveel tijd doorgelicht worden op alle aspecten uit het didactisch model; – externe legitimering, waarbij alle opleidingen een vastgesteld deel van hun toetsing ter controle aan een onafhankelijke instelling moeten voorleggen. Op welke wijze dit civiel effect gewaarborgd wordt, is over het algemeen onderworpen aan wettelijke regelingen. Voor het beroepsonderwijs in het algemeen vormen de WEB (Wet Educatie en Beroepsonder- wijs) en de WHW (Wet Hoger onderwijs en Wetenschappelijk onderzoek) hiervoor het belangrijkste kader. Daarnaast heeft de sector Gezondheidszorg per december 1997 specifiek te maken met de Wet BIG (Beroepen in de Individuele Gezondheidszorg), waarin onder andere voor de verschillende beroepsgroepen de vereiste bekwaamheid wordt aangegeven. 1.1.4 Aansluiting van de kwalitatieve en kwantitatieve uitstroom bij de behoefte van het werkveld Een ander aspect waaraan zowel het beroepsveld als de maatschappij groot belang hecht, is de aansluiting van de uitstroom bij de behoefte van het werkveld, niet alleen in kwalitatieve maar ook in 3
  • 8. Hoofdstuk 1 kwantitatieve zin. Uiteraard hebben ook de leerlingen er baat bij wanneer ze enerzijds adequaat worden toegerust voor het beroep dat ze willen gaan uitoefenen en anderzijds gewild zijn op de arbeidsmarkt vanwege hun specifieke deskundigheid. Opleidingstrajecten moeten leiden tot die kwalificaties waaraan behoefte is. Deze afstemming zal veelal regionaal moet plaatsvinden, in overleg tussen werkgevers en opleiders. In dit verband is het relevant te melden dat men steeds meer uitgaat van brede kwalificaties, waardoor afgestudeerden op meer plaatsen inzetbaar zijn. 1.1.5 Aansluiting van verschillende opleidingen op elkaar: modulen en certificaateenheden In opleidingen wordt tegenwoordig hoe langer hoe meer gewerkt met modulen en certificaateenheden. Dit zijn zelfstandige leereenheden waarvoor de leerling wordt toegelaten als hij aan een beginvoorwaarde voldoet en die wordt afgesloten met een toets. Een voldoende resultaat is vaak voorwaarde voor toelating tot een volgende module. Een certificaateenheid heeft een dusdanige omvang, dat de leerling die een voldoende resultaat bereikt heeft op de toets een certificaat ontvangt. Soms is dit werken met modulen alleen een manier om lesinhouden te ordenen en volgen alle leerlingen van een bepaald leerjaar gezamenlijk de modulen. Vaak is het echter ook een manier om individuele leerlingen in de gelegenheid te stellen een eigen leerroute te kiezen. Niet in de laatste plaats biedt het voordelen bij het instromen van leerlingen uit andere opleidingen of bij het (her)plaatsen van leerlingen die enige tijd uit het onderwijsproces zijn geweest. Door de vereiste beginsituatie voor de betreffende module eenduidig vast te leggen, kan getoetst worden of leerlingen die aan deze module willen deelnemen aan de gestelde beginvoorwaarde voldoen. Ook in het gezondheidszorgonderwijs zal deze modulering in de nabije toekomst een steeds belangrijker rol gaan spelen. Op de gevolgen van modulering voor de organisatie van toetsing en afsluiting wordt nader ingegaan in paragraaf 6.2, waar het optimale gebruik van een opgavenbank wordt besproken. Een andere belangrijke reden voor het moduleren van opleidingen is het beperken van de ongekwalifi- ceerde uitstroom: ook leerlingen die niet de hele opleiding afmaken, zullen een aantal eenheden hebben afgesloten en daarvoor een certificaat hebben ontvangen. Zo staan zij niet langer met lege handen op de arbeidsmarkt. 1.2 Een gezamenlijke verantwoordelijkheid Een project ’verantwoord meten’ kan niet enkel en alleen gerealiseerd worden op het niveau van de individuele docent. Een bepaalde docent kan natuurlijk best zorgen voor een kwalitatief goede toetsing van zijn leerlingen, maar als de toetsresultaten door anderen op de verkeerde manier worden geïnterpreteerd of belangrijke beslissingen worden genomen op basis van andere gegevens, is het nut van zijn inspanningen erg beperkt. Bovendien is het zaak om door intercollegiale screening of het aanstellen van een toetsdeskundige of toetscommissie de kwaliteit van de beoordelingen te bewaken: legt elke docent dezelfde normen aan, berijdt iemand niet steeds dezelfde stokpaardjes etc. Van verantwoord meten kan alleen sprake zijn als bij de invoering ervan rekening wordt gehouden met het opleidingssysteem als geheel. Als docenten geen faciliteiten geboden worden voor de ontwikkeling of aanschaf van nieuwe toetsvormen, mag men geen hooggespannen verwachtingen koesteren over het effect van bijvoorbeeld een cursus ’het kiezen van de juiste toetsvorm’ of ’toetsontwikkeling’. Als de inspanningen op het gebied van verantwoord meten kans van slagen willen hebben, is een samenhangend beleid daarom noodzakelijk. In dat beleid zijn drie niveaus aanwijsbaar waarop beslissingen worden genomen: – managementniveau; – curriculumniveau; – uitvoeringsniveau. 4
  • 9. Uitgangspunten Afhankelijk van het niveau waarop men functioneert, kan de aard van de beslissingen of uitspraken echter verschillen. Men heeft behoefte aan specifieke informatie om op grond daarvan specifieke conclusies te kunnen trekken. De vragen die men beantwoord wil zien op grond van dezelfde meetgegevens, zijn vaak verschillend. In de volgende paragrafen wordt hierop nader ingegaan. 1.2.1 Managementniveau: facilitering (procesbeheersing/procesinrichting) Op dit niveau wordt in globale zin de functie van verantwoord meten vastgelegd en worden de voorzieningen getroffen die nodig zijn voor het uitvoeren van de geplande activiteiten. Voor het management spelen bijvoorbeeld vragen als: – Wegen de investeringen (van geld en menskracht) op tegen de opbrengsten (kosten/baten-analyse)? – Hoe is de kwaliteit van onze instelling in vergelijking met andere opleidingen? – Met welke gegevens kan ons beleid naar buiten toe (bijv. ministerie) verantwoord onderbouwd worden? – Komt het rendement van het binnenschools leren overeen met de afspraken die met de zorginstellin- gen daarover gemaakt zijn? Hoe goed is de inzetbaarheid van de leerlingen in de zorginstellingen? Op managementniveau richt men zich op de randvoorwaarden en de beleidskeuzen. Ook zal een aantal voorzieningen getroffen moeten worden om een verantwoorde toetsing mogelijk te maken. Voorbeelden van aandachtspunten op dit niveau zijn: – De opleiding moet een duidelijke visie op meten en beoordelen ontwikkelen en deze visie moet zich vertalen in toetsingsbeleid door directie en bestuur. – Meten en beoordelen zijn belangrijke instrumenten bij kwaliteitsbepaling en -bewaking door het management. Er moeten daarom maatregelen, beslissingen en faciliteiten vanuit het management worden gecreëerd waardoor de interne kwaliteitszorg gestalte krijgen. – Toetsing hoort bij het takenpakket van de docent, maar voor het opzetten en in uitvoering nemen van een systeem van verantwoord meten is een dermate grote tijdsinvestering nodig dat bepaalde docenten daarvoor gedeeltelijk vrijgeroosterd zullen moeten worden. – Door te toetsen komt informatie beschikbaar. Tenzij die wordt opgeslagen in een toegankelijk administratiesysteem, zal die informatie vluchtig van aard zijn. Er zal daarom nagedacht moeten worden over het ontwerp van een dergelijk systeem en over het beheer daarvan. – Vernieuwingen of veranderingen op het gebied van verantwoord meten moeten, om kans van slagen te hebben, gedragen worden door het merendeel van de medewerkers. De acceptatie zal gemakkelij- ker verlopen als de medewerkers goed op de hoogte zijn van de motieven, de uitvoeringsprocedures en de implicaties voor het eigen functioneren. – Bij welke instantie, hoe en waartegen (bijv. tegen de beoordeling zelf of tegen de wijze waarop getoetst is, e.d) kan de leerling in beroep gaan? Welke procedure volgt de beroepsinstantie bij het afwikkelen van een beroep en wie stelt die werkwijze vast? 1.2.2 Curriculumniveau: aansturing Ten aanzien van het curriculum spelen vragen als: – Hoe effectief is het gegeven onderwijs (onderwijsmethode, hulpmiddelen etc.)? – Voldoet het binnenschools leren aan de eisen van de zorginstellingen? – Sluit het onderwijs voldoende aan bij de leerdoelen en bij de beginsituatie van de leerlingen? – Met welke gegevens kan de kwaliteit van het gegeven onderwijs aangetoond worden aan bijvoorbeeld directie en bestuur? 5
  • 10. Hoofdstuk 1 Op curriculumniveau houdt men zich onder meer bezig met de voorwaarden voor en de onderlinge afstemming van de toetsen. Op dit niveau moeten (tenzij dit in de onderwijs- en examenregeling al is vastgelegd) afspraken gemaakt worden over bijvoorbeeld: – Curriculumopbouw: . Hoe wordt de doorstroming van leerlingen in de opleiding geregeld (bijv. jaarklassensysteem, studiepuntensysteem)? Wie bepaalt deze regeling? . Welke vakken of studieonderdelen zijn voorwaardelijk voor andere vakken of studieonderdelen? . Kunnen vrijstellingen gegeven worden voor bepaalde studieonderdelen? Wat zijn daarvoor de criteria en wie stelt die vast? – Onderwijs- en examenregeling: . Welke vakken of studieonderdelen moeten worden getoetst? En op welke momenten? . Op welke wijze worden de verschillende onderdelen getoetst (schriftelijk of mondeling; kennistoets of vaardigheidstoets; werkstuk; etc.)? . Wat is de geldigheidsduur van toetsresultaten, certificaten e.d.? . Is er een officieel afsluitend examen? Hoe wordt dat vormgegeven en wat zijn de consequenties van een onvoldoende resultaat? . Wie bepaalt wanneer de toetsmomenten zijn, hoeveel herkansingen er zijn en wat de gevolgen zijn van ’niet halen’ van de laatste herkansing? – De functie van toetsen: . Wat is de functie van toetsen op de verschillende momenten: diagnostisch, evaluerend of certificerend? . Hoe kunnen de toetsresultaten benut worden bij de curriculumevaluatie? – Normering en cijfergeving: . Hoe moeten toetsscores gewaardeerd worden (hoe wordt de cesuur vastgesteld)? Wie bepaalt dat? . Hoe worden de toetsresultaten weergegeven (cijferschaal van 1 tot 10 of voldoende-onvoldoende- goed)? – Kwaliteitsbewaking: . Hoe en wanneer (bij elke toets of alleen bij afsluitende toetsen) moet de kwaliteit van toetsen onderzocht worden? – Administratie: . Hoe worden toetsresultaten geadministreerd, voor hoe lang en wie hebben toegang tot die administratie? – Constructieprocedures: . Wie dragen zorg voor de ontwikkeling van toetsen op grond waarvan belangrijke beslissingen genomen worden over leerlingen? . Wie bewaakt het proces van de toetsontwikkeling? . Wie voert het onderzoek uit naar de kwaliteit van de vervaardigde toetsen en op welke wijze? Hoe wordt daarover gerapporteerd en aan wie? Welke acties worden ondernomen als achteraf (nadat ze zijn afgenomen) blijkt dat toetsen onvoldoende kwaliteit hadden? 1.2.3 Uitvoeringsniveau: constructie/aanschaf, afname/verwerking, beoordeling De deskundigheid van docenten beperkt zich niet tot het geven van lessen en het begeleiden van leerlingen, maar richt zich ook op het formuleren van doelstellingen, het kiezen van toetsvormen, het meten van leerresultaten en het uiteindelijk op een zo verantwoord mogelijke wijze beslissingen nemen op grond van deze leerresultaten. Zoals in paragraaf 1.2.2 duidelijk is te lezen, worden op curriculumni- veau, in overleg tussen docenten en management, de benodigde kaders vastgesteld. Docenten die zich met de uitvoering bezighouden, zullen vooral geïnteresseerd zijn in zaken als: – Hebben de leerlingen de gestelde leerdoelen bereikt? – Zijn er bepaalde leerlingen die remediërend onderwijs nodig hebben? 6
  • 11. Uitgangspunten – Voldoen de leerlingen aan de minimum-eisen om aan een bepaalde cursus of module deel te nemen? Op uitvoeringsniveau zullen zij zich daarom moeten bezighouden met de volgende aspecten van verantwoord meten en beoordelen: – Wanneer aan een toets grote consequenties voor de leerlingen zijn verbonden (al dan niet een certificaat), moet die toets aan bepaalde minimale kwaliteitseisen voldoen. Welke eisen zijn dat en hoe kan daaraan voldaan worden? – Wanneer een toets vooral een diagnostische functie heeft, spelen weer andere eisen een rol. Wanneer levert zo’n toets waardevolle en bruikbare informatie op? – Hoe kunnen bepaalde toetsvormen het beste geconstrueerd worden? Welke stappen zijn er te onderscheiden en welke fouten moeten er vermeden worden? 1.3 Leeswijzer In het inleidende hoofdstuk 1 is met name de opzet van het handboek uitgelegd: voor de indeling van het handboek is aansluiting gezocht bij de toenemende aandacht voor vaardigheden vanuit beroep en maatschappij. Verder wordt betoogd dat verantwoord meten een zaak is van alle verantwoordelijkheidsni- veaus binnen een opleiding. In de verdere hoofdstukken worden deze uitgangspunten nader uitgewerkt. In hoofdstuk 2 wordt besproken wat onder meten en beoordelen wordt verstaan en wat de plaats van meten en beoordelen in het didactisch proces is. Ook de verschillende functies van toetsen worden beschreven. Omdat een kwalitatieve uitspraak (een beoordeling) over de meetgegevens pas verantwoord is als er zekerheid bestaat over de juistheid van deze gegevens, zal in hoofdstuk 3 worden ingegaan op de kwaliteitseisen met betrekking tot meten en beoordelen. In hoofdstuk 4 passeren de verschillende toetsvormen heel kort de revue. De volgorde waarin dit gebeurt, is bepaald door de mate waarin de respectieve toetsvormen aansluiten bij de praktijk. Bovendien worden van elke toetsvorm de sterke en zwakke punten genoemd, zodat op basis van dit hoofdstuk een keuze gemaakt kan worden voor de meest geschikte toetsvorm. In de daaropvolgende hoofdstukken worden de beslissingen en activiteiten op de drie verantwoordelijk- heidsniveaus beschreven. In hoofdstuk 5 is dat allereerst het curriculumniveau. Met de gegevens uit hoofdstuk 4 moet men op dat niveau komen tot het opstellen van een onderwijs- en examenregeling. Wanneer het toetsplan is uitgewerkt, moet op het uitvoeringsniveau allereerst gewerkt worden aan de constructie of aanschaf van de benodigde toetsen. Hoofdstuk 6 geeft in de vorm van stroomdiagrammen algemene richtlijnen voor de constructie. Hierbij wordt om een aantal redenen onderscheid gemaakt tussen enerzijds kennistoetsen en anderzijds vaardigheidstoetsen. Deze algemene richtlijnen worden in hoofdstuk 7 voor de meeste toetsvormen uitgewerkt tot specifieke richtlijnen, vuistregels en concrete voorbeelden. Voor een aantal andere toetsvormen wordt volstaan met aanwijzingen voor het beoordelen van de kwaliteit. Hoofdstuk 8 bevat richtlijnen voor de afname van de toetsen en de verwerking van de resultaten. In het afsluitende hoofdstuk 9 worden de beslissingen en voorzieningen op managementniveau beschreven: welke maatregelen moeten er getroffen worden om te zorgen dat verantwoord meten een vast onderdeel wordt en blijft van het totale opleidingsproces. 7
  • 12. 2 De plaats van meten en beoordelen in het didactisch proces Meten speelt een belangrijke rol in veel activiteiten die kenmerkend zijn voor ’het onderwijs’. Curriculumevaluatie, school- en beroepskeuze, examinering, voortgangsbewaking: op al deze gebieden wordt gemeten om verantwoord beslissingen te kunnen nemen over leerlingen, het onderwijzend personeel, curricula en opleidingen. In het onderwijsleerproces vervult toetsing een centrale rol. Toetsing voorziet in de informatiebehoefte van docenten die ontstaat als er beslissingen moeten worden genomen om het onderwijsleerproces optimaal te laten verlopen. In het onderwijsleerproces worden op verschillende momenten vragen gesteld waarop met behulp van toetsen een bevredigend antwoord gegeven kan worden. Zodra de doelstellingen van een stuk onderwijs bepaald zijn, komt de vraag op waar het onderwijs een aanvang moet nemen (de vraag naar de beginsituatie). Tijdens het onderwijsleerproces moet op gezette momenten gecontroleerd worden of de leerlingen voldoende vorderingen maken. Als bijsturing noodzakelijk mocht zijn, kan dit plaatsvinden in het leerproces (de leerling verandert zijn leeractiviteiten) en/of in het onderwijsproces (de docent past de instructietactiek en/of -strategie aan). Na afloop van de instructieperiode dient vastgesteld te worden of leerlingen de beoogde kennis en vaardigheden hebben verworven. In paragraaf 1.1 kwam het model van Van Gelder al ter sprake om te laten zien op welke wijze het onderwijsleerproces beïnvloed wordt of moet worden door invloeden van buitenaf. In dit hoofdstuk worden de verschillende onderdelen van het didactisch model aan de orde gesteld: aan welke eisen moeten de eindtermen/doelstellingen voldoen, hoe kun je daar je onderwijsleersituatie op afstemmen, welke gevolgen moet dat hebben voor je toetsing, wat zijn de tegenstrijdigheden tussen de verschillende eisen? Vervolgens wordt ingegaan op de terugkoppeling van de meetgegevens naar informatie voor de verschillende verantwoordelijkheidsniveaus, zoals deze in paragraaf 1.2 aan de orde kwamen: in eerste instantie geeft het feedback aan de leerling en de docent, in tweede instantie (bij vergelijking tussen klassen of bij herhaalde meting) feedback over het curriculum en in laatste instantie (vergelijking met andere scholen, rendementsgegevens) feedback op managementniveau. Alvorens daartoe wordt overgegaan, zal eerst kort worden aangegeven wat onder meten en beoordelen wordt verstaan. Het hoofdstuk wordt afgesloten met een bespreking van de verschillende functies die toetsen kunnen hebben. 2.1 Meten en beoordelen: een begripsbepaling Vaak worden de termen ’meten’, ’toetsen’, ’evalueren’ en ’beoordelen’ naar willekeur door elkaar gebruikt. Daarom is het goed om deze begrippen kort nader toe te lichten. De begrippen ’meten’ en ’toetsen’ zijn in feite gangbare synoniemen en kunnen worden omschreven als: het systematisch en op objectieve wijze vaststellen van (studie- of leer)resultaten; een toets is het meetinstrument; het eindresultaat van meten is een score (het aantal goede antwoorden of verrichtingen, al dan niet gewogen). 8
  • 13. De plaats van meten en beoordelen in het didactisch proces De begrippen ’beoordelen’ en ’evalueren’ mogen (althans in het kader van onderwijs-/leerresultaten) ook als synoniemen worden opgevat en kunnen worden omschreven als: het systematische proces van verzamelen, analyseren en interpreteren van de bij meting verkregen gegevens teneinde vast te stellen in welke mate de gestelde (leer)doelen zijn bereikt. Dit proces impliceert het toekennen van een (waarde)oordeel aan een meetresultaat op grond waarvan (onderwijskundige) beslissingen genomen worden. Schematisch kan deze samenhang aldus worden weergeven: BEOORDELEN = METEN + WAARDEREN + BESLISSEN Meten en beoordelen zijn processen die in elkaars verlengde liggen: een kwalitatieve uitspraak kan pas gedaan worden nadat er een kwantitatieve uitspraak is gedaan. Dus eerst meten en pas dan beoordelen. Daarbij moet men zich ook realiseren dat meten en beoordelen gewoonlijk geen eenmalige activiteiten zijn die klaar zijn zodra er een kwalitatieve uitspraak gedaan is. Meten en beoordelen vormen een min of meer continu proces waarbij vaak op meerdere momenten gemeten en beoordeeld wordt. Zoals de titel van het handboek Verantwoord meten in het gezondheidszorgonderwijs wordt aangegeven dat van de hierboven genoemde begrippen, het meten centraal staat: welke plaats heeft meten in het onderwijsproces, aan welke eisen moeten goede meetinstrumenten voldoen en hoe kunnen goede meetinstrumenten geconstrueerd worden. Dit wil overigens niet zeggen dat aan de andere zaken (waarderen en beslissen) geen aandacht zal worden besteed. 2.2 Het didactisch proces: de relatie tussen leerdoelen, beginsituatie, onderwijsleersituatie en toetsing In paragraaf 1.1 werden de externe invloeden op het model ’didactische analyse’ besproken. Hieronder wordt nader ingegaan op het model zelf. afb. 2 - Het model ’Didactische Analyse’ De leerdoelen zijn concretiseringen (operationalisaties) van de eind- of tussentermen van de opleiding en geven aan wat de leerling gedurende de onderwijsleerperiode moet leren: kennis en vaardigheden en leerinhouden. 9
  • 14. Hoofdstuk 2 De beginsituatie heeft betrekking op de vraag naar het niveau van de leerling aan het begin van de opleiding of aan het begin van een module: ’Op welk niveau moet de docent aansluiten met zijn onderwijsproces? Wat weet de leerling al? Welke vaardigheden beheerst hij al?’ Om de leerdoelen te bereiken, moet er – rekening houdend met de beginsituatie – een reeks van activiteiten worden gepland. Dit speelt zich af in de onderwijsleersituatie waarin vragen aan de orde komen als: ’Welke leerstof past bij de leerdoelen? Welke didactische werkvormen kunnen er het beste gebruikt worden? Welke hulpmiddelen zijn zinvol in het onderwijsleerproces? Welke leeractiviteiten moeten ontplooid worden?’ Het meten/beoordelen ten slotte heeft betrekking op het vaststellen in hoeverre de leerdoelen bereikt zijn. Er is dus een duidelijke relatie tussen de leerdoelen en de meting van studieresultaten: aan de hand van de leerdoelen wordt gemeten wat de ’opbrengst’ is van het onderwijsleerproces. Tevens is er een voortdurende terugkoppeling van meten/beoordelen naar de onderwijsleersituatie: de meetgegevens kunnen relevante informatie opleveren over het gegeven onderwijs, de leeractiviteiten etcetera. 2.3 De functie van toetsen De functie van meten in het didactisch proces kan rechtstreeks worden afgeleid uit de plaats van meten ten opzichte van de beginsituatie, de onderwijsleersituatie en de leerdoelen, zoals beschreven in de vorige paragraaf. Toetsen vindt plaats vóór of na een stukje onderwijs. Hierbij moet dan gedacht worden aan de kleinst mogelijke onderdelen die binnen een onderwijsprogramma te onderscheiden zijn en die beginnen met of afgesloten worden met een toets. Het kan hierbij gaan om een lesuur, een module of een cursus. In tabel 1 wordt weergegeven hoe toetsmomenten en toetsfuncties onderling samenhangen. tabel 1 - Toetsmomenten en toetsfuncties moment doel(en) functie(s) vooraf • Meten of het beginniveau van de leerling(en) selectie / plaatsing voldoende is voor het onderwijsprogramma. • Meten welke leerdoelen voor welke leerlingen classificatie haalbaar zijn. • Meten welk leertraject voor welke leerlingen het interne differentiatie meest geschikt is. achteraf • Meten wat de vorderingen van de leerling zijn diagnosticering / remediëring en of remediëring gewenst is. • Meten wat de kwaliteit of het rendement van het curriculumevaluatie gegeven onderwijs is. • Meten of de leerling het vereiste kennis- en selectie / certificering vaardigheidsniveau heeft bereikt. Uit de tabel blijkt dat toetsen verschillende functies kunnen hebben. Afhankelijk van de toetsfunctie worden bepaalde eisen aan de meting gesteld (zie tabel 23 op blz. 60). De belangrijkste functies c.q. de meest voorkomende toepassingen van toetsing zijn in de tabel geaccentueerd: toetsing vindt vooral plaats 10
  • 15. De plaats van meten en beoordelen in het didactisch proces na (een deel van) het onderwijsprogramma. In enkele stroomdiagrammen wordt een en ander verder verduidelijkt. De rechthoek hieronder stelt een onderwijsprogramma in algemene zin voor. Het kan daarbij gaan om de leerstof van een hoofdstuk in een leerboek, een oefening, een module van een paar weken of zelfs om een complete cursus. De pijl links verwijst naar de leerlingen die met het programma gaan beginnen en de pijl rechts verwijst naar de leerlingen die het programma hebben doorlopen: afb. 3 - Stroomdiagram van onderwijsprogramma 2.3.1 Selectiemiddel voor plaatsing Wanneer een toets voorafgaand aan een bepaald onderwijsprogramma wordt afgenomen met het doel de beste kandidaten te selecteren (selectie bij de poort), zal het schema er aldus uitzien: afb. 4 - Selectie bij de poort Op grond van de toetsresultaten wordt beslist wie wel en wie niet met het programma mag starten. Van belang is hier dat afgewezen kandidaten bij de planning van het onderwijs geen rol meer spelen. Ze worden eenvoudig niet tot het programma toegelaten en daar blijft het bij, ook al krijgen ze allerlei adviezen. Voorbeelden: – Een farmaceutisch bedrijf in Frankrijk biedt een groot Nederlands ziekenhuis voor een aantal personeelsleden een nascholingscursus aan op een van de Franstalige eilanden in het Caraïbisch gebied. Van de directie mogen alleen diegenen intekenen die over voldoende kennis van het Frans beschikken. Dit wordt door een taleninstituut door middel van een toets vastgesteld. – In veel landen wordt op basis van een toelatingsexamen beslist wie tot een universiteit wordt toegelaten en wie niet. Plaatsingstoetsen, zoals dergelijke instrumenten wel worden genoemd, kunnen op verschillende manieren worden ingezet en verschillende doelen dienen. In de bovenstaande voorbeelden worden ze gebruikt om een antwoord te geven op de vraag of de leerlingen over de voorwaardelijke kennis en vaardigheden beschikken om aan een cursus, module of opleiding deel te nemen c.q. in hoeverre de leerlingen de doelstellingen van de te volgen cursus, module, opleiding al hebben bereikt (bijv. door een eerdere module of opleiding). Het gaat hierbij om een absolute norm. Men kan plaatsingstoetsen echter ook gebruiken als men wil nagaan welke leerlingen de meeste kans van slagen hebben in een vervolgopleiding. In dat geval is er sprake van een relatieve norm. Dit doet zich bijvoorbeeld voor als slechts een beperkt aantal plaatsen beschikbaar is in de vervolgopleiding. 11
  • 16. Hoofdstuk 2 2.3.2 Classificatie of externe differentiatie Een variant hierop waarbij met onderwijs aan alle leerlingen rekening wordt gehouden, is de volgende: afb. 5 - Classificatie van leerlingen De toetsresultaten worden gebruikt om te beslissen wie voor het ene dan wel het andere onderwijspro- gramma in aanmerking komt. Van belang is dat met beide programma’s verschillende doelstellingen worden nagestreefd (X en Y in het stroomdiagram). Kandidaten die naar programma A mogen, behalen andere leerresultaten dan kandidaten die programma B gaan volgen. Deze procedure wordt classificatie genoemd. Ook spreekt men wel van ’externe differentiatie’, omdat een bepaalde groep leerlingen van de oorspronkelijke groep wordt afgezonderd. Voorbeelden: – Na het doorwerken van een hoofdstuk in het leerboek wordt op basis van een toets beslist wie de leerstof volledig beheerst en derhalve met verrijkingsstof mag beginnen en wie herhalingsstof en extra oefeningen nodig heeft. – Na selectie van geschikte leerlingen voor de nascholingscursus biedt de directie de overige gegadigden een cursus van één dag in Nederland aan waar het verhaal van een ’ingevlogen’ medewerker van het Franse bedrijf door een tolk wordt vertaald. 2.3.3 Interne differentiatie Een derde vorm is de interne differentiatie. Door middel van een toets wordt beslist wie het ene of het andere onderwijsprogramma mag gaan volgen, echter zonder dat daarbij andere leerresultaten worden nagestreefd. Beide programma’s hebben dezelfde doelstellingen. Het is echter heel goed mogelijk dat de ene onderwijsmethode meer geschikt is voor de ene groep dan voor de andere. Beslissend is echter dat op het eind van de rit dezelfde eisen worden gesteld, men dezelfde verwachtingen heeft etcetera. In afbeelding 6 staat het bijbehorende stroomdiagram: afb. 6 - Interne differentiatie 12
  • 17. De plaats van meten en beoordelen in het didactisch proces Bij de volgende varianten wordt een toets pas na afloop van het onderwijsprogramma afgenomen. Deze vorm van toetsing komt het meeste voor. De toetsuitslag geeft aan of, en in hoeverre de kandidaten de leerstof daadwerkelijk onder de knie hebben. Zo’n afsluitende toets kan zoals gezegd verschillende functies hebben. 2.3.4 Feedbackfunctie voor de individuele leerling: diagnostisch De eerste vorm van toetsing achteraf is gericht op terugkoppeling naar de individuele leerling en heeft een diagnostische functie. Een consequente doorvoering hiervan kan worden gevonden bij beheersingsle- ren of ’mastery learning’. Leerlingen met scores van meer dan bijvoorbeeld 80% hebben het programma met succes doorlopen en kunnen verder met het volgende leerstofgedeelte. De anderen dienen de leerstof vanaf een bepaald punt te herhalen, totdat iedereen of bijna iedereen de stof beheerst. Vaak echter zal de leerstof op een iets andere wijze worden aangeboden omdat mogelijk de eerdere instructie bij sommige leerlingen onvoldoende resultaat opleverde. In dat geval is er sprake van remediëring en ontstaat een stroomdiagram dat sterk lijkt op dat van afbeelding 6. afb. 7 - Een diagnostische toets Wanneer toetsing plaatsvindt ter afsluiting van een relatief klein deel van het curriculum met als belangrijkste oogmerk informatie te krijgen over de vorderingen van de leerlingen, spreekt men van diagnostische toetsen (of formatieve toetsen). Dergelijke toetsen worden op gezette tijden tijdens het onderwijsleerproces afgenomen om de vorderingen van de leerlingen te kunnen volgen en bijtijds maatregelen te kunnen nemen ingeval van vertraging of achterstand. Het belang van dit soort toetsen is de feedbackfunctie. Leerlingen kunnen uit de toetsuitslag precies aflezen waar hun lacunes zitten. Voorwaarde is daarbij wel dat de toetsuitslag voldoende gedetailleerd is (dus alleen het toekennen van een cijfer of het aantal behaalde scorepunten is ten enenmale ontoereikend). In het ideale geval is de toets zodanig geconstrueerd dat aanknopingspunten voor remediëring (individueel of als groep) van het onderwijsleerproces direct afgeleid kunnen worden uit de ’gemiste’ vragen of opdrachten, dat wil zeggen de fouten die individueel of groepsgewijs opvallend vaak of stelselmatig gemaakt worden. Maar: formatieve toetsen zijn verre van gemakkelijk te construeren, aangezien elk fout antwoord van de leerling ’vertaald’ moet kunnen worden in een aanwijsbare lacune (in kennis, denken of dergelijke). Indien uit een formatieve toetsing blijkt dat een groot aantal leerlingen bepaalde doelen nog niet beheerst, is dit een signaal voor de docent om de gehanteerde onderwijsstrate- gie aan een kritisch onderzoek te onderwerpen en zo nodig te wijzigen. Formatieve toetsen zeggen dus niet alleen iets over de vorderingen van de leerlingen (’wat weten ze (nog) niet?’), maar kunnen ook zeer nadrukkelijk informatie geven over het onderwijsleerproces (’welke onderwerpen moeten opnieuw of anders besproken worden’; ’hoe effectief is de manier van lesgeven?’; ’zijn de doelen correct afgestemd op het niveau van de groep?’ etc.). Deze functie komt in de volgende paragraaf aan de orde. 13
  • 18. Hoofdstuk 2 2.3.5 Feedbackfunctie voor het onderwijsleerproces (opleider): evaluerend Toetsen geven echter niet alleen informatie over de leerlingen, maar ook over het gegeven onderwijs. Vanuit het resultaat van een of (vaak) meer toetsen wordt gekeken hoe het gegeven onderwijs bij de leerlingen is overgekomen. Bij dit evaluerend gebruik van toetsing staat de kwaliteit of het rendement van het onderwijs centraal. afb. 8 - Curriculumevaluatie 2.3.6 Selectiemiddel voor afsluiting: certificerend Het bekendste voorbeeld van een afsluitende toets is wel het examen. Na een compleet onderwijspro- gramma of certificaateenheid wordt een toets voorgelegd. De belangrijkste functie van zo’n toets is het certificeren van succesvolle leerlingen. afb. 9 - Certificering De afgewezen leerlingen kunnen over het algemeen een herkansing doen. Wanneer ze ook daarvoor zakken, zijn er verschillende mogelijkheden: – ze verlaten de school en proberen op de arbeidsmarkt aan de slag te komen; – ze stromen door naar een eenvoudiger onderwijstype om op dat niveau een certificaat te behalen; – ze doen (een deel van) het onderwijsprogramma over om zo alsnog te trachten voor het examen te slagen. In afbeelding 9 is alleen de stroom van succesvolle leerlingen aangeduid. Met behulp van summatieve toetsen (ook wel selectieve toetsen genoemd) wordt aan het einde van een cursus, module of opleiding nagegaan of en zo ja in welke mate de leerlingen het vereiste kennis- en vaardigheidsniveau hebben bereikt, c.q. de leerdoelen hebben bereikt. De uitslag van een summatieve toets bepaalt gewoonlijk of leerlingen een (deel)certificaat of diploma mogen ontvangen en mogen doorstromen naar het vervolgonderwijs (vervolgcursus of volgende module). 14
  • 19. De plaats van meten en beoordelen in het didactisch proces 2.4 Eisen voor de formulering c.q. de concretisering van eindtermen/leerdoelen als voorwaarde voor een verantwoorde toetsing en beoordeling 2.4.1 Het ontwikkelen van eindtermen vanuit de kwalificatiestructuur Eindtermen vormen de uitwerking van een kwalificatiestructuur en geven ook inhoud aan die kwalificatiestructuur. Door middel van de eindtermen worden de verschillende (deel)kwalificaties verduidelijkt en concreet gemaakt. In het beroepsonderwijs is de beroepskwalificatie van primair belang. Dat betekent echter niet dat er alleen eindtermen zullen bestaan die van het beroepsprofiel zijn afgeleid. De kwalificatiestructuur richt zich op een drievoudige kwalificatie: – de beroepskwalificatie; – de maatschappelijke en culturele kwalificatie; – de doorstroomkwalificatie. De ontwikkeling van eindtermen voor de beroepskwalificatie geschiedt op basis van de beroepsprofielen. Bij de ontwikkeling van eindtermen voor de doorstroomkwalificatie zal gekeken moeten worden naar de instroomeisen en instroomprofielen van het vervolgonderwijs. De eindtermen die gericht zijn op de maatschappelijke en culturele kwalificatie moeten ontleend worden aan het functioneren als burger in de samenleving en als werknemer in het bedrijfsleven. Eindtermen hebben een belangrijke functie voor het onderwijs. Het moeten hanteerbare beschrijvingen zijn van kennis, inzicht, vaardigheden en attitudes, met voldoende indicaties voor de inrichting van het onderwijs en de examinering. Eindtermen zullen over het algemeen geen uitwerking geven van voorwaardelijke kennis en vaardigheden. Voor de daadwerkelijke vormgeving van het onderwijs en de toetsing bestaat behoefte aan een concretisering van de eindtermen. Derhalve zal een analyse moeten plaatsvinden om het traject dat voert naar de eindtermen vorm te geven: welke tussenstappen zijn er te onderscheiden? Het resultaat van deze analyse zijn de leerdoelen. In paragraaf 2.4.3 worden de eisen beschreven waaraan de formulering van leerdoelen moet voldoen. Eerst wordt in paragraaf 2.4.2 ingegaan op het gebruik van een taxonomie bij het in kaart brengen van eindtermen en leerdoelen. 2.4.2 Taxonomie Een taxonomie is een hiërarchisch classificatiesysteem voor het formuleren en ordenen van eindtermen en leerdoelen. In de loop van de tijd zijn verschillende taxonomieën bedacht, die onderling veel overeenkomsten vertonen. In elke taxonomie is bijvoorbeeld een gedragscomponent en een inhoudscom- ponent te onderscheiden. In dit handboek wordt de taxonomie van Romiszowski (1981) gehanteerd. De reden hiervoor is dat in deze taxonomie een duidelijk accent ligt op vaardigheden. Bovendien wordt zijn indeling in het gezondheidszorgonderwijs inmiddels vaak gehanteerd. Romiszowski onderscheidt allereerst kennis en vaardigheden. Onder kennis verstaat hij ’informatie opgeslagen in de hersenen’; iemand heeft kennis of heeft die niet. Kennis vormt de basis voor vaardigheden. Vaardigheden zijn acties die iemand uitvoert om een bepaald doel te bereiken; vaardigheden ontwikkelen zich door ervaring en oefening, iemand kan dus in meer of mindere mate over een bepaalde vaardigheid beschikken. Het niet volmaakt beheersen van een vaardigheid kan betekenen dat iemand alle delen kan uitvoeren, maar op een lager niveau van precisie of productiviteit. In het beroepsonderwijs wordt steeds meer uitgegaan van het goed kunnen functioneren in de beroepspraktijk. De leerling moet bepaalde beroepsvaardigheden kunnen uitoefenen. Voor het juist uitvoeren heeft hij ook kennis nodig; kennis is voorwaardelijk. 15
  • 20. Hoofdstuk 2 Kennis In tabel 2 is weergegeven op welke wijze kennis door Romiszowski wordt opgesplitst. tabel 2 - Het kennisdomein volgens Romiszowski concrete feiten feiten verbale informatie feitelijke systemen feitelijk ketens procedures discriminaties algoritmen kennis concrete begrippen begrippen abstracte begrippen begrippensystemen begripsmatig natuurprincipes principes handelingsprincipes (heuristieken) regelsystemen Bij feitelijke kennis gaat het om herinneren of herkennen van feiten of procedures. Bij feiten gaat het om objecten, gebeurtenissen, namen e.d. Bij procedures richt de kennis zich op de juiste handelwijze in een specifieke situatie. Er is sprake van begripsmatige kennis wanneer er inzicht aan te pas komt. Hierbij kan een onderscheid worden gemaakt in begrippen en principes. Bij begrippen gaat het om min of meer abstracte klassen, zoals (van concreet naar abstract) ’rood’, ’kleur’ en ’fysieke eigenschappen’. Bij principes gaat het om het kennen van regels die onze handelingen kunnen sturen of veranderingen kunnen verklaren. Vaardigheid Romiszowski onderscheidt vier soorten vaardigheden: – cognitieve vaardigheden: het toepassen van kennis, het controleren en benutten van de geestelijke/in- tellectuele vermogens; – psychomotorische vaardigheden: het uitvoeren van fysieke, motorische handelingen, gebruikmakend van kennis en inzicht; – reactieve vaardigheden: het hanteren van emoties, aandacht hebben voor, (beroeps)houding tonen, handelen overeenkomstig een waardensysteem; – interactieve vaardigheden: het hanteren van sociale en communicatieve aspecten in de dagelijkse omgang met anderen, tijdens overleg en bij samenwerking. Voor elke categorie wordt door Romiszowski vervolgens een onderscheid gemaakt in reproductieve en productieve vaardigheden. Het kenmerk van reproductieve vaardigheden is dat ze min of meer geautomatiseerd verlopen; leerdoelen zijn reproductief als ze verwijzen naar vaardigheden die een leerling volgens een vaststaande procedure, een duidelijk voorschrift of protocol uitvoert. In een nieuwe situatie kan de leerling deze vaardigheid min of meer vanzelf reproduceren. Het kenmerk van productieve vaardigheden is dat er een creatieve, planmatige aanpak voor nodig is. Leerdoelen zijn productief als ze verwijzen naar vaardigheden die de leerling in een nieuwe situatie moet uitvoeren zonder dat daarbij teruggevallen kan worden op een vaste procedure of vast handelingsvoor- 16
  • 21. De plaats van meten en beoordelen in het didactisch proces schrift. De leerling moet in dit geval geleerde principes en strategieën kunnen toepassen in een nieuwe situatie. Een nadere uitwerking is te vinden in tabel 3. Een reproductieve vaardigheid kan een productieve vaardigheid worden zodra de leerling de vaardigheid moet kunnen toepassen in een nieuwe situatie waarin hij de geleerde principes niet zonder meer – min of meer automatisch – kan gebruiken. In dergelijke situaties moet hij een appèl doen op meerdere verworven vaardigheden. Voorbeelden: Het injecteren van een patiënt is in principe een reproductieve psychomotorische vaardigheid. Maar dit kan veranderen in een productieve vaardigheid als de patiënt die geïnjecteerd moet worden zeer agressief gedrag vertoont en als dit voor de leerling een nieuwe situatie is waarin hij onvoldoende houvast heeft aan vaste handelingsvoorschriften. Hetzelfde geldt voor de in principe reproductieve vaardigheid ’wassen en aankleden van een patiënt’. Bij een patiënt met hevige spasmen zou het weleens een productieve vaardigheid kunnen zijn. tabel 3 - Vaardigheden volgens Romiszowski reproductieve vaardigheden productieve vaardigheden cognitieve vaardigheden berekenen wanneer een infuusfles een verpleegplan opstellen vervangen moet worden psychomotorische vaardigheden bloeddruk meten in een routine- een injectie toedienen situatie reactieve vaardigheden aandacht geven aan de patiënt zelfverwerkelijking interactieve vaardigheden goede manieren hebben leiderschap Het grote voordeel van een indeling als die van Romiszowski is dat men daarmee een soms complexe taak goed kan analyseren. Hierdoor wordt helderder welke vaardigheden vereist zijn voor het uitvoeren van die taak. Ook bij het concretiseren van eindtermen in leerdoelen biedt een taxonomie houvast. 2.4.3 Leerdoelen Een leerdoel is pas echt een leerdoel als een verschil kan worden waargenomen tussen leerlingen die het doel hebben bereikt en leerlingen voor wie dat (nog) niet het geval is. Zo’n verschil biedt een eerste aanzet voor toetsontwikkeling. Leerdoelen kunnen alleen gerealiseerd worden als valt na te gaan of ze bereikt zijn, dus ieder leerdoel moet precies gedefinieerd worden. Wat niet precies kan worden beschreven, is lastig te verantwoorden, nog moeilijker te onderwijzen en onmogelijk te toetsen! Een toetsbaar leerdoel is constateerbaar en meetbaar. ’Constateerbaar’ wil zeggen dat kan worden waargenomen of een leerling het leerdoel heeft bereikt. ’Meetbaar’ houdt in dat de mate waarin het leerdoel is bereikt, kan worden gekwantificeerd. Dat wil zeggen in een waarde kan worden uitgedrukt, bijv.: 1 = bereikt, 0 = niet bereikt, ½ = gedeeltelijk bereikt; 10 punten = geheel bereikt, 8 punten = voor 80% bereikt, etcetera. Het formuleren van een leerdoel op een zodanige manier dat bereiken ervan constateerbaar is, heet concretiseren. Het zodanig formuleren van een leerdoel dat de mate van realisatie meetbaar is, heet operationaliseren. Concretiseren en operationaliseren worden wel in één woord samengevat met specificeren. 17
  • 22. Hoofdstuk 2 Voor de specificatie van leerdoelen gelden enkele algemene regels: 1 Omschrijf een leerdoel als resultaat van een leerproces, dus als een leereffect. Voorbeeld: ’Voorkomen en bestrijden van doorliggen bij bedlegerige patiënten’ (als resultaat van de opleiding) en niet: ’De verpleegkundige doordringen van de noodzaak om doorliggen bij bedlegerige patiënten te voorkomen en te bestrijden’ (deze formulering heeft immers betrekking op het instructieproces). 2 Geef onder elk leerdoel een representatief aantal voorbeelden van wat de leerling moet kunnen als hij het leerdoel heeft bereikt. ’representatief’ wil hier zeggen: als het profiel van de leerling beantwoordt aan de voorbeelden, heeft hij het gestelde leerdoel bereikt. Voorbeeld: ’Zorgt stelselmatig voor een gladde en droge onderlaag bij bedlegerige patiënten’. 3 Begin iedere formulering met een werkwoord dat een waarneembaar gedrag aanduidt. Dus niet: ’De leerling dient in staat te zijn om getallen van twee cijfers op te tellen’, maar: ’Telt getallen van twee cijfers op’; al het andere is overbodig. En ook niet: ’Beheerst de regels van het optellen van meercijferige getallen’. Hierbij wordt niet meteen duidelijk, hoe die beheersing moet blijken. Denkbaar is bijvoorbeeld dat de leerling die regels zelf zou moeten formuleren! Werkwoorden of werkwoordelijke omschrijvingen die een waarneembaar gedrag aanduiden, zijn bijvoorbeeld: aanwijzen, beschrijven, berekenen, citeren, definiëren, de verschillen aangeven tussen, een onderscheid maken tussen, een verklaring geven van, een voorbeeld geven van, noemen, noteren, opsommen, opstellen (bijv. van een grafiek). Bij het definiëren van beroepsvaardigheden worden in de regel werkwoorden gebruikt die naar observeerbare handelingen verwijzen. 4 Vermeld de voorwaarden/omstandigheden waaronder het gedrag vertoond moet worden. 5 Noem de normen waaraan het gedrag moet voldoen. Voorbeeld: ’Typt [waarneembaar gedrag] een geschreven concept over in WP 5.1 [voorwaarden/om- standigheden: de tekst wordt in geschreven vorm aangeboden en als tekstverwerker moet WP 5.1 gebruikt worden] met minimaal 100 aanslagen per minuut waarbij maximaal 5 fouten per getypte pagina mogen worden gemaakt [norm]’. Voorbeeld: ’Geeft aan welke zuigelingen niet gebaad mogen worden’. In deze vorm is het leerdoel wel erg open; moet de leerling een sluitende opsomming van alle mogelijke en denkbare gevallen leveren? Alternatief: ’Geeft aan welke zuigelingen wel en welke niet gebaad mogen worden, gegeven de volgende aandoeningen [volgt een lijst die de voorwaarden/omstandigheden preciseert waaronder het gewenste gedrag – aangeven wel of niet – vertoond moet worden]’. 18
  • 23. De plaats van meten en beoordelen in het didactisch proces Een leerdoel dat volgens de regels 1 t/m 5 geformuleerd is, heeft het karakter van een taakomschrij- ving. Andere voorbeelden: ’Noemt 6 van de 10 verschillen tussen ziekte A en ziekte B als vermeld in het leerboek (p. 316 - 321).’ ’Voert bij 90% van de patiënten een venapunctie zodanig uit, dat 1) de patiënt niet meer pijn heeft dan nodig is en 2 het buisje zich met bloed vult.’ 6 Splits complexe taakomschrijvingen uit, waardoor ze overzichtelijker worden. Dus niet: ’Maakt een onderscheid tussen vier toedieningswijzen van injecties naar werkingsduur, injectieplaats, opnamesnelheid en gevaar’, maar: 1 Noemt vier toedieningswijzen van injecties. 1.1 Geeft daarbij het orgaan aan, waar de injectievloeistof het eerst terechtkomt. 1.2 Rangschikt de toedieningswijzen naar werkingsduur/opnamesnelheid. 1.3 Noemt per toedieningswijze twee risico’s voor de patiënt. 2.4.4 Het toetsen van kennis en vaardigheden Ook bij de toetsconstructie is het zinvol gebruik te maken van de taxonomie van Romiszowski. Dat geldt zeker als het gaat om meetinstrumenten of beoordelingsprocedures ten behoeve van meer complexe taken. Door het vooraf analyseren van de leerdoelen en de kennis- en vaardigheidscomponenten waaruit deze leerdoelen bestaan, verkrijgt men een goed beeld van de complexiteit van de taak. Een (sterk vereenvoudigd) voorbeeld maakt dit duidelijk: Er moet een observatielijst ontwikkeld moet worden voor de taak ’begeleiden van een patiënt met AIDS’. De eerste stap om de complexiteit van de taak in beeld te krijgen, zal bestaan uit het analyseren van de vaardigheden die in deze taak aan de orde zijn. Dit kan leiden tot de volgende vaardigheden: – cognitieve vaardigheden; – reactieve vaardigheden; – interactieve vaardigheden. De volgende fase zal zijn om iedere vaardigheid nader te analyseren. Dit kan leiden tot een verdere verfijning van cognitieve vaardigheden in de vorm van: . toepassen van kennis en inzicht in de aandoening; . toepassen van kennis en inzicht in stervensbegeleiding; Deze cognitieve vaardigheden vormen in de uitvoering van de taak de voorwaarde voor de andere vaardigheden. Voor de reactieve component kan dit de volgende deelvaardigheden opleveren: . kunnen hanteren van eigen emoties en die van de patiënt; . aandacht hebben voor de patiënt en diens emoties en gevoelens; . beroepshouding tonen; . handelen volgens een waardensysteem; Voor de interactieve component kunnen de deelvaardigheden er als volgt uitzien: . kunnen communiceren met de patiënt en diens relaties; . voorlichting kunnen geven aan de patiënt en diens relaties. Indien zinvol zou men de deelvaardigheden nog verder kunnen analyseren. 19
  • 24. Hoofdstuk 2 Door op deze wijze een taak uiteen te rafelen in deelvaardigheden, daarbij desgewenst ook nog aan te geven of het gaat om reproductieve of om productieve vaardigheden, verkrijgt men een gestructureerde lijst met observatiepunten. Het is dan vervolgens aan de inhoudsdeskundigen om vast te stellen of de observatiepunten tezamen de taak ’dekken’ (validiteitsvraag) en of elk observatiepunt even zwaar weegt in de beoordeling etcetera. Hierop wordt in dit hoofdstuk verder niet ingegaan. Uit dit voorbeeld wordt duidelijk dat de meeste taken in de beroepssituatie bestaan uit verschillende vaardigheden of, zoals dat ook wel genoemd wordt, een ’mix van componenten’ (Dochy, 1995). In het begin van de opleiding of module hebben taken vaak betrekking op één soort vaardigheid (meestal cognitief of psychomotorisch). Naarmate de opleiding vordert, worden de taken complexer en staan de taken dichter bij de werkelijke praktijk; de taken omvatten dan vaak meer dan één vaardigheid. Daarbij is het vaak moeilijk aan te geven welke component het grootste stempel drukt op de taak. 2.5 Ordeningsmogelijkheden voor toetsvormen In dit handboek wordt een scala aan toetsvormen gepresenteerd, worden aanwijzingen gegeven voor de constructie of aanschaf en worden eisen geformuleerd waaraan toetsen moeten voldoen. Het belangrijkste punt is misschien echter wel de keuze voor een bepaalde toetsvorm. Welke toets uit de hele scala is op welk moment in het didactische proces nu het meest geschikt? Op deze vraag wordt in deze paragraaf vanuit twee verschillende invalshoeken een eerste antwoord gegeven. 2.5.1 Aansluiting bij de leerdoelen: de ’fit’ Als na analyse duidelijk is uit welke inhoud en vaardigheden een taak bestaat en de leerdoelen daarmee duidelijk geworden zijn, moet vervolgens de passende toetsvorm worden gekozen. De toetsvorm wordt bepaald door de eindtermen/leerdoelen. De mate waarin de toets past bij de beschreven doelstellingen wordt wel de ’fit’ genoemd (P. Cras in Kessels & Smit, dl. 10). Uit oogpunt van validiteit (zie par. 3.3) is het van belang dat de toets meet wat men beoogt te meten. Het gewenste gedrag moet door de toets worden uitgelokt. Als de leerling blijkens de leerdoelen een cognitieve vaardigheid moet beheersen, bijvoorbeeld het kunnen uitleggen van een procedure, zal de toetsvorm zodanig moeten zijn dat de leerling deze vaardigheid ook daadwerkelijk kan tonen. In zo’n geval zal dan van een schriftelijke toets of een mondelinge opdracht worden gebruikt. Als de leerling moet tonen dat hij een bepaalde handeling correct kan uitvoeren, zal hem in de toets ook de opdracht gegeven moeten worden om deze handeling uit te voeren. In het kader van het beoordelen van toetsen wordt wel een viertal ’fits’ onderscheiden. 1 Perfect fit: de uitvoering van de toetsopdracht levert de gewenste informatie op over de prestaties van de leerling. Het is goed mogelijk op basis daarvan uitspraken te doen over het beheersen van de leerdoelen. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. Toetsvorm: In een vooraf bepaalde zorgsituatie de leerling een anamnesegesprek laten voeren met een patiënt. 2 Fair fit: de uitvoering van de toetsopdracht levert met enige beperking (door de toetsopdracht zelf en/of door de situatie waarin wordt getoetst) informatie op over de prestaties van de leerling. Uitspraken over het beheersen van de leerdoelen kunnen met enig voorbehoud worden gedaan. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. 20
  • 25. De plaats van meten en beoordelen in het didactisch proces Toetsvorm: In een rollenspel, waarin een medeleerling de rol van patiënt speelt, de leerling een anamnesegesprek laten voeren met ’de patiënt’. 3 Conditional fit: de uitvoering van de toetsopdracht levert informatie op over het beheersen van voor de leerdoelen noodzakelijke voorwaarden. Dit is echter een onvoldoende basis om uitspraken te doen over het daadwerkelijk beheersen van de leerdoelen. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. Toetsvorm: De leerling schriftelijk of mondeling laten beschrijven waaruit de voorbereiding, uitvoering en afhandeling van een anamnesegesprek bestaat. 4 Misfit: de uitvoering van de toetsopdracht levert informatie op waarmee op geen enkele wijze uitspraken gedaan kunnen worden over het beheersen van de leerdoelen. De validiteit van de meting is in dit geval dus slecht. Voorbeeld: Doelstelling: Een anamnesegesprek kunnen voeren met een volwassen patiënt. Toetsvorm: De leerling een schriftelijke toets voorleggen over communicatiemodellen. Het zal duidelijk zijn dat in principe steeds naar een perfect fit dient te worden nagestreefd. Opgemerkt dient ook te worden dat de grens tussen perfect fit en fair fit niet altijd even scherp te trekken is: het kan zijn dat de rol door de medeleerling dermate goed gespeeld wordt dat er een situatie ontstaat die in feite als perfect fit aan te merken is. 2.5.2 Aansluiting bij de beroepspraktijk: de representativiteit In de vorige paragraaf is betoogd dat de keuze van de toetsvorm bepaald wordt door de leerdoelen die men wil meten. Een schriftelijke toets met open vragen kan een perfect fit betekenen als men als doelstelling heeft de cognitieve vaardigheden te meten met betrekking tot bepaalde leerinhouden. Dezelfde toets zal een misfit zijn als men als doelstelling heeft de leerling zijn psychomotorische en/of reactieve of interactieve vaardigheden te laten tonen met betrekking tot die leerinhouden. Dit betekent dat er over de geschiktheid van een toetsvorm alleen maar een uitspraak kan worden gedaan in relatie tot de leerdoelen die de toets moet meten. Zolang de leerdoelen één bepaalde vaardigheid bevatten, bijvoorbeeld de cognitieve vaardigheid, kan er een duidelijke uitspraak gedaan worden over de best passende toetsvorm. Dat wordt aanzienlijk ingewikkelder naarmate leerdoelen meer vaardigheden omvatten. Dat brengt ons op de tweede invalshoek: de mate van representativiteit van de toets voor de praktijksituatie. De representativiteit van een toets wordt bepaald door de volgende twee eigenschappen: omvattendheid en natuurgetrouwheid. De omvattendheid van een toets wordt groter naarmate meer verschillende taaksituaties (die wel allemaal een beroep doen op dezelfde vaardigheden) worden aangeboden. Het wordt daardoor meer verantwoord om uitspraken te doen over taaksituaties die niet in de toets zijn opgenomen. Met natuurgetrouwheid wordt bedoeld de mate waarin de taaksituatie een afspiegeling is van de taakuitvoering in een reële werksituatie. Hoe groter de representativiteit van de toets, des te groter de rechtvaardiging om op basis van de toetsprestatie uitspraken te doen over de competentie van leerlingen. Om duidelijk te maken hoe de ’fit’ (of mate van validiteit) en de representativiteit zich tot elkaar verhouden, worden in afbeelding 10 beide begrippen geïllustreerd. De verticale pijlen geven de relatie tussen leerdoelen en toetsvorm (de ’fit’). De horizontale pijl geeft de mate van representativiteit aan. In de loop van een bepaalde leereenheid (bijv. een module) of van de gehele opleiding verschuiven de 21
  • 26. Hoofdstuk 2 leerdoelen van ’theorie’ naar ’praktijk’ of – anders gezegd – van ’overwegend cognitief’ (aan de linkerkant) naar ’een mix van vaardigheden’ (aan de rechterkant). De werkelijke beroepspraktijk wordt in de loop van de opleiding dus steeds meer benaderd. De taken worden derhalve ook complexer. De toetsen die op deze leerdoelen betrekking hebben, verschuiven op overeenkomstige wijze: de verticale pijlen moeten voor een ’perfect fit’ loodrecht naar beneden lopen. afb. 10 - Evaluatie van het onderwijs In het begin van de leereenheid of opleiding hebben de toetsen voornamelijk betrekking op de theorie/de cognitieve vaardigheden. Deze toetsen zijn meestal weinig representatief voor de praktijksituatie en meten meestal voorwaardelijke kennis en inzicht. Aan het eind van de leereenheid of opleiding heeft de toetsing betrekking op alle relevante vaardigheden die de leerling volgens de leerdoelen in de praktijksituatie moet beheersen. De toetsing vindt dan zo natuurgetrouw en volledig mogelijk plaats. Anders gezegd: de toetsing loopt gedurende de opleidingsfase van ’laag representatief’ via ’gemiddeld representatief’ naar ’hoog representatief’. Zolang het meetinstrument meet wat het moet meten (de leerinhoud en de vaardigheid die in het leerdoel beschreven staan), is de toets valide en is er sprake van een perfect fit. Representativiteit als indelingsprincipe voor de toetsvormen in dit handboek Op basis van het uitgangspunt van representativiteit (de relatie tussen de toetsvorm en de beroepsprak- tijk) is een indeling van toetsvormen tot stand gekomen zoals weergegeven in tabel 4 (zie ook Straetmans, 1994). 22
  • 27. De plaats van meten en beoordelen in het didactisch proces tabel 4 - Indeling toetsvormen naar representativiteit representativiteit omschrijving voorbeelden laag niet natuurgetrouw, meestal één • toetsen met gesloten vragen vaardigheid • toetsen met open vragen • casustoetsen • potlood-en-papier-toetsen gemiddeld matig natuurgetrouw, vaak meer • computersimulatie, beeldplaat dan één vaardigheid • simulator • skill sample test hoog hoog tot zeer hoog natuurge- • patiëntsimulatie trouw, integratie van vaardighe- • work sample test / praktijktoetsing op de werkplek den In het handboek worden de toetsvormen gepresenteerd van laag representatief naar hoog representatief. In principe moet gekozen worden voor een toetsvorm die wat representativiteit betreft perfect aansluit bij de betreffende leerdoelen c.q. het voorafgaande onderwijs. Om verschillende redenen, die in de volgende hoofdstukken aan de orde komen, moeten soms concessies worden gedaan ten aanzien van dit uitgangspunt. Dat betekent over het algemeen dat genoegen moet worden genomen met een toetsvorm die iets minder representatief is dan het leerdoel. Door nu de toetsvormen te rangschikken naar representativiteit kan een optimaal compromis gevonden worden tussen wat enerzijds wenselijk en anderzijds haalbaar is. 23
  • 28. 3 Kwaliteitseisen voor de toets als meetinstrument De beslissingen die genomen worden op grond van de meting van leerresultaten hebben vaak vérstrekkende consequenties voor de leerlingen. Zij hebben dan ook recht op kwalitatief goede meetinstrumenten en beoordelingsprocedures. Ook moeten zij zich op een adequate manier kunnen voorbereiden op de meting. Dit impliceert dat zij een duidelijk beeld moeten hebben van wat er van hen verwacht wordt. Daarbij is het ook van belang zich te realiseren dat het studiegedrag van leerlingen in het algemeen sterk gestuurd wordt door toetsing (examens, toetsen en beoordelingsprocedures): wat niet getoetst wordt, wordt nauwelijks geleerd. Dit heeft rechtstreeks consequenties voor het onderwijs. Dat daarmee een zware verantwoordelijkheid ligt bij ’de toetsing’ (het meetinstrument, de procedures en de constructeurs hiervan) moge duidelijk zijn. Het is dus een absolute noodzaak dat het meetinstru- ment en de beoordelingsprocedures zélf voortdurend onderwerp van kwaliteitszorg zijn. Vragen als: ’Hoe valide en hoe betrouwbaar zijn de gegevens van de toets of de beoordelingsprocedure?’, ’Weet de leerling van tevoren wat er van hem verwacht wordt?’ en ’Hoe aanvaardbaar zijn de beslissingen voor de leerlingen, de opleiding, de overheid, de maatschappij?’ zijn terecht gestelde vragen in het kader van een verantwoorde meting. Als externe instanties, zoals ministerie of zorginstellingen, zich een oordeel willen vormen over de kwaliteit van de opleiding, zal de wijze waarop deze opleiding gestalte geeft aan het toetsingsbeleid en de kwaliteitseisen die daaraan gesteld worden een belangrijk element in de beoordeling van de kwaliteit van de opleiding zijn. In dit hoofdstuk wordt ingegaan op de belangrijkste kwaliteitseisen die aan een examen, toets of beoordelingsprocedure gesteld worden. In paragraaf 3.1 wordt eerst ingegaan op de objectiviteit van metingen. Vervolgens komt in paragraaf 3.2 het begrip betrouwbaarheid aan de orde. Daarbij wordt tevens ingegaan op het schatten van de (standaard)meetfout. Daarna wordt in paragraaf 3.3 het begrip validiteit besproken. In paragraaf 3.4 wordt aandacht besteed aan de kwaliteitseisen: efficiëntie, transparantie, aanvaardbaar- heid en specificiteit. Vervolgens wordt in paragraaf 3.5 ingegaan op het spanningsveld tussen betrouwbaarheid, validiteit en efficiëntie. Ten slotte wordt in paragraaf 3.6 een aantal aandachtspunten gepresenteerd ter verhoging van de kwaliteit van een meetinstrument of beoordelingsprocedure. 3.1 Objectiviteit Objectiviteit betekent beoordelaarsonafhankelijkheid. Een meting is objectief als de prestaties van de leerlingen – ongeacht de beoordelaar of de beoordelingssituatie – steeds hetzelfde beoordeeld of gewaardeerd worden. Maar zolang er mensen betrokken zijn bij het beoordelen, is er altijd sprake van een zekere mate van subjectiviteit. Om die reden wordt objectiviteit ook wel opgevat als intersubjectiviteit oftewel de mate waarin twee of meer (per definitie subjectieve) beoordelingen met elkaar overeenstemmen. 24
  • 29. Kwaliteitseisen m.b.t. de toets als meetinstrument Door objectiviteit van een beoordeling te omschrijven als intersubjectiviteit ontstaat er een mogelijkheid om de mate van objectiviteit te bepalen. Door twee of meer beoordelaars onafhankelijk van elkaar een beoordeling te laten uitvoeren en te bepalen hoe de resultaten daarvan onderling correleren, is de objectiviteit vast te stellen. Men spreekt in dit geval ook wel van interbeoordelaarsbetrouwbaarheid. Men kan op dezelfde wijze ook de objectiviteit verhogen: door de toetsprestaties van leerlingen door minimaal twee beoordelaars te laten beoordelen en de beoordelaars vervolgens de uitkomsten hiervan met elkaar te laten vergelijken en bespreken, kan een zekere mate van overeenstemming tussen de beoordelaars worden bereikt. De invloed van een mogelijk subjectief oordeel van een individuele beoordelaar wordt op deze wijze ’geneutraliseerd’. Deze manier is met name geschikt voor het verantwoord beoordelen van prestaties van leerlingen op open vragen (lang antwoord) of bij het beoordelen van praktische vaardigheden, omdat hierbij in het algemeen minder gemakkelijk sluitende antwoordmodellen te maken zijn en de kans op interpretatiever- schillen tussen de beoordelaars dus groter is. In zijn algemeenheid is er over objectiviteit een aantal uitspraken te doen: – Objectiviteit is geen ’hard gegeven’, maar een intentie om subjectieve elementen in de beoordeling zoveel mogelijk uit te schakelen en daarmee de ’eerlijkheid’ in de beoordeling van de prestaties van leerlingen te bevorderen. – De objectiviteit van een beoordeling neemt toe indien de beoordelaar gebruikmaakt van vooraf opgestelde antwoordmodellen, beoordelingsprocedures of -protocollen en deze bij elke leerling op eenzelfde wijze hanteert. Men noemt dit ook wel ’standaardisatie’ van de beoordelingsprocedure. – Alleen als de verwerking van de prestaties van leerlingen op een toets via een volledig gestandaardi- seerde procedure (bijv. door de computer) wordt verricht, is er sprake van een volledige objectiviteit. Er komt immers geen beoordelaar meer aan te pas: de toetsprestaties van de leerlingen worden alle volgens dezelfde maatstaven beoordeeld op basis van vooraf vastgestelde criteria (sleutels, antwoordmodellen, procedures). – Naarmate de beoordelingssituatie complexer is, is het moeilijker eenduidige beoordelingsmodellen te ontwikkelen en is de kans op subjectiviteit dus groter. Het verdient daarom aanbeveling – zeker bij het toetsen van praktische vaardigheden – om ervoor te zorgen dat de te beoordelen praktijksitua- tie overzichtelijk en hanteerbaar is (zijn) voor de beoordelaar. Een praktijkopdracht die qua omvang beperkt is en waarin de te beoordelen vaardigheden helder zijn voor alle betrokkenen, biedt een grotere kans op objectiviteit dan een veel ruimere opdracht. – Naarmate de te beoordelen vaardigheden meer concreet en direct waarneembaar zijn, is de kans op een objectieve uitspraak van de beoordelaar groter. Beoordelaars zullen eerder tot eenzelfde oordeel over de prestatie van een leerling komen als het gaat om instrumenteel-technische vaardigheden (bijv. het kunnen verwisselen van een infuus) dan bij het beoordelen van sociale of communicatieve vaardigheden. – Wanneer in een kort tijdsbestek meerdere leerlingen moeten worden beoordeeld op eenzelfde vaardigheid of in een gelijksoortige beoordelingssituatie, kan de objectiviteit geschaad worden doordat de beoordelaar de prestaties van de leerlingen onbewust met elkaar vergelijkt (volgorde- of sequentie-effect). In dat geval voegt de beoordelaar in feite – naast de aanwezige protocollen of antwoordmodellen – nog een ’eigen’ beoordelingscriterium toe. In paragraaf 8.2 worden suggesties gegeven om dergelijke beoordelaarseffecten te minimaliseren. – De objectiviteit van een meetinstrument of van een beoordelingsprocedure speelt een niet onbelangrijke rol bij de betrouwbaarheid van het meetinstrument. Hierover gaat de volgende paragraaf. 25
  • 30. Hoofdstuk 3 3.2 Betrouwbaarheid Het doel van meten en beoordelen van leerresultaten van leerlingen is zo zuiver mogelijk vast te stellen of de leerling de beoogde leerdoelen beheerst. De toetsprestaties van de leerling (goed of slecht) moeten daarbij ook werkelijk aan deze leerling toegeschreven kunnen worden en niet aan diverse omliggende factoren. Voorbeelden van factoren die de toetsprestaties (onbewust en onbedoeld) beïnvloeden, zijn de patiëntensituatie, de te krappe tijd voor de toetsopdracht, het gokken van antwoorden of het niet- gestandaardiseerd zijn van een toetssituatie. Ook een subjectieve beoordeling van de toetsprestaties door de beoordelaar is een factor die de betrouwbaarheid van de meting schaadt. Immers: de ene beoordelaar zal dan tot een andere uitspraak komen over de leerresultaten van de leerling dan zijn collega. Bij betrouwbaarheid gaat het om vragen als: ’Zijn de uitkomsten van de meting gelijk als deze wordt verricht door verschillende personen?’ of ’Als we deze toets overmorgen weer afnemen, zijn de toetsresultaten dan hetzelfde?’ of ’Zijn de toetsprestaties van de leerling gelijk ongeacht de patiëntensituatie?’. De betrouwbaarheid van een meetinstrument geeft aan de mate waarin het meetinstrument consistent is bij het meten: de mate waarin de meetresultaten nauwkeurig en reproduceerbaar (d.w.z. vrij van meetfouten) zijn. Het zal duidelijk zijn dat de meting zuiverder en de toetsuitslag dus betrouwbaarder is naarmate de invloed van bovengenoemde factoren op de toetsing geringer is. 3.2.1 Schatting van de betrouwbaarheidscoëfficiënt De betrouwbaarheid van een toets wordt meestal uitgedrukt in een correlatiecoëfficiënt. Dat is een maat voor de relatie tussen twee reeksen getallen (bijv. tussen de scores op toets A op tijdstip X en de scores op dezelfde toets op tijdstip Y). De betrouwbaarheid van toets A, uitgedrukt in een correlatie-coëfficiënt, kan variëren van 0 tot 1. Een correlatie van 0 wil zeggen dat er geen enkel verband is tussen de scores op de tijdstippen X en Y. Dat kan alleen voorkomen als de scores op basis van toeval aan de leerlingen zijn toegekend. Zo’n toets is uiteraard niet informatief met betrekking tot de hoeveelheid kennis die leerlingen bezitten. Als de correlatie 1 bedraagt, zijn de scores op tijdstip Y perfect te voorspellen vanuit de scores op tijdstip X. (Hierbij is het niet noodzakelijk dat de scores op tijdstip X en Y identiek zijn. Wél moet de rangorde van leerlingen op basis van hun toetsscores identiek zijn.) Toets A meet dan met een maximale nauwkeurigheid. Beide extreme waarden zijn, zoals gezegd, echter alleen in theorie bereikbaar! Voor het uitdrukken van de betrouwbaarheid van een toets in de vorm van een correlatiecoëfficiënt, is het een vereiste dat men beschikt over twee reeksen toetsscores die bij dezelfde leerlingen verzameld zijn. Deze twee reeksen kunnen op verschillende manieren tot stand gekomen zijn: – door herhaalde afname van de toets; – door de afname van een paralleltoets (d.i. een gelijkwaardige versie van de originele toets); – door de toets te verdelen in twee helften (bijv. een deel van een toets bestaande uit opgaven met even volgnummers en een deel bestaande uit opgaven met oneven volgnummers), de zogenaamde. splitsingsmethode. Deze methoden zijn te herkennen in afbeelding 11 (Drenth en Sijtsma, 1990). In dit overzicht is ook een vierde methode opgenomen, die gebaseerd is op de covarianties tussen alle individuele items: de interne- consistentie-methode. 26
  • 31. Kwaliteitseisen m.b.t. de toets als meetinstrument afb. 11 - Methoden voor betrouwbaarheidsschatting Test-hertest-methode De leerlingen krijgen twee keer dezelfde toets voorgelegd met een bepaald interval tussen beide toetsafnamen. Vervolgens wordt de correlatie berekend tussen de resultaten van de eerste en de tweede afname. Aan deze methode kleven echter bezwaren. De leerlingen herinneren zich wellicht nog antwoorden die ze bij de vorige afname gegeven hebben of profiteren misschien op een andere manier van de eerdere ervaring. Daarbij is het niet duidelijk of alle leerlingen in gelijke mate van deze ’oefensituatie’ profiteren. Een praktisch bezwaar van deze methode is bovendien dat het meestal aan tijd zal ontbreken om leerlingen twee keer dezelfde toets te laten maken. Deze methode wordt om die reden niet nader uitgewerkt. Parallelvorm-methode Bij eenzelfde groep leerlingen worden op dezelfde dag of met een bepaald tijdsinterval tussen beide afnamen, twee paralleltoetsen afgenomen. Vervolgens wordt de correlatie berekend tussen de toetsresultaten op de eerste toets en die op de paralleltoets. Deze methode komt aan enkele methodologische bezwaren van de test-hertest-methode tegemoet. Toch wordt er in dit handboek geen uitwerking aan gegeven omdat ook deze methode een groot beroep doet op extra tijdsinvestering van zowel docent als leerlingen. Splitsingsmethode Deze methode is bruikbaar in de onderwijspraktijk omdat leerlingen geen extra toets hoeven te maken en docenten geen extra tijd hoeven te investeren in de constructie van een paralleltoets. De twee scorereeksen die nodig zijn om een schatting te maken van de betrouwbaarheid, worden op kunstmatige wijze ontleend aan één afname. De opgaven waaruit de toets bestaat, worden verdeeld over twee toetsgedeelten (bijv. de ene toets bevat alle even vraagnummers en de andere toets bevat alle oneven vraagnummers). Vervolgens kan de correlatie tussen beide delen van de toets berekend worden. De totale toets moet in dit geval wel voldoende beoordelingspunten bevatten om nog twee ’bruikbare’ toetsgedeelten over te houden. Het belangrijkste probleem van deze methode schuilt echter in de wijze waarop de toetsopgaven verdeeld worden over de twee delen; de bedoeling is dat de twee delen beschouwd kunnen worden als paralleltoetsen. Elke wijze van opdeling leidt echter tot een (iets) andere betrouwbaarheidsschatting. Voor dit probleem bestaat een oplossing, die tegenwoordig bekendstaat als de interne-consistentie-methode. 27
  • 32. Hoofdstuk 3 Interne-consistentie-methode Deze methode verdeelt de toets niet echt in twee delen, maar levert een schatting op van de gemiddelde betrouwbaarheid van alle mogelijke manieren om de toets te verdelen in helften. De betrouwbaarheid die op deze manier geschat wordt zegt iets over de interne consistentie van de toets. Interne consistentie verwijst naar het antwoordpatroon van de leerlingen. In tabel 5 is een volledig consistent antwoordpatroon te zien (een ideaal-situatie!). tabel 5 - Intern consistent antwoordpatroon leerlingen moeilijkheidsgraad opgaven 1 2 3 4 5 6 opgaven 1 1 1 1 1 1 0 .84 2 1 1 1 1 0 0 .66 3 1 1 1 1 0 0 .66 4 1 1 1 0 0 0 .50 5 1 1 0 0 0 0 .33 toetsscore 5 5 4 3 1 0 De moeilijkheidsgraad van de opgaven is hier aangeduid met de p-waarde, d.i. het percentage leerlingen dat deze opgave goed heeft gemaakt: hoe lager de p-waarde, hoe moeilijker de vraag voor deze groep leerlingen was. Het antwoordpatroon in dit schema geeft geen aanleiding om twijfels te uiten over de kwaliteit van de toets. Dat zou anders zijn als bijvoorbeeld leerling 2 (een goede leerling) op opgave 2 (een relatief gemakkelijke vraag) een fout antwoord had gegeven of als leerling 5 (een leerling met een lage toetsscore) een correct antwoord op opgave 4 (een relatief moeilijke vraag) had gegeven. Als dit soort onlogische antwoordpatronen veel voorkomt, zal de betrouwbaarheid van de toets laag zijn. Het bepalen van de interne consistentie vergt vele berekeningen en is bij grote aantallen leerlingen alleen haalbaar als men de beschikking heeft over een computerprogramma. Indien de scoring geautomatiseerd is, wordt vaak ook de interne consistentie standaard berekend. De output vermeldt dan ofwel de KR-20 of coëfficiënt alpha. Coëfficiënt alpha (α) is wiskundig equivalent aan de KR-20 en wordt gebruikt ingeval de antwoorden niet dichotoom gescoord kunnen worden met 0 (fout) en 1 (goed). De formule voor het berekenen van alpha luidt als volgt: Hier is n het aantal items in de toets, si2 de variantie van een item en st2 de variantie van de totale toets. Omdat bij een dichotoom gescoorde vraag de variantie van een item (si2) gelijk is aan pi(1−pi), kan gebruik worden gemaakt van een eenvoudiger formule, de KR-20: 28
  • 33. Kwaliteitseisen m.b.t. de toets als meetinstrument In deze formule is pi het percentage leerlingen dat item i juist heeft beantwoord. (1−pi is dan dus het percentage leerlingen dat datzelfde item fout heeft beantwoord). Deze formule gaat ervan uit dat alle items een gelijke standaarddeviatie bezitten. Als er sprake is van een toets waarvan alle items ongeveer een gelijke moeilijkheidsgraad hebben, kan een schatting verkregen worden van de hoogte van KR-20 met behulp van een formule die bekendstaat als KR-21: Hierbij is Mp de gemiddelde p-waarde voor alle items. KR-21 geeft een onderschatting van KR-20. Die onderschatting wordt ernstiger naarmate de opgaven in de toets meer variëren in moeilijkheidsgraad. Betrouwbaarheid van beslissingen Tot nu toe is steeds uitgegaan van de toets- of itemscores als basis voor het schatten van de toetsbetrouwbaarheid. Het is ook mogelijk de betrouwbaarheid te schatten met als uitgangspunt de beslissingen die naar aanleiding van de toetsscores genomen worden. Het gaat dan om beslissingen als zakken vs. slagen, onvoldoende vs. voldoende of niet-beheerser vs. beheerser. Voor dit type betrouwbaarheid moet een toets twee keer aan dezelfde leerlingen worden afgenomen (of er moeten twee parallelversies worden afgenomen). De proportie consistente beslissingen is een maat voor de beslissingsbetrouwbaarheid van de toets. tabel 6 - Beslissingsconsistentie bij herhaalde toetsafname tweede afname onvoldoen- voldoende de (a) (b) voldoende consistente inconsisten- a+b eerste beslissing te beslissing afname (c) (d) onvoldoen- inconsisten- consistente c+d de te beslissing beslissing a+c b+d N=a+b+c+d De beslissingsbe- trouwbaarheid wordt berekend door: 29
  • 34. Hoofdstuk 3 De interpretatie van deze proportie is eenvoudig. Een proportie van 0.80 betekent dat over 80% van de leerlingen bij de tweede afname dezelfde beslissing is genomen als bij de eerste afname. En dus dat er bij 20% van de leerlingen een inconsistente beslissing is genomen. 3.2.2 Meetfouten Als een persoon wordt opgemeten om te bepalen wat zijn lengte is, zal de nauwkeurigheid van die meting niet perfect zijn. Dit komt tot uiting als niet één keer maar meer keren wordt gemeten: de eerste keer levert bijvoorbeeld 183,5 cm op, de tweede keer 183,3 cm, etcetera. De ware score kan echter niet bepaald worden: het is een theoretische waarde. De Groot (1975) definieert de ware score als de gemiddelde score die een leerling zou halen wanneer deze de toets onder alle mogelijke omstandigheden zou maken, aangenomen dat geen leereffecten of vermoeidheidsverschijnselen zouden optreden. Elke toetsscore is opgebouwd uit een ’ware score’ en een ’meetfout’. De ware score is datgene waar het om gaat (de mate waarin de leerdoelen werkelijk beheerst worden); de meetfout is de onzuiverheid waarmee gemeten wordt. De meetfout kan de toetsscore ten onrechte hoger of lager doen zijn. Naarmate de verhouding tussen de meetfout en de ware score ongunstiger wordt, neemt de kans op het nemen van verkeerde beslissingen over leerlingen toe. De meetfout kan veroorzaakt worden door – het meetinstrument zélf en/of – de eigenschappen van de leerling en/of – de omstandigheden tijdens de toetsafname en/of – (interpretatie)verschillen bij de correctoren. Het meetinstrument zélf veroorzaakt onnauwkeurigheid in de metingen als het extreem gemakkelijke of moeilijke opgaven of opdrachten bevat: opgaven die niemand kan beantwoorden of die iedereen kan beantwoorden; opdrachten die niemand kan uitvoeren of iedereen kan uitvoeren. Het is dan niet meer duidelijk wat er gemeten wordt. Met andere woorden, er wordt onvoldoende gediscrimineerd (onderscheid gemaakt) tussen ’goede’ en ’zwakke’ leerlingen. Normaliter is immers te verwachten dat relatief moeilijke vragen of opdrachten met name door de ’goede’ leerlingen goed beantwoord of uitgevoerd worden. Als dat stelselmatig niet het geval is, is er reden te twijfelen aan het meetinstrument zélf. Een tekort aan toetsopgaven of observatiepunten is een andere bron van onnauwkeurigheid: de invloed van elke toetsvraag of elk observatiepunt op de uitslag van de totale meting is dan relatief erg hoog. Door meer meetpunten in een toets of opdracht op te nemen, neemt de kans op meetfouten af (en dus de meetnauwkeurigheid toe) of – anders gezegd – door meer meetpunten op te nemen wordt de invloed van de meetfout op de totale toetsbeoordeling kleiner. Dit pleit dus voor een langere toets en/of voor meer (relevante) beoordelingscriteria in een observatielijst. Daarbij moet uiteraard rekening gehouden worden met de hanteerbaarheid van de toets (een te lange toets of een te lange lijst van beoordelingscriteria is niet meer hanteerbaar). Ook de eigenschappen van de leerling kunnen onnauwkeurigheid in de meting veroorzaken. Het gaat hier dan om eigenschappen die in feite niets met de beheersing van de leerdoelen te maken hebben maar niettemin van invloed kunnen zijn op de toetsprestatie: een leerling die last heeft van examenvrees zal waarschijnlijk onder zijn niveau presteren. Ook minder stabiele eigenschappen zoals gemoedstoestand of gezondheid kunnen de toetsprestatie negatief beïnvloeden. 30
  • 35. Kwaliteitseisen m.b.t. de toets als meetinstrument Onnauwkeurigheid in de metingen kan ook veroorzaakt worden door de omstandigheden tijdens de toetsing. Lawaai in de naaste omgeving, slechte toetsinstructies, slechte verlichting of ventilatie zijn voorbeelden van storende beïnvloeding van de meetnauwkeurigheid. Zij dragen bij aan de meetfout en daarmee aan de onbetrouwbaarheid van de beslissingen die genomen worden op grond van de toetsprestaties. Ook als leerlingen in de gelegenheid zijn om bijvoorbeeld ’af te kijken’ of ’te spieken’ zal de toetsscore geen goede indicatie zijn voor de mate van beheersing van de leerdoelen. Zoals ook al aangegeven is in paragraaf 3.1 (objectiviteit) kan onnauwkeurigheid van de meting ten slotte ook veroorzaakt worden door (interpretatie)verschillen van correctoren of beoordelaars. Als twee correctoren of beoordelaars tot een duidelijk afwijkend oordeel komen over eenzelfde prestatie van een leerling, is de meting niet consistent: afhankelijk van degene die beoordeelt kan de uitspraak over de studieresultaten verschillen. Ook indien eenzelfde beoordelaar een toets of een praktijkopdracht diverse keren achter elkaar moet beoordelen (van verschillende leerlingen) is de beoordeling ervan vaak inconsistent (sequentie-effect). De toetsprestaties van een leerling op een toets of bij een opdracht kan dus zowel positief als negatief beïnvloed worden door de corrector of beoordelaar. Bij meerkeuzevragen speelt dit probleem niet omdat het antwoord van tevoren vastligt en er (ingeval van mechanische verwerking) geen interpretatie aan te pas komt. Bij open vragen (lang-antwoord), praktijkopdrachten of dergelijke speelt dit subjectiviteitsprobleem echter wel degelijk. In het voorgaande blijkt dat de betrouwbaarheid van een meting door velerlei factoren (meetfouten) beïnvloed kan worden en niet met zekerheid aan te geven is. De betrouwbaarheid kan echter wel geschat worden. Voor deze schatting bestaan verschillende methoden (zie par. 3.2). Het uiteindelijk resultaat is een getal als maat voor de betrouwbaarheid van de meting. Hoe hoog de betrouwbaarheid voor een specifiek meetinstrument moet zijn is moeilijk aan te geven. De betrouwbaarheid wordt immers door een aantal factoren beïnvloed, zoals bijvoorbeeld toetslengte: hoe langer de toets, des te minder kans op toevalstreffers en des te hoger de betrouwbaarheid. Maar aan de lengte van de toets moeten soms aanzienlijke concessies gedaan worden in verband met de hanteerbaar- heid. Het zou dan onredelijk zijn om een vaste hoogte voor de betrouwbaarheid te hanteren. Ook de consequenties voor de leerlingen kunnen een rol spelen bij de vraag wat een aanvaardbare betrouwbaarheid is. Als die consequenties gering zijn, mag genoegen worden genomen met een lagere betrouwbaarheid dan wanneer die consequenties ’zwaar’ zijn. Afhankelijk van het doel van het meetinstrument moet men dus een afweging maken welke hoogte van de betrouwbaarheid wel of niet meer acceptabel is. Hier ligt dus een taak voor bijvoorbeeld een toetsingscommissie van de opleiding. 3.2.3 De standaardmeetfout In principe kan bij elke meting de betrouwbaarheid geschat worden. Dit betekent dat ook de meetfout geschat kan worden. De schatting van de meetfout wordt de standaardmeetfout genoemd. Deze wordt evenals de betrouwbaarheid uitgedrukt in een getal en wordt berekend met behulp van de toetsbetrouwbaarheid. De standaardmeetfout geeft een schatting van de te verwachten grootte van de afwijkingen van de toetsscores van de ene op de andere meting. Of, anders gezegd: de standaardmeetfout geeft de meetfout aan die ’in doorsnee’ bij meting met een bepaalde toets verwacht mag worden. Met de standaardmeetfout kan een interval berekend worden rondom elke individuele toetsscore waarbinnen met een bepaalde zekerheid de ware score van de betreffende leerling zal liggen. Hoe kleiner de standaardmeetfout, des te dichter ligt de toetsscore in de buurt van de ’ware’ score. 31
  • 36. Hoofdstuk 3 Verondersteld mag worden dat de toetsscores bij herhaalde meting normaal verdeeld zullen zijn rondom de gemiddelde score. Het beeld ziet er dan uit zoals weergegeven in afbeelding 12. afb. 12 - Normaalverdeling van toetsscores bij herhaalde meting Er is sprake van een normale verdeling wanneer de grafiek symmetrisch klokvormig is. De spreiding (standaarddeviatie) van die herhaalde metingen bij dezelfde persoon is dan de standaardmeetfout. Met 70% zekerheid ligt de ware score van de leerling tussen zijn toetsscore min één standaarddeviatie (−1 SD) en zijn toetsscore plus één standaarddeviatie (+1 SD). In de praktijk is het uiteraard niet mogelijk om een toets zo vaak bij een en dezelfde leerling af te nemen dat de standaarddeviatie voor die leerling berekend kan worden. Wanneer de toets bij een groep leerlingen is afgenomen, kan de standaardmeetfout (SE) echter geschat worden met behulp van de betrouwbaarheid (rXX’) en de standaarddeviatie van de toets (St): Voor het berekenen van de betrouwbaarheid kan gebruik worden gemaakt van de hiervoor beschreven formules (α of KR-20). De formule voor de standaarddeviatie luidt: Hierbij is n het aantal items in de toets, xi de score op item i en X de gemiddelde score. In de volgende afbeeldingen wordt het verband tussen toetsscore (het cijfer), ware score (de vaardigheid) en standaardmeetfout nader uitgewerkt voor drie leerlingen (A, B en C). Bij de standaardmeetfout is altijd sprake van een bandbreedte rondom een bepaalde waarde. Uitgaande van een bepaalde toetsscore (bijv. 6,5) en een standaardmeetfout (bijv. 2,5: een vrij onnauwkeurige meting) kun je met 70% zekerheid zeggen dat de ware score zal liggen tussen 6,5 − 2,5 en 6,5 + 2,5. De vaardigheid van de leerling ligt op de bepaalde cijferschaal dus tussen 4 en 9. Dit betekent derhalve dat drie leerlingen, die allemaal een 6,5 halen, toch aanzienlijk kunnen verschillen in vaardigheid. Deze situatie is weergegeven in afbeelding 13. 32