Werkproef versus assessment: wat werkt beter?

In het kort

Een werkproef laat iemand het echte werk doen. Een assessment meet vaak via tests (capaciteiten, persoonlijkheid), soms aangevuld met een simulatie.
Een werkproef voorspelt werkprestatie sterk (rond .33) en laat kleinere verschillen tussen groepen zien dan een capaciteitentest.
Een goed assessment center is zelf een vorm van werkproef en voorspelt vergelijkbaar (rond .33).
De zwakste schakel is de persoonlijkheidsvragenlijst: lage voorspellende waarde (rond .22) en makkelijk te faken.
Mensen ervaren een werkproef als relevanter en eerlijker, wat uitval van goede mensen voorkomt.

"Werkproef of assessment" klinkt als een keuze tussen twee tegenpolen. Dat is het niet. De interessantere vraag is niet welk label je gebruikt, maar of je meet wat iemand kán, of dat je een omweg neemt via tests die iets anders meten. Daar zit het echte verschil, en daar gaat dit artikel over.

Wat is het verschil tussen een werkproef en een assessment?

Een werkproef is een opdracht die een representatief stuk van het echte werk nabootst. Een marketeer maakt een campagneplan, een developer lost een realistisch codeprobleem op, een consultant analyseert een echte casus. Je beoordeelt het resultaat, niet een voorspelling ervan.

Een assessment is een verzamelterm. In de praktijk bedoelen mensen er vaak een psychologisch onderzoek mee via een bureau: een capaciteitentest (een vorm van intelligentietest), een persoonlijkheidsvragenlijst, soms een rollenspel of simulatie, en een gesprek met een psycholoog. Een assessment center is de uitgebreide variant met meerdere oefeningen.

En hier zit de eerste verrassing: arbeidspsychologen zien een assessment center als een specifieke vorm van werkproef. De simulaties en oefeningen erin zijn immers werk-gebaseerd. Het verschil zit dus niet in werkproef tegenover assessment, maar in welke onderdelen werk-gebaseerd zijn en welke op abstracte tests leunen.

Wat voorspelt beter?

De meest betrouwbare cijfers komen uit het heronderzoek van Sackett en collega's (2022), dat de bekende, maar overschatte cijfers van Schmidt en Hunter (1998) corrigeerde. Dit is hoe de relevante methoden scoren op voorspellende waarde voor werkprestatie:

Methode

Werk-gebaseerd

Test-gebaseerd

Werkproef

.33

—

Assessment center

.33

—

Capaciteitentest

—

.31

Persoonlijkheid

—

.22

Operationele validiteit voor werkprestatie. Bronnen: Sackett e.a. (2022, 2023), Barrick en Mount (1991).

De werkproef en het assessment center scoren even hoog, en hoger dan de losse tests. Het beeld is duidelijk: hoe dichter een methode bij het echte werk staat, hoe beter ze voorspelt. De persoonlijkheidsvragenlijst, vaak het hart van een bureau-assessment, is juist de zwakste.

Wat meet je eigenlijk?

Een werkproef meet direct bewijs: wat iemand produceert als hij het werk doet. Een capaciteitentest meet algemene aanleg, een goede voorspeller maar een proxy. Een persoonlijkheidsvragenlijst meet wat iemand over zichzelf zegt, en dat is iets heel anders dan wat iemand doet.

Dat laatste is meteen het grootste probleem van zelfrapportage. Onderzoek laat zien dat mensen hun antwoorden op persoonlijkheidstests kunnen aanpassen naar wat sociaal wenselijk is, en dat ook doen. Die vertekening gaat ten koste van de voorspellende waarde, juist bij de hoogst scorende mensen. Een werkproef heeft dat probleem niet: je kunt niet doen alsof je een goed plan schrijft. Je schrijft het, of niet.

Welke is eerlijker?

Voorspellende kracht is maar de helft van het verhaal. De andere helft is eerlijkheid: leidt de methode tot systematische benadeling van bepaalde groepen?

Hier scoren capaciteitentests het slechtst. Ze kennen de grootste verschillen tussen groepen van alle veelgebruikte methoden, wat betekent dat zwaar leunen op zo'n test bepaalde mensen structureel benadeelt. Werk-gebaseerde methoden laten kleinere verschillen zien, doordat ze beoordelen op concreet, relevant gedrag in plaats van op abstracte aanleg. Persoonlijkheidstests kennen weinig groepsverschillen, maar kopen die eerlijkheid met lage validiteit en fakegevoeligheid, geen goede ruil.

De methode die het best voorspelt én het eerlijkst is, is werk-gebaseerd. Je hoeft niet te kiezen tussen kwaliteit en eerlijkheid.

Hoe ervaren mensen het?

Een onderschat punt: hoe een selectiemethode voelt voor de mensen die hem ondergaan, heeft echte gevolgen. Werkproeven en op het werk gebaseerde simulaties hebben een hoge zichtbare relevantie. Mensen begrijpen waarom ze het doen en ervaren het als eerlijk.

Abstracte capaciteitentests en persoonlijkheidsvragenlijsten scoren daar lager op. Ze voelen soms willekeurig of zelfs als een inbreuk op de privacy. En dat is niet alleen een gevoelskwestie: een slechte ervaring zorgt ervoor dat juist sterke mensen afhaken halverwege je proces. Relevantie is dus ook een zakelijk argument.

Wat kost het?

Een bureau-assessment is doorgaans de duurste en traagste optie: externe psychologen, een dagdeel of meer per persoon, en een prijskaartje dat al snel in de honderden tot duizenden euro's per persoon loopt. Daardoor wordt het meestal pas laat in het proces ingezet, voor de laatste een of twee mensen.

Een goed opgezette werkproef zit daartussenin: het kost moeite om er een te ontwerpen die representatief is, maar daarna is hij herbruikbaar en schaalbaar. En omdat hij vroeg in het proces eerlijk signaal geeft, voorkomt hij dat je tijd steekt in de verkeerde mensen.

Wanneer kies je wat?

Dit is geen pleidooi tegen assessments. Een goed uitgevoerd assessment center is werk-gebaseerd en waardevol, zeker voor senior of leidinggevende rollen waar je gedrag in complexe situaties wil zien. Het punt is preciezer:

Wil je weten of iemand het werk kan? Laat ze het werk doen. Een werkproef is je sterkste en eerlijkste signaal.

Wil je dieper inzicht voor een zware of leidinggevende rol? Een assessment center met echte simulaties kan aanvullende waarde hebben.

Leun niet op een losse persoonlijkheidsvragenlijst als basis voor je beslissing. Als aanvulling kan het, als fundament niet.

Combineer het liefst een werkproef met een gestructureerd interview. Dat zijn twee van de sterkste, eerlijkste voorspellers die er zijn.

Hoe Kliq dit doet

Kliq kiest bewust voor het werk-gebaseerde uiteinde van dit spectrum. De kern is een case die het echte werk nabootst, beoordeeld op vooraf bepaalde criteria, gecombineerd met een gestructureerd video-interview. Geen losse persoonlijkheidstest, geen abstracte capaciteitentest als poortwachter. We lieten eerder al zien wat werkprestatie echt voorspelt: dit is daar de praktische toepassing van.

Veelgestelde vragen

Is een assessment center een werkproef?

In feite wel. Onderzoekers zien een assessment center als een specifieke vorm van werkproef: je voert taken en simulaties uit die op het werk lijken. Daarom voorspellen ze ook vergelijkbaar, rond .33. Het verschil zit vooral in schaal, kosten, en het feit dat een assessment er vaak abstracte tests bij doet.

Kun je een werkproef faken?

Veel moeilijker dan een test. Een persoonlijkheidsvragenlijst kun je sociaal wenselijk invullen, en mensen doen dat ook, ten koste van de voorspellende waarde. Bij een werkproef moet je het werk daadwerkelijk kunnen. Je kunt niet doen alsof je een goed plan schrijft.

Zijn persoonlijkheidstests waardeloos voor werving?

Niet waardeloos, maar zwak als hoofdmaat. Een eigenschap als consciëntieusheid voorspelt werkprestatie met ongeveer .22, lager dan een werkproef of gestructureerd interview, en zelfrapportage is gevoelig voor vertekening. Als aanvulling kan het waarde hebben, als basis voor een beslissing is het te wankel.

Wat is de eerlijkste selectiemethode?

Werk-gebaseerde methoden, zoals een werkproef of een gestructureerd interview, scoren hoog op voorspellende waarde én laten kleinere verschillen tussen groepen zien dan een capaciteitentest. Mensen ervaren ze bovendien als relevanter en eerlijker.

Bronnen

Sackett, P. R., Zhang, C., Berry, C. M., en Lievens, F. (2022). Revisiting Meta-Analytic Estimates of Validity in Personnel Selection. Journal of Applied Psychology.

Sackett, P. R., Zhang, C., Berry, C. M., en Lievens, F. (2023). Revisiting the Design of Selection Systems in Light of New Findings Regarding the Validity of Widely Used Predictors. Industrial and Organizational Psychology. bekijk bron ↗

Roth, P. L., Bobko, P., en McFarland, L. A. (2005). A meta-analysis of work sample test validity. Personnel Psychology.

Barrick, M. R., en Mount, M. K. (1991). The Big Five Personality Dimensions and Job Performance. Personnel Psychology.

Validiteitscijfers zijn meta-analytische schattingen en variëren per functie en context. Ze geven een richting, geen garantie per individu.

MvW

Geschreven door

Maarten van Wijk

Oprichter van Kliq. Werkte na de hogere hotelschool in HR bij een internationale hotelketen, waar hij duizenden cv's zag en de vaak oneerlijke gronden waarop mensen werden afgewezen. Na een MBA aan de Erasmus Universiteit en jaren in digitale marketing bouwt hij met Kliq aan eerlijker selecteren.

Laat mensen het werk laten zien.

Bekijk hoe Kliq een werkproef en een gestructureerd interview combineert in één case.

Plan een demo

Wat is het verschil tussen een werkproef en een assessment?

Wat voorspelt beter?

Wat meet je eigenlijk?

Welke is eerlijker?

Hoe ervaren mensen het?

Wat kost het?

Wanneer kies je wat?

Hoe Kliq dit doet

Veelgestelde vragen

Bronnen

Eerlijk selecteren is de standaard.