Denken Over Data

Mijn naam is Richard Steijn en ik ben dol op data dingen. In deze blog deel ik mijn ideeën, ervaringen, hersenspinsels en wat al niet meer over dit onderwerp.

Bezoek ook eens de website van Vaiper, mijn bedrijf.

Jaar: 2011

Slim automatiseren draagt bij aan onderwijskwaliteit

Gepubliceerd in Onderwijsinnovatie (dec 2011)

Loading Viewer…

30/12/2011
Accreditatie in het onderwijs en de PDCA Cyclus

Accreditatie is in hoger onderwijsland een heet hangijzer. O.a. de bekostiging en het imago van de instelling of opleiding hangen hier van af dus eens in de zes jaar is het weer tijd om de bloemetjes buiten te zetten. Het accreditatieproces wordt veelal ervaren als een grote inspanning. Begin dit jaar is door de NVAO het nieuwe accreditatiestelsel voor instellingen in het hoger onderwijs geïntroduceerd. De focus dit nieuwe stelsel is verschoven van kwaliteitsborging naar kwaliteitsverbetering. Daarnaast zou het de administratieve last voor onderwijsinstellingen wat moeten verlichten, met name door de introductie van een instellingstoets kwaliteitszorg. Een onderwijsorganisatie die op deze toets een positieve beoordeling behaalt, komt in een ander (lichter) accreditatie regime terecht voor haar opleidingen, waarvoor dus minder informatie aangeleverd hoeft te worden. Voor meer info zie kijk hier.

Instellingen en opleidingen moeten voor accreditatie twee typen informatie aanleveren. Enerzijds moet tekstuele informatie worden geleverd zoals diverse beleidsstukken rondom kwaliteitszorg, een kritische zelfreflectie en niet kwantificeerbare bewijzen van deugdelijkheid van de onderwijskwaliteit. Anderzijds zal ook de nodige getalsmatige onderbouwing geleverd moeten worden om de effectiviteit van de kwaliteitszorg aan te tonen. Zeker nu focus nadrukkelijker op kwaliteitsverbetering komt te liggen zal een opleiding des te meer moeten kunnen aantonen hoe zij deze kwaliteitsverbetering dan wel denkt te kunnen meten en vervolgens hierop te acteren.

Een accreditatie kost meer tijd en moeite naarmate kwaliteitszorg een slechter geïntegreerd onderdeel van het werkproces is. Als kwaliteitszorg door de gehele organisatie structureel aangepakt zou zijn, zou het opleveren van de juiste informatie voor de auditcommissie niet zo’n grote last zijn. Beleidsplannen kunnen dan zo van de plank getrokken worden en de getallen die bewijzen dat deze plannen werken kunnen vlot berekend worden. Namelijk de data die een organisatie gebruikt om kengetallen te berekenen die de effectiviteit van haar kwaliteitszorg inzichtelijk maken voor de auditcommissie zou dezelfde moeten zijn als waarop de organisatie de haar processen stuurt. Als dit niet het geval is, dan zou men zich moeten realiseren dat er kennelijk iets mis is met het ‘Check’ deel in de PDCA cyclus die het hart van het stelsel van kwaliteitszorg vormt. Dien ten gevolge kan aan het ‘Act’ deel ervan ook geen goede invulling gegeven worden, wat weer tot de conclusie leidt dat men kwaliteitszorg niet op orde heeft.

Bovengenoemd scenario treedt typisch op als men de accreditatie als een zesjaarlijkse verplichte exercitie ziet waarin men even door een hoepeltje moet springen en na het bereiken van een positief oordeel weer rustig achterover kan leunen.

Om de (verbetering van) kwaliteit van een onderwijsproces te kunnen meten zal op regelmatige basis aan zowel aan de input als aan de output kant gemeten moeten worden. Informatie aan de output kant kan worden vergeleken met een norm om zo te bepalen of men op koers ligt. Hierbij dient te worden opgemerkt dat veel processen op zich weer op te delen zijn in deelprocessen. Op alle niveaus kan gemeten en vergeleken worden.

Op het niveau van opleiding kun je wat betreft input bijvoorbeeld denken aan het vastleggen van informatie rondom instroom van studenten zoals: de gevolgde opleidingsvorm, nationaliteit, leeftijd, vooropleiding, geslacht etc. Wat betreft output kun je denken aan informatie rondom uitstroom zoals: uitstroom met/zonder diploma, moment van uitvallen, doorstroom naar betaalde baan of vervolgopleiding, tevredenheid over de opleiding etc.

Op cursusniveau kun je aan de inputkant denken aan het vastleggen van informatie rondom bestede FTE’s per werkvorm (hoorcollege, werkcollege, stage etc.), bepaalde karakteristieken van docenten zoals: specialisme, type aanstelling, nationaliteit en studenten gebonden aspecten zoals: hoofdopleiding, nationaliteit, major of minor cursus, cursus wel niet verplicht etc. Aan de outputkant valt in dit verband te denken aan het werkelijke aantal contacturen tussen student en docent, het werkelijk aantal besteedde uren door student en docent, studenttevredenheid over: cursusmateriaal, deskundigheid van de docent, didactische vaardigheden van de docent, bereikbaarheid van de docent, studielast etc.

Met name de informatie aan de outputkant van processen is doorgaans lastig of zelfs onmogelijk op een later tijdstip (bij een accreditatie) te bepalen. Het is daarom zaak om te meten en vast te leggen zo snel dit mogelijk is. Deze regel moet ‘ingebakken’ zijn in ieder proces in de organisatie. Maar dat alleen is niet genoeg. Als het meten van de kwaliteit per geval (bijvoorbeeld per cursus) weer op een andere wijze gebeurt en wordt vastgelegd, resulteert dit alsnog in heel veel werk als je dit soort informatie wilt bundelen in een overzicht of kengetal. Daarom is het nodig dat er een algemeen geldende werkwijze van evaluatie wordt gehanteerd, over de verschillende processen heen. De verzamelde data kan dan weer op een centrale plek worden bewaard, en bijvoorbeeld via een data warehouse worden ontsloten voor de organisatie. Deze werkwijze moet organisatiebreed gedragen worden en helder zijn vastgelegd. Dit is dan meteen een mooi document om aan de auditcommissie te overhandigen. Dit kan mijns inziens alleen maar werken als iedereen in de organisatie het belang hiervan inziet en de managementinformatie die hierdoor beschikbaar komt ook kan gebruiken om de eigen processen bij te sturen op het moment dat het nodig is en niet alleen en niet alleen voor de accreditatie. Het accreditatieproces is op deze manier het logische verlengde van de hele kwaliteitszorgcyclus.

14/07/2011
De charme van Anchor Modeling
Anchor Modeling intrigeert mij al een tijdje. Zo’n anderhalf jaar geleden kreeg ik hiervan voor het eerst een artikel in DB/M, geschreven door Ronald Kunenborg, onder ogen. Wat mij meteen aansprak was de elegantie van de modelleringmethode. Verder viel op dat het in een bepaald opzicht nogal extreem was. Ik zal niet ontkennen dat juist dat extreme ook wel stiekem een zekere aantrekkingskracht op mij uitoefende. Anchor Modeling is namelijk extreem in die zin dat een data warehouse vormgegeven volgens deze methodiek een enorme hoeveelheid tabellen kent. Juist op dat moment had ik net de keuze gemaakt voor de Data Vault aanpak voor het Boven-wijs project dat toen net van start was gegaan.

Ook bij een Data Vault model was het al even wennen gezien de grote hoeveelheid tabellen die er bij komen kijken. Gegeven een logisch datamodel met twee entiteiten met ieder vijf attributen en tussen de entiteiten een één op veel relatie, dan resulteert dit in een fysiek datamodel in de derde normaalvorm van slechts twee tabellen, waarvan er een middels een foreign key refereert naar de ander.

Volgens de Data Vault methode komen we al snel op vijf tabellen: voor iedere entiteit een Hub, tussen de twee Hubs een Link en voor iedere Hub minimaal één Satellite om de attributen in onder te brengen. Voor een beknopte uitleg van DV zie een van mijn eerdere posts.

Modelleren we echter volgens de Anchor Modeling methodiek, dan komen we op een fysiek datamodel van maarliefst 13 tabellen!: voor iedere entiteit een Anchor, tussen de twee Anchors een Tie en voor ieder attribuut een Attribute tabel. In onderstaande afbeelding is deze situatie gevisualiseerd: de rode blokken zijn Anchors, de cirkels zijn Attributes, de grijze ruit is een Tie.

Anchor Modeling kent vier typen objecten:

Anchor

Deze representeert het bestaan van een entiteit. Het bestaat enkel uit een surrogaatsleutel. Het Anchor is vergelijkbaar met de Hub in Data Vault. Echter in een Anchor tabel wordt geen unieke business key opgeslagen zoals dit wel in de Hub gebeurt.

Knot

Deze representeert een eindige set vaste waarden. Het bestaat uit een surrogaatsleutel en een veld waarin de ermee geassocieerde waarde wordt opgeslagen. Bijvoorbeeld een knot voor de eigenschap geslacht {(1, Man), (2, Vrouw)} is goed denkbaar. De Knot is de tegenhanger van van de Reference table in Data Vault.

Attribute

Deze representeert een eigenschap van een Anchor. Deze bevat een veld met daarin de waarde van de eigenschap OF een referentie naar een specifiek record in een Knot tabel.

Tie

Deze representeert een relatie tussen twee of meer Anchors en eventueel een Knot. Een Tie kan geen Attributes hebben. Het is dus de tegenhanger van een Link zonder Satellites in Data Vault. Als van een relatie eigenschappen moeten worden bewaard, moet de relatie worden gemodelleerd als een Anchor, waar dan Attributes aan gekoppeld kunnen worden.

Voor alle objecttypen geldt dat er een veld in opgenomen mag worden met een verwijzing naar metadata.

De objecttypen Attribute en Tie kunnen static of historized zijn. In het eerste geval wordt er geen historie bewaard van het bewuste object, in het tweede geval wel. Dit gaat met behulp van een extra datum veld (ValidFrom).

Dit is de methode in een notendop.

Het apart onderbrengen van een attribuut in zijn eigen tabel zoals de Anchor Modeling methode predikt, kan zorgen voor onoverzichtelijkheid. Een beetje serieus data warehouse gaat al snel over tientallen entiteiten met in totaal honderden attributen. Wanneer we een dergelijk model handmatig moeten onderhouden zien we al snel door de bomen het bos niet meer. Bovendien rijst de vraag, of een dergelijk data warehouse fatsoenlijk te bevragen is, als er een substantiële hoeveelheid data in zit. Om informatie over een bepaalde entiteit op te halen, moeten vele joins gelegd worden tussen het corresponderende Anchor en alle ermee verbonden Attributes. Kortom we hebben standaard te maken met complexe queries en mogelijk trage queries. Dit alles in overweging nemend, heb ik destijds, ondanks dat ik de modeleerwijze heel elegant vind, besloten het maar op Data Vault te houden.

Echter, recentelijk heb ik een open gast college bijgewoond bij de HAN waar mede-bedenker Lars Rönnbäck een lezing hield over Anchor Modeling. Een aantal van mijn twijfels heeft hij hier (deels) weggenomen:
- Hij gaf aan dat Anchor Modeling nog klein is. Maar hoe dan ook zijn er enkele toepassingen van deze methodiek in gebruik in Zweden, o.a. in de financiële sector (niet de minst kritische sector). Het werkt dus echt in de praktijk, naar het schijnt naar tevredenheid. Prettig om te weten.
- Er werd een artikel aan de toehoorders uitgereikt waarin onder andere een experiment stond beschreven waaruit grofweg afgeleid kan worden dat naarmate het data warehouse meer data bevat, de query performance onder diverse condities, relatief beter wordt, vergeleken met de situatie waarin alle data in enkele tabel is opgeslagen. Dit geldt met name naarmate er meer attributen in het spel zijn. Dit experiment is reproduceerbaar en kan hier worden gedownload. Wat meer experimenten zijn wel gewenst. Zo zou het bijvoorbeeld heel interessant zijn, te zien hoe snel het laden van een Anchor database verloopt, vergeleken met bijvoorbeeld het laden van een enkele tabel of een Data Vault.
- Op www.anchormodeling.com is een mooi vormgegeven en prettig werkend online Anchor Modeling tool ontwikkeld waarmee op grafische wijze een Anchor Model kan worden gemaakt. Er is goed nagedacht over het hanteerbaar maken van de grote hoeveelheid symbolen die je met elkaar moet verbinden bij een datamodel van enige omvang. De DDL om het gemaakte model vervolgens om te zetten in een database wordt automatisch gegenereerd. Jammer genoeg wordt momenteel alleen SQL Server ondersteund, maar er wordt gewerkt aan het ondersteunen van andere databases zoals Oracle. Op deze site staan overigens diverse korte instructiefilmpjes waarin je snel wegwijs met de modeling tool. Het tool is overigens Open Source.
- Naast DDL voor het definiëren van tabellen worden er ook diverse hulpobjecten (views, functions) gegenereerd die het uitvragen van het data warehouse aanzienlijk makkelijker maken. Voor ieder Anchor in het model is er bijvoorbeeld een zogenaamde ‘latest’ view waarmee je een Anchor en alle bijbehorende Attributes kunt opvragen zoals deze momenteel gelden. Ook is er een point-in-time functie waarmee je een Anchor met zijn Attributes kunt opvragen zoals deze golden op een bepaald moment in de tijd.
- Verschillende databases maken gebruik van het zogenaamde ‘table elimination’ principe. Dit principe zorgt ervoor dat als een view bestaat uit meerdere aan elkaar gejoinde tabellen en er wordt informatie opgevraagd uit slechts enkele van deze tabellen, dan worden de voor de betreffende vraag irrelevante tabellen geëlimineerd uit het queryplan. Als bijvoorbeeld op de bovengenoemde ‘latest’ view behorend bij een Anchor met vijf Attributes een query wordt uitgevoerd waarbij slechts een Attribute wordt opgevraagd, worden de vier overige Attributes en de Anchor table buiten het query plan gehouden. Dit is voor een Anchor database zeer belangrijk mechanisme, gezien de performance winst die dit oplevert.
- Er is een naming convention die helpt orde te scheppen in de vele objecten die voorkomen in een Anchor Model.
Kortweg kunnen we concluderen dat er veel mogelijk is (wat deels al gedaan is) om een Anchor Modeling tot een werkbare modelleringtechniek te maken. Verder wordt er gewerkt door de bedenkers van de techniek aan verdere onderbouwing door middel van experimenten. Ik denk dat dit alles ook hard nodig is, om de drempel om deze techniek toe te passen, te verlagen. Anchor Modeling is een techniek die niet zomaar afgeserveerd kan worden als een extreme rariteit. Daarvoor is er te goed over nagedacht. Het is het dan ook waard om er eens in te duiken.
07/07/2011
Lean en diplomering in het hoger onderwijs

Onlangs woonde ik een bespreking bij waarin gebrainstormd werd over het toepassen van Lean principes op verschillende processen in het hoger onderwijs.

Ook het proces rondom (terechte of onterechte) diplomering, dat momenteel erg in de belangstelling staat, kwam ter sprake. Nu zijn managementtechnieken op zich niet helemaal mijn stiel maar de managementinformatie die er onvermijdelijk bij komt kijken is dat wel. Daarom heb ik besloten hier toch maar eens een schrijfsel aan te wagen. De nadruk ligt hier met name op kengetallen die een rol spelen terwijl het o zo belangrijke managen van werkprocessen schandelijk onderbelicht blijft.

Laten we beginnen met het kernachtig beschrijven van de hoofdgedachte achter Lean: Het continue verbeteren van het werkproces zodanig dat er in de loop der tijd steeds meer waarde richting de klant gaat met steeds minder middelen. Om deze almaar groeiende waarde richting de klant te realiseren geeft het management de gehele organisatie een zogenaamde Challenge. Het is dan de bedoeling dat de medewerkers van de organisatie met vereende krachten deze uitdaging aangaan. Op de achtergrond geeft het management hier sturing aan. Binnen dit kader is veel ruimte voor eigen initiatief van de medewerkers. De intrinsieke motivatie van de medewerkers en het zelforganiserend vermogen van de organisatie wordt op deze manier gestimuleerd. Verder is Lean management doel gestuurd in tegenstelling tot probleem gestuurd. Dit wil zeggen dat men zich niet dient te richten op het oplossen van problemen die bestaan in de huidige situatie maar dat de focus moet liggen op het bereiken van de Challenge.

Als we dit alles vertalen op het proces “hoger onderwijs” moeten we ons eerst afvragen: Wie is de klant? Is dit de individuele student? Of het bedrijfsleven? Of is het de samenleving? En wat is het product (waarde richting de klant)? Cursussen? Gediplomeerde studenten? Verschillende zienswijze n zijn mogelijk maar laten we voor nu even aannemen dat de klant van het hoger onderwijs de Nederlandse samenleving is. Deze wil (en betaalt ervoor) dat het hoger onderwijs zoveel mogelijk gediplomeerde studenten aflevert.

Afgaand op de nieuwsberichten is men bij sommige opleidingen wat doorgeschoten in het streven naar het afleveren van zoveel mogelijk gediplomeerde studenten. Dit is op zich wel een begrijpelijke ontwikkeling, omdat de onderwijsinstellingen voor iedere afgestudeerde student geld ontvangen. Kennelijk is er bij de betreffende opleidingen vooral gestuurd op het kengetal “Aantal gediplomeerde studenten”. De onderwijsinspectie concludeerde echter dat er in bepaalde gevallen toch iets te gemakkelijk een diploma is uitgereikt. Het niveau van de betreffende afgestudeerden bleek te laag. Ondanks de financiële prikkels die de overheid zelf in deze richting geeft, is het kengetal “Aantal gediplomeerde studenten” toch niet het juiste gebleken. Als we hier de Lean filosofie op los laten, zou het volgende een mooie Challenge zijn voor een onderwijsorganisatie:

Lever de komende vier jaren 10% meer goed opgeleide studenten af dan de afgelopen vier jaren voor dezelfde kosten.

Merk op dat in deze Challenge er zowel kwantitatieve als kwalitatieve eisen worden gesteld. Merk ook op dat het maximeren van de inkomende geldstroom geen rol speelt in deze Challenge. Merk tenslotte op dat in de Challenge, geheel in lijn met de Lean gedachte, niet gesproken wordt over het oplossen van de problemen die spelen in huidige situatie.

Stel je streeft deze uitdaging na als onderwijsorganisatie, wat is dan een nuttig kengetal dat je kunt gebruiken om te bepalen of je nog op koers ligt? Om deze vraag goed te kunnen beantwoorden wil ik eerst nog wat dieper ingaan op de precieze redenen waarom de onderwijsinspectie bepaalde opleidingen precies afgekeurd heeft. Dit komt met name omdat de betreffende opleidingen de Wet op het Hoger onderwijs en Wetenschappelijk onderzoek (WHW) niet goed hebben nageleefd. In de WHW staat o.a. dat iedere opleiding een Onderwijs en Examenregeling (OER) moet hebben en wat hier minimaal in moet staan. In een OER moeten zaken beschreven zijn zoals de doelstelling van de opleiding, welke tentamens er zijn, in welke volgorde ze moeten worden afgelegd, te behalen studiepunten, de regels voor vrijstellingen, de nakijktermijn van tentamens, de geldigheidsduur van behaalde tentamencijfers, de rol de examinator en de examencommissie etc. Kortom: De OER beschrijft alle spelregels waaraan zowel de student als de onderwijsinstelling zich moeten houden voor de aaneengesloten periode die een student verbonden is aan de opleiding. Het is een belangrijk document waaraan de student rechten kan ontlenen.

De door de inspectie afgekeurde opleidingen hielden zich niet in alle gevallen aan hun eigen OER. Zo viel het in bepaalde gevallen op dat een student binnen een bepaald tijdsbestek ineens ongeloofwaardig veel studiepunten heeft ontvangen. Dit wijst erop dat er iets niet in de haak was met de wijze waarop en het tempo waarin tentamens beoordeeld worden. Ook kwam het voor dat studenten die hun studie hadden onderbroken om in het bedrijfsleven te gaan werken en na een tijd de studie weer wilden hervatten, vrijstellingen kregen op basis van opgedane praktijkervaring zonder dat onderbouwd was waarom deze vrijstellingen gerechtvaardigd waren. Ook kwam het voor dat eindresultaten waren goedgekeurd door andere dan de hiervoor aangewezen personen. Met behulp van de OER is na te gaan wat hier fout is gegaan.

Het hebben van een goede OER en het hiernaar handelen is dus grote mate bepalend voor wat de inspectie ziet als de kwaliteit van de opleiding. Terugkomend op de vraag, wat een nuttig kengetal is om te bepalen of je als onderwijsorganisatie nog op koers ligt om de eerder genoemde Challenge te behalen, kom ik op de volgende:

Het gemiddelde (bijvoorbeeld per cohort) van de minimaal benodigde tijd die studenten nodig hebben om de beoogde eindkwalificatie te halen conform de OER.

Hoe lager dit kengetal hoe beter. Bovenstaande definitie zegt iets over zowel kwantiteit (gemiddelde benodigde tijd) als kwaliteit (conform de OER). Er komt wel heel wat bij kijken om een dergelijk kengetal ook daadwerkelijk en op regelmatige basis te kunnen uitrekenen. Mijns inziens is hier het gebruik van een geautomatiseerd systeem ter ondersteuning van workflow van de processen zoals beschreven in de OER onontbeerlijk. Zo’n OER ondersteunend systeem (OEROS) kan naast ondersteunend ook in zekere mate sturend worden gebruikt. Hieronder een simpel voorbeeld:

Een opleiding heeft als regel dat een tentamencijfer pas geldig is als deze in het OEROS als zodanig is geregistreerd. In het OEROS kan alleen een gebruiker die als lid van de examencommissie geregistreerd staat het cijfer de status geldig geven. Het cijfer kan alleen worden ingevuld door de in het systeem bekende (eerste, tweede, derde, …) beoordelaar van het betreffende vak. Een diploma kan pas worden uitgeprint als voor alle vakken die volgens de OER gevolgd moeten zijn een geldig eindcijfer is geregistreerd.

Een OEROS brengt het geautomatiseerd berekenen van ons kengetal binnen handbereik en dat is waar we naar toe willen. Met een systeem alleen komen we er natuurlijk niet. Het kan alleen werken als er ook een gezonde invuldiscipline is. De al eerder genoemde intrinsieke motivatie van de medewerkers is hier van wezenlijk belang voor het punctueel en eerlijk bij houden van het studentdossier.

Ik besef ook dat het volledig operationaliseren van het kengetal niet eenvoudig zal zijn. Het is bijvoorbeeld al lastig om in sommige gevallen te bepalen bij welk cohort iemand hoort. Dit speelt bijvoorbeeld bij studenten die halverwege de studie een uitstapje naar het bedrijfsleven hebben gemaakt en enkele jaren later de studie weer voortzetten. Extra lastig wordt het als je beseft dat veel opleidingen geregeld aanpassingen aanbrengen in de OER. Soms geldt een OER slechts een jaar, soms voor een cohort. Het is dus vaak lastig om te bepalen welke OER er op een bepaald moment geldt voor een student. Dit is een complex probleem dat eerst moet worden opgelost wil de door mij voorgestelde benadering gaan werken. Lees ook dit stuk eens voor een goede beschouwing over dit onderwerp.

Een ander punt is het door mij voorgestelde kengetal suggereert dat een opleiding kwalitatief goed is als maar netjes alle formele regels gevolgd worden. Het volgens de regels handelen (procedurele kwaliteit) is natuurlijk maar de helft van het verhaal. Naast procedurele kwaliteit is er ook nog zoiets als inhoudelijke kwaliteit. Ook hiervoor kan een kengetal gedefinieerd worden volgens de Lean gedachte. Iemand een suggestie?

13/06/2011
Management Information. What’s the truth?

Gepubliceerd in Perspectives (april 2011)

Loading Viewer…

30/04/2011