Over mij

Ik ben Richard Steijn en datawarehousing/BI specialist. Bij vele organisaties in diverse branches heb ik een kijkje in de keuken mogen nemen. Verscheidene technologieën hebben mijn pad gekruist. Data en alle vraagstukken daaromheen vormen een rode draad in mijn werkzame leven. In deze blog schrijf ik over de dingen die mij zoal bezighouden.

door Richard Steijn

Archief voor 'Voortraject'

Het modelleren van werkprocessen

In het voortraject van een data warehouse project gaan we op zoek naar potentiële informatiebronnen die in het te ontwikkelen data warehouse kunnen worden ingelezen. We willen de onderlinge samenhang tussen alle in gebruik zijnde gegevensbronnen in kaart brengen. We willen hier weten welke gegevens in welke informatiebronnen zitten, wat is de overlap tussen deze bronnen, welke bronnen zijn leidend, etc.  Dit noem ik het in kaart brengen van het datalandschap.

Zo gauw we weten hoe het datalandschap eruit ziet, kunnen we ons een beeld vormen van hoe de verschillende gegevensbronnen zijn ingebed in de organisatie. De volgende elementen zijn hier van belang:

  • Gegevensbronnen
  • Activiteiten in relatie tot de gegevensbronnen
  • Actoren binnen deze activiteiten
  • De volgorde van deze activiteiten
  • De gevolgen van deze activiteiten voor de data in de gegevensbronnen

Kortom we gaan werkprocessen binnen de organisatie in beeld brengen met een sterke nadruk op de data die hierin een rol speelt.

Waarom moeten we dit allemaal weten? Heel eenvoudig omdat dit ons helpt de gegevens op hun waarde te schatten. We krijgen inzicht in het moment waarop gegevens voor het data warehouse nuttig zijn. Bovendien brengen we zo nauwkeurig alle belanghebbenden (stake holders voor liefhebbers van Engelse termen) in beeld. Dit zijn de mensen waarmee rekening gehouden moet worden tijdens en na het project. Sommigen bevinden zich aan de invoerkant van de bronsystemen en hebben dus invloed op de kwaliteit van de gegevens. Anderen bevinden zich juist aan de vragende kant van deze systemen en kunnen een rol spelen bij het bepalen van de informatie die in het data warehouse moet worden opgeslagen. Al deze mensen zullen (moeten) op een of andere manier te maken krijgen met het data warehouse. Als zij er op de juiste manier bij betrokken worden, zal dit positief bijdragen aan het vormen van voldoende draagvlak voor het data warehouse binnen de organisatie.

In deze blog wil ik een schematechniek aanreiken waarmee we werkprocessen in beeld kunnen brengen. Er zijn verschillende technieken in gebruik voor dit soort doeleinden. Ik heb echter nooit een gangbare schematechniek kunnen ontdekken waarin we alle elementen zoals ik deze hierboven heb opgesomd, ineens kan visualiseren. Daarom heb ik mijn eigen schematechniek samengesteld door elementen uit verschillende bestaande technieken bij elkaar te brengen. Deze diagramstijl presenteer ik ook in de data warehouse cursussen die ik soms geef. Daar leg ik hem uit aan de hand van het volgende voorbeeld:

Stel we willen voor een onderwijsinstelling het proces in beeld brengen genaamd: “Afname Tentamen”. In dit proces wordt beschreven hoe een tentamencijfer van een student wordt bepaald, geadministreerd en vrijgegeven vanaf het moment dat het tentamen wordt afgenomen. In dit proces spelen 3 actoren een rol te weten:

  • De cursusleider
  • De tweede beoordelaar
  • De Student

Het proces start op het moment dat de cursusleider (die ook het tentamen afneemt) het blad met tentamenvragen aanbiedt aan de student. De student vult de antwoorden in het blad met tentamenvragen. Na afloop van het tentamen beoordeelt de cursusleider de ingeleverde tentamens, waaronder het tentamen van “onze” student. Het cijfer schrijft hij op een lijst met tentamenscores. Als hij een tentamen beoordeelt met een cijfer tussen de 5 en de 7 dan wordt het betreffende tentamen voorgelegd aan een tweede beoordelaar. Ook deze kent een cijfer toe en schrijft dit op een tweede lijst met tentamenscores. Vervolgens bepaalt de cursusleider aan de hand van de door hemzelf ingevulde lijst met scores en die van de tweede beoordelaar wat het eindcijfer zal zijn: Hij neemt het gemiddelde. De uiteindelijke score voert hij in in het studievolgsysteem waarop de studenten ook een account hebben. Als de student inlogt in het studievolgsysteem, kan hij zijn uiteindelijke score bekijken.

Dit proces is als volgt gevisualiseerd:

Processchema Afname Tentamen

De actoren in het proces hebben in dit diagram ieder hun eigen functiebaan (swim lane). Een actor kan een natuurlijk persoon of eventueel een groep personen zijn. Het kan ook een geautomatiseerd systeem zijn, dat bepaalde acties uitvoert binnen het werkproces. Deze laatste variant komt in het voorbeeld niet voor.

De legenda van bovenstaand diagram ziet er als volgt uit:


  • Het icoon met de tekst “Begin/Eind Proces” wordt gebruikt om de start en het einde van het proces te markeren. Het maakt niet uit in welke functiebaan deze geplaatst wordt. Er is altijd een Begin Proces icoon en minimaal een Eind Proces icoon.
  • Het rode icoon dient om een actie weer te geven. De functiebaan waarin de actie geplaatst is, geeft aan wie/wat de actie uitvoert. Een actie heeft altijd een of meer inkomende gesloten pijlen: deze geven de richting van de processtroom weer. Een actie kan een willekeurig aantal in- of uitgaande gestippelde pijlen hebben: de informatiestromen. Een actie heeft altijd exact een uitgaande gesloten pijl.
  • Het grijze icoon met de tekst “Informatie drager” representeert een gegevensbron. Dit alles zijn wat informatie bevat, variërend van een database systeem tot een kladblaadje. Als in het diagram vaker dan eenmaal een informatiedrager icoon voorkomt met daarin dezelfde tekst, dan betreft dit dezelfde informatiedrager. In het voorbeeld representeren de twee iconen met de tekst “Tentamen” een en hetzelfde tentamenblad. Twee verschillende informatiedragers van hetzelfde soort, moeten dus ieder voorzien worden van een uniek label. Het maakt niet uit in welke functieband een informatiedrager geplaatst wordt. Dit zegt niets over het eigenaarschap van de informatiedrager.
  • Een groene ruit representeert een beslissing. In de ruit is de vraag weergegeven waarvan het antwoord erop bepaalt, in welke richting het proces verder zal worden voortgezet. Een beslissing heeft minimaal een inkomende gesloten pijl en minimaal 2 uitgaande gesloten pijlen. Iedere uitgaande gesloten pijl is voorzien van een label die aangeeft bij welk antwoord op de vraag in de ruit het hoort.
  • Een gesloten pijl geeft de processtroom weer. Normaal gesproken staat er in een processtroom geen tekst, behalve als deze stroom vertrekt vanuit een beslissing. Gesloten pijlen kunnen alleen vertrekken of binnenkomen in Begin/Einde Proces iconen, Actie iconen en Beslissing iconen. Het moet mogelijk zijn om vanuit het Begin Proces Icoon alle Eind Proces iconen te bereiken als de gesloten pijlen gevolgd worden.
  • Een gestippelde pijl geeft een informatiestroom weer die van een Informatiedrager naar een Actie loopt of andersom. In de gestippelde pijl staat altijd d.m.v. een korte tekst aangegeven, welke informatie het precies betreft.

Dit is de basis van de schema techniek. Simpel en doeltreffend. Eventueel zouden alle iconen nog kunnen worden voorzien van een uniek nummer om er in een begeleidende tekst makkelijker naar te kunnen verwijzen. Welliswaar oogt het resulterende diagram wat vol en mogelijk gecompliceerd. Het geeft echter wel in een (of twee) oogopslag(en) een mooi overzicht van verschillende aspecten weer van werkprocessen. Het is niet alleen handig in de context van een data warehouse project. Het kan ook handig zijn om bijvoorbeeld inefficiënties in een werkproces duidelijk te maken.

Datawarehousing: Bezint eer ge begint

Over het algemeen ontstaat de behoefte aan een Enterprise Data Warehouse (EDW) geleidelijk. Iemand in de organisatie heeft behoefte aan bepaalde statistieken die hem kunnen helpen bij het nemen van beslissingen. In het begin wordt deze vraag op een ad hoc wijze opgepakt, eventueel wordt er een business intelligence tool voor gebruikt. Na verloop van tijd komt men erachter dat er regelmatig her en der in de organisatie soortgelijke acties lopen en dat dit allemaal wel erg veel tijd kost. Trouwens: hoe komt het dat Pietje andere statistieken heeft als Jantje over het zelfde onderwerp? Het is tijd voor een meer centrale aanpak: een EDW project.

De start van het EDW project zou altijd moeten worden ingeluid met fase van bezinning en analyse. Hier dient men ondermeer de volgende vragen te beantwoorden:

Vraag: Wie heeft er belang bij een EDW?

Het gaat er hierbij om te bepalen welke mensen mogelijk eindgebruiker zullen worden van het EDW. Mogelijk hebben zij stokpaardjes of tegenstrijdige belangen.  Dit moet in een vroeg stadium helder zijn zodat hierop geanticipeerd kan worden.

Vraag: Wat verwachten deze mensen van een EDW?

Van belang is hier te bepalen of de verwachtingen van de potentiële eindgebruikers wel realistisch zijn. Men dient te beseffen dat de informatie die men aan het EDW wil onttrekken ergens vandaan moet komen en een zeker kwaliteitsniveau moet hebben. Hier geldt het principe Garbage in is garbage out. Ook moet men beseffen dat al het gewenste mogelijk niet in één keer, maar stapsgewijs gerealiseerd kan worden. Verwachtingsmanagement is hier het toverwoord. Dit voorkomt teleurstellingen achteraf.

 

Vraag: Staat de directie achter het project?

Een EDW raakt de gehele organisatie. De data die in het EDW wordt ingelezen wordt in de bronsysteen ingevoerd door vele mensen op allerlei afdelingen en niveaus. Verschillende mensen zijn eigenaar of beheerder van de data. Iedereen heeft binnen de organisatie zo zijn eigen doelstellingen. Deze komen niet noodzakelijkerwijs overeen met de doelstellingen van het EDW project. Weerstand kan dan het gevolg zijn. Soms is het dan nodig dat er “van bovenaf” mensen in een bepaalde richting te sturen.

 

Vraag: Is er voldoende draagvlak in de organisatie?

Zoals hierboven genoemd, raakt een EDW project een heleboel mensen binnen de organisatie. Deze mensen dragen allemaal in meer of mindere mate bij aan het succesvol zijn van het EDW. Het is essentieel dat er door de organisatie heen voldoende draagvlak gecreëerd wordt. Dit komt normaal gesproken niet vanzelf. Als een EDW alleen maar meer werk betekent voor een medewerker (bijvoorbeeld door dat er strengere eisen gesteld worden aan de wijze waarop deze persoon zijn gegevens invoert in een bronsysteem), dan zal deze er niet snel voor warm lopen. Het is dus zaak om mensen vroegtijdig te betrekken bij het project (al is het maar door regelmatige informatieverstrekking)  en ze, waar mogelijk, in ruil ook iets terug te geven. Denk hierbij bijvoorbeeld aan het beschikbaar stellen van nuttige rapportages die gebaseerd zijn op de geïntegreerde data in het EDW.

 

Vraag: Is er voldoende geld en mankracht beschikbaar voor het EDW project?

Deze praktische vraag ligt in het verlengde van het voorgaande. Iets willen is een ding maar er daadwerkelijk resources voor vrijmaken is iets anders. De kosten zijn in het begin van het project het hoogst maar zullen in principe niet stoppen zolang het EDW in gebruik is. Een EDW project blijft gedurende de levenscyclus van het data warehouse de nodige menskracht, geld en aandacht vergen. Idealiter is er minstens een persoon die binnen de organisatie de verantwoordelijkheid draagt voor het “in leven houden” van het EDW. Dit is geen taakje dat je “er even naast” doet. Om het EDW levend te houden moet er naast de nodige technische en functionele beheerhandelingen ook het draagvlak voor het data warehouse op zijn minst gehandhaafd blijven.

Hopelijk valt u op dat in deze vragen techniek geen enkele rol speelt. Datawarehousing is in de eerste plaats mensenwerk en raakt de gehele organisatie.  Het is daarmee grotendeels een politiek spel. Als dit spel niet goed gespeeld wordt, is het datawarehouse gedoemd te mislukken. Technologie is slechts het middel waarmee het datawarehouse gerealiseerd wordt en komt  pas een veel later aan bod.

Maar daarover meer in een volgende post…..