Hoe saai kan het zijn? Scores bouwen. Modellen bouwen die de evolutie, zeg maar kansen op groei en mislukking van een onderneming moeten voorspellen. Nadenken dus over cijfertjes en statistieken. Correlaties zoeken tussen die massa aan gegevens. Van naalden in een hooiberg komen tot een stevige, robuuste wolkenkrabber. Ik kan me voorstellen dat u ervan uitgaat dat mensen die zoiets doen een behoorlijk nerd-gehalte hebben en hoog scoren op een autistische schaal. Kan best. En als dat zou blijken, dan ben ik er nog fier op ook.
Maar eerlijk: vaak kunnen net die cijfertjes en de zoektocht naar verbanden ongelofelijk spannend en verassend zijn. Er was een tijd dat de bouw van dergelijke modellen puur ambachtelijk gebeurde. Je had een idee over een mogelijk verband tussen twee of meer datareeksen. Je spendeerde dagen, zo niet weken en maanden, om na te gaan of dat idee ook klopte. En dan ging je weer een stapje verder.
Datamining software
Niet meer anno 2017. De massa aan gegevens (big data), zeg maar datastromen, is immers exponentieel toegenomen en dat verhoogt dus ook de mogelijke kruisverbanden. Daarnaast beschik je vandaag over krachtige datamining software. Het is te vergelijken met een superintelligente rekenmachine die je voor jou laat werken, die je laat zoeken naar de verbanden die je vermoedt en ze bevestigen of ontkent. Sterker zelfs, de machines tonen je vaak zelf correlaties waar je enkele seconden voordien geen idee van had. Het is het resultaat van sterk geautomatiseerde regressieanalyses en neurale netwerken.
Eigenlijk is het werk enorm verschoven. Van veel grijsmakend rekenwerk naar voortdurend geconfronteerd worden met nieuwe, soms verassende verbanden die je dan verder uitspit. Je zoekt er verklaringen voor, probeert ze te begrijpen en controleert of ze je echt vooruithelpen.
De wet van Benford
Zopas nog zo eentje meegemaakt. In de Angelsaksische literatuur rond auditing circuleert er een theorietje: de wet van Benford. Kort door de bocht is het een doorgedreven wiskundige techniek die de verdeling van cijferreeksen in data bekijkt. De theorie stelt dat bij het bestuderen van grote hoeveelheden cijfers (waarbij telkens de eerste twee of drie digits worden bekeken) waarden met lagere cijfers meer voorkomen dan hogere en dan een geleidelijk aflopend verloop kennen. Vooral zegt Benford dat ongemanipuleerde gegevens de vooropgestelde frequentie zullen volgen. Pas je dat bijvoorbeeld toe om boekhoudfraude te ontdekken, dan zouden sterke afwijkingen van dat patroon kunnen wijzen op manipulatie van cijfers.
Patronen herkennen
Benford’s Law heeft in de Verenigde Staten zijn nut bewezen in het kader van fraudedetectie. Vooral met de bedoeling om de Emron-cases van deze wereld eruit te filteren. Mastodonten dus die hier eigenlijk nauwelijks voorkomen. Maar zou het ook bij ons werken? Even de cijfers door de machine jagen en de omzetfrequenties in België bekijken. Natuurlijk zie je onmiddellijk een bevestiging van het patroon. Veel kleine omzetten en geleidelijk aan minder grote. Tegelijk zie je echter snel een terugkerend, afwijkend patroon. Veel meer bedrijven met omzetten waarvan de eerste drie getallen beginnen met 240, 300, 360, 500, 600….
Een dood spoor of toch niet?
Is het toeval dat er verschillende veelvouden van 12 tussenzitten? Of heeft de machine ons echt op het spoor gezet van een patroon dat kan wijzen op anomalieën? We graven dieper en bekijken de kenmerken van de bedrijven die dit soort waarden noteren. Wat blijkt: managementvennootschappen, holdings, marktonderzoek- en opiniebureaus en immobiliënkantoren maken de top 5 van de activiteiten uit. Net dat soort bedrijven waar inkomsten gemakkelijker worden gegenereerd uit vaste (afgeronde) maandelijkse vergoedingen. Ook het soort bedrijven dat verhoudingsgewijs niet meteen veel faillissementen laat noteren.
Voorlopig een dood spoor dus. Of moeten we misschien nog dieper graven? Zo dadelijk experimenteren we verder en jagen we cashflow en winst door de machine. Eens kijken wat dat geeft. Verklaringen zoeken. Patronen ontdekken. Spannend toch?
Bron: Graydon blog