Datamining

resultaten uit het verleden bieden een voorspelling voor de toekomst.

Datamining vindt zijn oorsprong in Statistical Process Control, kortweg SPC. SPC is een voorloper van Six Sigma. Grote gemene deler, ongeacht de naam van de methode, is dat data wordt verzameld om patronen te vinden. En die patronen geven ons weer inzicht in het verloop van processen. Kortweg: SPC en Six Sigma zijn methodes om via data-analyse te ontdekken waarom processen doen wat ze doen en dit inzicht leidt tot aanpassingen – ook wel: verbeteringen – van het proces.

Datamining begint dus met het verzamelen van data, met als doel het vergroten van inzicht. Twee voorbeelden: hoe lang duurt het afhandelen van een IT-incident en hoe lang doet een treinrit van A naar B? Nadat we data hebben verzameld, laten we er statistische bewerkingen op los. Bereken maar eens wat de gemiddelde afhandeltijd van het IT-incident is of de gemiddelde duur van de treinrit. Dat is voor de meeste lezers nog goed te doen. Maar gaan we het hebben over standaarddeviatie, wordt het al een ander verhaal.

Het idee achter statistiek, en dus van datamining, is dat we met historische data een beeld vormen van hoe de toekomst zich voor ons zal ontvouwen, je er zelfs een voorspelling mee doen. Het is als bij een verkiezing. Door aan een grote groep mensen te vragen wat hun keuze zal zijn, kunnen we de uitslag voorspellen. Ik schrijf hier bewust ‘een grote groep mensen’, want – en dat weet je misschien nog wel van statistieklessen van weleer – hoe meer data, hoe nauwkeuriger het beeld op herhalende patronen. Bij Six Sigma onderzoeken we ook nog eens waardoor variatie (dat wat je uitdrukt in eerdergenoemde standaarddeviaties) optreedt. Wat zorgt ervoor dat de trein eerder of later aankomt dan het gemiddelde? Dat onderzoek vindt plaats op basis van de patronen in de verzamelde data.

Voorbeeld Grafiek Datamining

Bij statistiek zijn we niet alleen benieuwd naar de kwantiteit van de data, maar ook naar de kwaliteit. De vraag die we ons stellen bij het bepalen van de kwaliteit, is: hoe goed zijn mogelijke voorspellers vertegenwoordigd in de steekproef? Vertaald naar gangbaar Nederlands betekent dat, wanneer we een voorspelling willen proberen te doen van een verkiezingsuitslag, dat we bij het maken van een selectie voor de steekproef rekening houden met achtergrond van en omstandigheden waarin mensen leven. Achtergrond en omstandigheden – om het nog een tandje concreter te maken, voorbeelden daarvan zijn leeftijd, inkomsten, wel of geen eigen huis – zijn dan de voorspellers. Die kunnen namelijk invloed hebben op het stemgedrag van de mensen uit de steekproef. Het bepalen van de voorspellers van een steekproef is dus bepalend voor de kwaliteit ervan. De vraag is altijd: zijn de juiste voorspellers meegenomen en dan ook nog eens evenredig vertegenwoordigd in de prognose om de verkiezing te kunnen voorspellen? Als prognose en uitslag verschillen, weet je dat je nog iets te doen hebt aan de kwaliteit van de steekproef, ervan uitgaande dat je genoeg metingen gedaan hebt en dat het met de kwantiteit dus wel snor zit. Bij Six Sigma noemen we voorspellers ook wel X’en.

Samengevat: datamining draait om het doen van voorspellingen op basis van historische data. Hoe meer je verzamelt en hoe beter je wordt in het (op basis van evenredigheid) meenemen voor voorspellers, hoe groter de kans dat je voorspelling klopt. Tegelijkertijd, mensen zijn veranderlijker dan het weer. Dus het gedrag van mensen voorspellen, op basis van data uit het verleden, blijft een uitdaging, sommige noemen het een gok. Wat dat betreft mogen we al blij zijn met een goede prognose bij verkiezingen.