Datamining: resultaten uit het verleden bieden een voorspelling voor de toekomst.
Datamining begint met het verzamelen van data, met als doel het vergroten van inzicht. Het draait om het doen van voorspellingen op basis van historische data.

Datamining vindt zijn oorsprong in Statistical Process Control, kortweg SPC. SPC is een voorloper van Six Sigma. Grote gemene deler, ongeacht de naam van de methode, is dat data wordt verzameld om patronen te vinden. En die patronen geven ons weer inzicht in het verloop van processen. Kortweg: SPC en Six Sigma zijn methodes om via data-analyse te ontdekken waarom processen doen wat ze doen en dit inzicht leidt tot aanpassingen – ook wel: verbeteringen – van het proces.
Wat is het doel van datamining?
Datamining begint dus met het verzamelen van data, met als doel het vergroten van inzicht. Twee voorbeelden: hoe lang duurt het afhandelen van een IT-incident en hoe lang doet een treinrit van A naar B? Nadat we data hebben verzameld, laten we er statistische bewerkingen op los. Bereken maar eens wat de gemiddelde afhandeltijd van het IT-incident is of de gemiddelde duur van de treinrit. Dat is voor de meeste lezers nog goed te doen. Maar gaan we het hebben over standaarddeviatie, wordt het al een ander verhaal.
Het idee achter statistiek, en dus van datamining, is dat we met historische data een beeld vormen van hoe de toekomst zich voor ons zal ontvouwen, je er zelfs een voorspelling mee doen. Het is als bij een verkiezing. Door aan een grote groep mensen te vragen wat hun keuze zal zijn, kunnen we de uitslag voorspellen. Ik schrijf hier bewust ‘een grote groep mensen’, want – en dat weet je misschien nog wel van statistieklessen van weleer – hoe meer data, hoe nauwkeuriger het beeld op herhalende patronen. Bij Six Sigma onderzoeken we ook nog eens waardoor variatie (dat wat je uitdrukt in eerdergenoemde standaarddeviaties) optreedt. Wat zorgt ervoor dat de trein eerder of later aankomt dan het gemiddelde? Dat onderzoek vindt plaats op basis van de patronen in de verzamelde data.
