fbpx

Boxplot

Het Geheime Wapen in Datavisualisatie

Wat is een boxplot en waarom is het een krachtig instrument in de analyse van data? In deze tekst verkennen we de toepassingen van een boxplot, met bijzondere aandacht voor het inzichtelijk maken van verschillen tussen diverse dwarsdoorsneden van data.

Wat is een boxplot?

Een boxplot biedt een visuele weergave van (continu) data, waarmee enkele cruciale kenmerken van de dataset in één oogopslag duidelijk worden. Het is een effectieve grafische tool om de verschillen tussen diverse dwarsdoorsneden van data helder te presenteren. Neem bijvoorbeeld de doorlooptijd van een specifieke processtap; als je de variatie tussen verschillende afdelingen of individuen binnen die stap wilt begrijpen, is de doorlooptijd een voorbeeld van continu data. Na het meten van minimaal 30 doorlooptijden kun je niet alleen het gemiddelde bepalen, maar ook de mediaan (de middelste waarde in de gerangschikte data) en de spreiding vaststellen. Hoewel het mogelijk is om gemiddelden, medianen en spreiding met behulp van MS-Excel naast elkaar te plaatsen in een tabel, kan deze presentatie vaak als abstract en moeilijk leesbaar worden ervaren.

Echter, maak je er een grafische weergave van met een boxplot, dan kun je met één oogopslag verschillende belangrijke aspecten van de data waarnemen zoals de locatie en de spreiding van de data.

Hoe wordt de boxplot gemaakt?

In eerste instantie wordt de data geordend door alle waarnemingen van laag naar hoog te rangschikken. Vervolgens wordt de dataset opgedeeld in vier gelijke delen, ook wel kwartielen genoemd. Deze kwartielen hebben specifieke grenswaarden, zoals bijvoorbeeld Q1 in het onderstaande voorbeeld. Q1 geeft aan welke waarde de begrenzing vormt van de eerste 25% van de geordende waarnemingen. Q2 komt overeen met de mediaan, oftewel de grens van de eerste 50% van de geordende waarnemingen. Q3 vertegenwoordigt de grens van 75%. Het interessante aspect hierbij is dat het verschil in waarde tussen Q3 en Q1 de spreiding aangeeft van de middelste 50% van de waarnemingen, bekend als de interkwartielrange. Waarnemingen onder Q1 en boven Q3 worden weergegeven door de ‘snorharen’ van de boxplot. De lengte van deze snorharen is altijd maximaal 1.5 keer de interkwartielrange. Observaties die zich verder uitstrekken dan deze maximale lengte worden beschouwd als outliers en vormen altijd aanleiding voor nader onderzoek.

Voorbeeld en uitleg van wat een Boxplot is

Onderstaande afbeelding laat het aantal fouten per maand zien van 4 verschillende afdelingen (A, B, C en D);

Boxpolot gebruikt als indicatie

Wanneer je de data van diverse groepen, zoals verschillende afdelingen, wilt analyseren, biedt deze grafische representatie de mogelijkheid om snel te zien of er verschillen zijn in zowel de locatie (mediaan / gemiddelde) als de spreiding (range, standaarddeviatie, etc.) van de data. Neem bovenstaande als illustratie. De boxplots geeft duidelijk aan dat er waarschijnlijk een verschil in mediaan is tussen afdeling A en B. Opmerkelijk is tevens dat de spreiding van afdeling C aanzienlijk kleiner lijkt te zijn dan die van afdeling B. Deze observaties zijn waardevol bij het bepalen welke hypothesetest het meest geschikt is om statistisch bewijs te leveren voor deze verschillen.

 

Leer over datavisualisatie en statisstiek gedurende black belt opleiding

Wil je meer weten over hoe je een boxplot kunt gebruiken én welke statistische bewijsvoering je kunt uitvoeren, dan kun je dat leren in onze Lean Six Sigma Black Belt opleiding.