Overslaan en naar de inhoud gaan

Green Belt DMAIC (1/8) - Introductie Discrete versus Numerieke Data

Green Belt DMAIC

Binnen zowel de Lean als Six Sigma cultuur bepalen we graag verbeteringen aan de hand van data. Alleen als we aan de hand van data kunnen bevestigen dat een oorzaak daadwerkelijk een uitkomst beïnvloed, definiëren we een tegenmaatregel.
Hoe complexer het probleem wordt en/of hoe groter de investering in tijd of geld die nodig is om een probleem op te lossen, hoe belangrijker het wordt om er zeker van te zijn dat de oorzaak die je aanpakt de juiste is. Statistiek helpt hierbij.

 

YELLOW VERSUS GREEN BELT.
In de serie Yellow Belt DMAIC beschreef ik al een introductie over DMAIC en welke tools je binnen dit level van six sigma kunt gebruiken. De bovenste rijen in figuur 1 laten zien welke tools er zoal in de Yellow Belt worden gebruikt en in een drietal artikelen werden deze beschreven:

MudaMasters - GreenBelt Table of Tests

Figuur 1: Overzicht van veel gebruikte statistische toetsen

 

In deze serie over Green Belts beschrijf ik de tools uit de tweede rij van tools, waarbij een stuk meer statistiek komt kijken dan bij de Yellow Belts. De onderste rijen laten zien welke statistische tools gebruikt kunnen worden binnen de verschillende fasen van een Green Belt project.

Deze serie is opgebouwd aan de hand van de fase waarin het project zich bevindt (net als de Yellow Belt series) maar ook het type data dat beschikbaar is voor het project (de kleuren in figuur 1), welke de mogelijkheden van tools beperkt voor een project. Dit leidt tot de volgende verdeling van (toekomstige) artikelen:

 

Voor DE DEFINE FASE is er voor de Green Belt weinig anders als voor de Yellow belt. De SIPOC, Project Charter en Critical To Quality analyze zijn alle drie al besproken in het artikel Yellow Belt DMAIC (1/3) Discovery en Define.

 

DE MEASURE FASE kan in de green belt worden opgedeeld in drie stappen (1) Eerste Indruk, (2) Valideren van Data, en (3) Huidige Prestatie. Voor elk van deze stappen zijn verschillende statistische toetsen beschikbaar, afhankelijk van het type data dat in het project gebruikt wordt. Deze worden elk besproken in twee verschillende artikelen: voor discrete data en een apart artikel voor numerieke data.

De eerst vraag die we daarom moeten beantwoorden is: wat voor type data hebben wij op dit moment beschikbaar voor ons project? Figuur 2 bevat aan de rechterzijde 4 rijen die elk een type data beschrijven dat beschikbaar is of dat je zou willen verzamelen. Aan de linkerzijde van Figuur 2 staan de vragen die je helpen te bepalen welke rij van figuur 1 je moet zoeken. De eerste vraag beschrijft of de data numeriek of categorisch is, en afhankelijk van dat antwoord kies je de tweede vraag. Bij numerieke data is de tweede vraag of de data normaal verdeeld is of niet, en bij categorische data is de tweede vraag of de dataset binair is. Er ontstaan 4 verschillende datasets.

DataType

Figuur 2: vragenschema om “rij” te bepalen in tabel 1

 

Data type 1 is een numerieke normale verdeling. Dit is een set van data met twee kenmerken: hij is numeriek en de verdeling is normaal. Numeriek betekent dat de data set bestaat uit kwantitatieve data die gemeten wordt in een eenheid en waarmee je kunt rekenen. Uren, temperatuur, centimeters of zelfs IQ punten zijn allen voorbeelden van numerieke data.
Een normale verdeling betekent dat de verdeling symmetrisch geconcentreerd is rond een centrale waarde en afwijkingen van deze centrale waarde steeds onwaarschijnlijker worden naarmate de afwijking groter is. Figuur 3 laat een voorbeeld zien van Math4All, waarbij de intelligentie van mensen wordt weergegeven in een grafiek. Het aantal zeer intelligent hoogbegaafde mensen, zou net zo groot zijn als het aantal geestelijk gehandicapte mensen, maar het veruit meest voorkomende IQ van mensen ligt in het midden.
Om te bepalen of jouw data normaal verdeeld is kun je een histogram maken voor een visuele weergave, of een Anderson Darling toets doen om de significantie te berekenen, welke wordt beschreven in artikel 5 van deze serie: Analyze fase voor numerieke data.

Normale Distributie
Figuur 3: Intelligentie van mensen als normale verdeling, waarbij een IQ van 100 de meest voorkomende waar is. Bron: http://info.math4all.nl/MathAdore/ha-d35-ap2c.html

 

Het tweede type data is de verdelingsvrije numerieke data. We spreken hier wederom over kwantitatieve data met waarden die op- en aflopen, maar in dit geval is de data verdelingsvrij, wat betekent dat de afwijkingen niet zo voorspelbaar zijn als bij een normale verdeling. Een voorbeeld hiervan is de leeftijd van mensen (gevonden op de website van de open universiteit), zie figuur 4. Een mediaan leeftijd van 50 jaar ten opzichte van de hoeveelheid nul-jarige zegt in dit geval niets over de hoeveelheid 100 jarige en ook niet over 5-jarige. Bij verdelingsvrije data zou je alle datapunten apart moeten bekijken om een uitspraak over significantie te kunnen doen met elke willekeurige factor. In de rest van de artikelen in deze Green Belt serie laten we de verdelingsvrije data sets buiten de scope en focussen we ons alleen op normaal verdeelde numerieke data.

http://oupsy.nl/help/?qa=blob&qa_blobid=4061221202950181250
Figuur 4: verdeling van de leeftijd van Nederlanders in 2006 (BRON: open universiteit)

Het derde type data dat je kan helpen om een statistische toets te kiezen is binaire data. Binaire data is niet numeriek maar categorisch, en bestaat uit twee waarden: ja/nee, man/vrouw, overleefd/overleden. Je kunt niet met deze data rekenen zoals bij numerieke waarden. Je categoriseert de datapunten in twee groepen.
Tot slot zijn er de nominale en ordinale datasets. Ook dit is categorische data, maar dan met meer dan twee categorieën. Ook met deze waarden kun je niet rekenen zoals bij numerieke waarden. Een voorbeeld van nominale waarden zijn telefoonnummers. Een telefoonnummer is een nummer, maar je kan ze niet van elkaar aftrekken. Een tweede voorbeeld is een automerk van de auto van een proefpersoon. Een merk is een verzamelnaam voor een categorie, waarvan er in een dataset snel meer dan 2 zullen voorkomen.

 

Wanneer je een idee hebt welke huidige data je beschikbaar hebt voor jouw project, kun je nu kiezen naar welk artikel je verder gaat:

Green Belt DMAIC (2/8) – Measure Fase voor Discrete Data

 

Green Belt DMAIC (3/8) – Measure Fase voor Numerieke Data

Reactie toevoegen