Data mining

Het geautomatiseerd zoeken naar patronen in een dataset wordt ook wel data mining genoemd, een proces dat in fasen wordt uitgevoerd en waarbij het daadwerkelijke minen in het midden van het gehele proces zit. De gebruikte technieken voor mining kun je in zes groepen verdelen en per techniek zijn er ook nog weer verschillende mogelijkheden die benut kunnen worden.

 

Betere besluiten nemen

Wat data mining dus doet is het zoeken naar patronen in een verzameling gegevens. Anderen noemen het eerder schatten zoeken in databases. Op basis van de gevonden informatie kunnen betere besluiten genomen worden. Alleen data mining is niet genoeg, het gehele proces begint met het stellen van de goede vragen en dat samenstellen van een dataset. Het proces zit er nadat er interpretaties van de resultaten gemaakt zijn op.

Data mining

Soms even een stapje terug

Data mining kun je terugbrengen naar drie fasen: pre-processing, data mining en de validatie van de resultaten. In andere procesmethoden worden die fasen weer verder uitgesplitst. De meest gebruikte methode is CRISP-DM op de voet gevolgd door SEMMA. Overigens is het geen chronologisch proces, maar eerder een iteratief proces; soms moet je dus wel eens een stapje terug om de dataset of de parameters bij te stellen. Vooral in de CRISP-DM methode is deze ‘herhaling van zetten’ goed waarneembaar. Cross-Industry Standard Process for Data Mining is zoals gesteld de meest gebruikte fasering voor mining en een aanpak die uitgaat van zes fasen: kennis business, kennis data, preparatie data, modellering, evaluatie en implementatie.

 

Beperkt zich alleen tot data

SEMMA – dat staat voor Sample, Explore, Modify, Model en Assess- wordt weleens verweten dat het zich alleen tot de data beperkt en die niet in de juiste context plaatst. De techniek bestaat uit zes groepen en per techniek kun je vervolgens weer voor heel veel mogelijkheden kiezen. Kiezen is lastig overigens, en dus is het nogal eens een probleem de juiste parameters te gebruiken.

 

De technieken

De technieken? Dat is outlier detection in de eerste plaats ofwel het vinden dan data die afwijken. Andere technieken zijn clusteren, het verdelen van gegevens in groepen, en het toepassen van de associatieregels. Dit is het zoeken naar verbanden tussen de variabelen, een techniek die veel gebruikt wordt bij productaanbevelingen in webshops. Classificatie is ook een gebruikte techniek terwijl een regressieanalyse het vinden van een formule is die de data op de best mogelijke manier beschrijft. Samenvatten is tenslotte het compact weergeven van een dataset.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *