Analyse ontwerp: De “Big” question voor Big Data

Big Data Feature Header

Tegenwoordig zijn steeds meer organisaties bezig met het uitproberen van nieuwe Big Data ideeën. Hierbij worstelt men steeds vaker met de vraag hoe men de verschillende soorten analyses moet aanpakken. In mijn werk als Data Scientist, zie ik een belangrijke vraag steeds vaker terugkomen. Het antwoord op deze vraag bepaalt mede hoe het vervolg van het analyseproces en het Big Data platform eruit gaat zien.

Meer dan alleen rapportages

Traditionele Business Intelligence (BI) richt zich voornamelijk op het antwoorden van vragen met een beschrijvend karakter (bijv. Wat was de omzet in 2014?). Of vragen met een diagnostiek karakter (bijv. Wat was de omzet na de promotiecampagne in Arnhem?). Dit soort vragen zijn gesneden koek voor de meeste BI consultants onder ons.

Veel organisaties hebben in hun in BI roadmap doelstellingen opgenomen die ervoor moeten zorgen dat de huidige datawarehouses steeds meer gegevens kunnen bevatten en sneller worden door slimme in-memory oplossingen.

Wanneer we deze lijn verder vooruit trekken, zullen ook analysevragen met een voorspellend en voorschrijvend karakter aan bod komen.

De grenzen verkennen: Zelflerende en voorspellende modellen

We kunnen technieken uit de wereld van ‘machine learning’ – zoals kunstmatige neurale netwerken – en andere voorspellende modellen gebruiken om organisaties antwoord op dit soort vragen te kunnen geven.

Echter, de meeste software die hiervoor beschikbaar is werkt op basis van één centrale gegevensverzameling die op één locatie beschikbaar is. Meestal is dit het intern geheugen of de harde schijf.

Wanneer je – net als mij – het maximale uit de gegevens wil halen, dan wil je waarschijnlijk met ALLE gegevens werken (oftewel: Big Data). De grenzen rondom het interne geheugen en de harde schijf kunnen praktische beperkingen opleveren.

Breng de data naar de analyse

Om antwoord te kunnen geven op vragen over de huidige stand van zaken (beschrijvende of diagnostische vragen) hebben we mooie BI omgevingen die alle data uit een datawarehouse halen, wat sommaties/filters toepassen en dan visueel de resultaten aan de gebruiker laten zien. Mijn favoriete statistische programmeertaal –R – werkt ook volgens dit principe, waarbij de data eerst in het geheugen wordt geladen en daarna de analyse uitgevoerd word.

Andersom: Breng de analyse naar de data

Wanneer je een voorspellend model wilt maken op basis van vele terabytes aan gegevens, gaat dit niet meer lukken met één enkele machine. Om dit te kunnen doen, heb je een omgeving nodig met technologieën die kunnen omgaan met machine learning en voorspellende algoritmes op een gedistribueerde en geparallelliseerde manier. Schaalbaarheid is hierbij een belangrijk aspect.

Bij het werken met gedistribueerde omgevingen is het meest lastige facet rondom schaalbaarheid, de vertraging op netwerk en disk I/O. Wanneer we vele TB’s aan gegevens moeten kopiëren tussen de verschillende verwerkingseenheden, geeft dit ons een flinke performance uitdaging. Het kan zelfs de praktische uitvoering van de analyse onmogelijk maken.

De meeste moderne Big Data platformen bieden ons de mogelijkheid om de analyse naar de data te brengen. We kunnen hier raamwerken – zoals Apache Hadoop – en algoritmes voor gebruiken die instaat zijn om op een slimme manier met een gedeelte van de data te werken. Op die manier hoeft iedere verwerkingseenheid maar met een klein stukje van de gegevens te werken.

De grote ontwerpvraag

Wanneer men begint aan een nieuw big data traject, is het belangrijk om van te voren de vraag te stellen: “Moeten we de gegevens naar de analyse brengen, of brengen we de analyse naar de gegevens?”

Het antwoord op deze vraag zal veel inspiratie geven voor het structureren van het analyseproces en de keuze van het big data platform…

 


Note: An english version of this post was published by me on LinkedIN: Analysis design: A BIG question for Big Data 


 

Share on LinkedIn2Tweet about this on TwitterEmail this to someoneShare on Google+0Share on Facebook3

Geen reacties

No comments yet.

RSS feed for comments on this post.

Leave a comment

WordPress Themes