BI versus big data?

DSC02216BI versus big data?

We staan even stil bij de verhouding tussen de ondertussen ingeburgerde business intelligence (BI) en deze opkomende big-datatrend. Zal BI nog pertinent en bruikbaar zijn, of staat de big-databeweging enkel voor een grotere omvang van data waarop de klassieke BI-tools losgelaten worden?

Ondanks het concept van de self-service BI aangeboden door sommige BI-tools, vraagt een klassieke BI-oplossing meestal het op voorhand definiëren van de gewenste ‘metrics’ en hun structuur door technische medewerkers, intern of extern. Dat is dan bepalend voor de filters, de wijze en periodiciteit waarop de gegevens opgeladen worden in aparte ‘gegevensmagazijnen’.

Die achteraf bijwerken is mogelijk, maar vergt vaak serieuze inspanningen. Denk daarbij aan het toevoegen van een bijkomende metric, de wens om de historisch gerelateerde gegevens van een nieuw gedefinieerde metric op te zoeken of de impact van slow-moving variables (commissieberekeningen op historische klantenstatistieken bij een gewijzigde verkoopverantwoordelijke).

Bij een big-dataproject wordt de enorme berg aan gegevens opgesplitst in kleinere, verteerbare informatiebrokken, oftewel map-reduced. Op elk daarvan wordt dan parallelle rekenkracht losgelaten, geen sequentiële, waarna het systeem automatisch alles terug tot één geheel brengt om verbanden en bepalende factoren te vinden. Per definitie verwijdert een big-data-aanpak nooit gegevens. Historische opzoekingen op een nieuw bedachte metric zijn dus altijd mogelijk met een minimum aan inspanningen.

Op termijn gaan we vermoedelijk naar een integratie van the best of both worlds. Langs één kant zullen de logica en aanpak van BI gewijzigd worden om welbepaalde waardevolle elementen van de big-datamethodiek (open source, MapReduced) te integreren. Aan de andere kant, om te kunnen doordringen tot de werkplek van de CFO, zal big data absoluut het gebruikersgemak, de flexibiliteit en business-to-businessomgeving van de huidige BI aanpak deels moeten overnemen.

Martin van Wunnik, FD Magazine n° 77, september 2013

http://www.slideshare.net/MvanWunnik/bi-vsbig-data

Advertisements

Big data en de CFO

Stel dat u als CFO een algemeen saldo op een omzetgrootboekrekening voor een welbepaalde periode volledig kan terugtraceren tot de som van alle individuele orderlijnen van elke klant?

En daarbij ook de bijbehorende aankooporders of de stockrotatie kan achterhalen voor de opbouw van een zeer gedetailleerde margeanalyse?

Ooit GedachtOoit Gedacht

Het zijn een paar vragen die Martin van Wunnik opwerpt, als we hem vragen om eens wat ideeën te verzamelen rond de bruikbaarheid van big-datatechnieken voor de financiële functie. Maar eerst misschien iets voor wie zich nog afvraagt wat bedoeld wordt met ‘big data’.

Traditioneel statistisch onderzoek naar trends of verbanden gebeurt vanuit een hypothese en een zorgvuldig geprepareerde dataset. Maar tegenwoordig is dat niet altijd meer nodig. Onderzoekers vinden soms verbanden met verbazend sterk voorspellende waarde op basis van analyses van datasets die sterk uiteenlopen van aard en kwaliteit en die zeker niet specifiek voor het onderzoek zijn aangelegd. In hun succesboek De Big Data Revolutie schetsen Viktor Mayer-Schönberger en Kenneth Cukier een resem spectaculaire voorbeelden. Zo liet big-datasoftware van IBM toe om te voorspellen welke premature baby’s extra gevaar zouden lopen dankzij captatie van zeer veel gegevens uit sensoren aan de couveuse. Het opmerkelijke is echter niet alleen het volume aan data, maar dat men ook die data registreerde die op het eerste gezicht niet relevant waren. Op basis van de klassieke parameters was men er nooit achter gekomen dat soms erg stabiele waarden juist een crisis voorspelden.

Op vergelijkbare manier kwam Walmart aan recordverkopen van een bepaalde snack. De Amerikaanse groothandelaar houdt gegevens bij van elke aankoop van elke klant. Analisten viel het op een bepaald moment op dat telkens wanneer de National Weather Service waarschuwde voor een orkaan, de winkels in de bedreigde zone een opstoot zagen in de verkoop van Pop-Tarts. Daarop werd winkelmanagers gezegd dat ze die aan de ingang moesten zetten gedurende het orkaanseizoen en de verkopen stegen naar records. Het punt is ook in dit voorbeeld dat men tot onvoorspelbare inzichten komt door computers los te laten op zeer grote en zeer uiteenlopende datasets.

Wij zoeken nog een voorbeeld dichter bij huis, met name bij Luc Burgelman van NGData, een leverancier van software waarmee klantengedrag voorspelbaar wordt op basis van zeer uiteenlopende data over die klant. We vragen hem op welke manier big-data-analyses verschillen van de traditionele? Luc Burgelman: “Klassieke databasesystemen kunnen geen enorme volumes aan en niet de verschillende formats: klank, video, foto, … Naast het volume en de variabiliteit van de data, speelt ook nog eens de snelheid waarmee data verhandeld worden een rol. Uw bank heeft al veel data over zijn klanten, maar er komen nu zoveel meer data dat men ze niet kan opslaan in ‘datawarehouses’ en de systemen zijn niet flexibel genoeg om die uiteenlopende types data in een zinvol geheel te presenteren. 20 jaar geleden ging je naar de bank voor een lening en info daarover kwam in één toepassing. Maar vandaag heb je apps voor je tablet of pc en je surft al eens naar een andere bank. Je hebt makkelijk tien kanalen die alle relevante data genereren, maar de bank heeft daar geen zicht meer op. Al die data zitten in verschillende silo’s.”

Er komt nu geen dataminer meer aan te pas die een subset aan data prepareerde om daar vervolgens iets uit te leren. Burgelman: “Een big-data-analyse vertrekt van veel méér en van actuele gegevens: locatie, recent surfgedrag, wat je opzoekt, programma’s die je bekijkt etc. De vervaltijd van die gegevens is veel korter. We willen nu snel vaststellen dat 99 mensen van een bepaald profiel product X kochten en dan snel het signaal krijgen dat een 100ste persoon van dat profiel dat product zéér waarschijnlijk ook interessant zal vinden. Daar kunnen we nu systemen voor bouwen.”

NGData maakt programma’s waarmee telecoms gedrag van klanten kunnen voorspellen, bijvoorbeeld dat ze van plan zijn om naar een andere provider te gaan. Maar ook kleinschaliger toepassingen zijn mogelijk. Zo deed de krant De Tijd deed iets vergelijkbaars toen een tijd geleden de zoveelste Franse gefortuneerde naar België kwam. De Tijd zocht daarop een manier om betaalbaar en doeltreffend in te schatten wat de economische impact kan zijn van dat fenomeen. Martin van Wunnik zet voor ons uiteen hoe de krant geen economische denktank inzette daarvoor, maar een beroep deed op het bedrijfje data.be. Dat voerde een OCR-analyse (woordherkenning) op de 300.000 gescande openbare pdf-publicaties van het Belgische Staatsblad (voor 2012), gevolgd door een zoektocht op sleutelwoorden met de open-source ElasticSearch-software. Denk daarbij aan zoektermen als ‘Français’, ‘Franse’, ‘oprichting’, ‘kapitaalverhoging’, … Het resultaat was een lijst van enkele honderden gevallen, met telkens een verwijzing naar de onderliggende publicaties op het internet. Die lijst werd dan manueel verder geanalyseerd om het onderscheid te maken tussen zuiver operationele activiteiten en de meer fiscaal geïnspireerde constructies. Enkele terugkomende valse positieven waren: een coördinatie der statuten, het omzetten van het kapitaal van Belgische franken naar euro, het wegvallen van de aandelen aan toonder, … En dat alles waarbij telkens één Fransman betrokken was als zaakvoerder of aandeelhouder. Op basis van de opgeschoonde lijst publiceerde De Tijd begin dit jaar haar artikelreeks en conclusies.

Het voorbeeld illustreert dat enkel brute rekenkracht gebruiken om een enorme hoeveelheid aan gegevens te analyseren, niet volstaat. Toon Vanagt (data.be): “De gevonden resultaten moeten altijd verder worden onderzocht door iemand met kennis van zaken.”

Momenteel is big data de speelplaats van technische profielen, programmeurs, informatici, wiskundigen en statistici, in het algemeen ‘data scientists’ genoemd. Daar wringt het schoentje, omdat de noodzakelijke aanvulling met businessprofielen die een inzicht hebben in de bedrijfsvoering en de juiste vragen kunnen stellen, grotendeels ontbreekt. “Ruw gezegd begrijpen de technische profielen niet de noden en wensen van de eindgebruikers en vice versa. De grotere spelers zoals SAS en IBM proberen op die communicatieproblematiek in te spelen met een aanbod aan gediversifieerde consultancyteams”, aldus Martin van Wunnik.

GIGO

Elk project dat gerelateerd is aan het analyseren van gegevens valt of staat met de kwaliteit van de onderliggende gegevens, conform het adagium ‘garbage in = garbage out’. Hoewel big-dataprojecten daarbij geen uitzondering zijn, moeten we wel een belangrijke kanttekening plaatsen. Net zoals Jef Bezos van Amazon enkele jaren geleden verkondigde (“We do not delete data”), ligt de nadruk bij big-dataprojecten op het behouden van alle gegevens. Er zijn geen vaste, voorgedefinieerde filters of hergroeperingen en absoluut niets wordt verwijderd. “Je bent niets kwijt met big data”, aldus Toon Vanagt van data.be. Een verkeerd ingegeven record blijft uiteraard verkeerd, maar een verkeerde filter of mislukte hergroepering is absoluut geen ramp of reden tot paniek.

Visualisatie en flexbiliteit 

Binnen de werkomgeving van een CFO moet elke oplossing praktisch en direct bruikbaar zijn, dus snel, liefst real-time, visueel en naar eigen wensen flexibel, zo beseft van Wunnik: “Het spreekt vanzelf dat wanneer strategische meerwaarde wordt gezocht, big-dataprojecten ook vooruitziende resultaten moeten leveren.”

“Dat vergt de juiste gegevens, een correcte interpretatie en gefundeerde extrapolatie, zoals politiek analist Nate Silver dat gedaan heeft bij de laatste Amerikaanse verkiezingen (en correct was voor bijna alle staten). Ook hier moet het werk van de data scientist dus zeker verder aangevuld worden om tot een bruikbaar resultaat te komen.”

What’s next?

Specifiek naar financiële profielen ligt er met enige creatieve inzichten een hele resem aan opportuniteiten binnen de financiële big-dataomgeving, gebaseerd op zowel de gegevens binnens- als buitenshuis, zo gelooft van Wunnik.

Van Wunnik: “Stel bijvoorbeeld dat de CFO een algemeen saldo op een omzetgrootboekrekening voor een welbepaalde periode volledig kan terugtraceren tot de som van alle individuele orderlijnen van elke klant?” En daarbij ook de bijbehorende aankooporders of stockrotatie kan achterhalen (voor de opbouw van een zeer gedetailleerde margeanalyse) en input of logginggegevens (op welk moment bestelt de klant meestal voor nieuwe, specifieke marketingactiviteiten).

Naast eigen diepgaande bedrijfsanalyses kan de CFO ook gebruik maken van publieke informatie van andere partijen. Net zoals vandaag een btw-nummer van een Europese partner dagdagelijks gecontroleerd wordt via het internet, zou men in de toekomst hetzelfde kunnen doen met tal van andere, zelf gekozen parameters: evolutie eigen vermogen, aantal werknemers en evolutie daarvan, antecedenten van de zaakvoerder, verbanden tussen verschillende ondernemingen, globaal toegelaten kredietlijn of exposure voor eenzelfde aandeelhouder enz. De verdere verplichtingen inzake XBRL-rapportage biedt  mooie aanvullende big-dataopportuniteiten in een nabije toekomst.

De vaardigheden van de CFO zijn misschien de missing link om samen met de data scientists de big-dataprojecten daadwerkelijk te lanceren binnen het bedrijfsleven. Daarenboven kan de CFO daarmee inhoud geven aan zijn zo vaak gezochte rol van strategische business partner van de CEO.

Martin van Wunnik & Jo Cobbaut – FD Magazine n° 77, September 2013

http://www.slideshare.net/MvanWunnik/bigdata-en-de-cfo