Categorieën
Cake culture

Vertel ons over ... data

Er is niemand beter om te praten over Cake dan de mensen die daar werken. In deze serie “Vertel ons over…” interviewen we Cake medewerkers. Vandaag is het aan Jessica Ruelens en Davy Cielen.

Van links naar rechts: Mohamed, Davy, Nick, Thomas, Jessica

In deze serie geven we het woord aan Davy Cielen, Data Scientist en Jessica Ruelens, co-founder en Head off Data Science bij Cake.

🍰 Wat is jullie rol bij Cake?

Jessica: Ik ben co-founder bij Cake en in het begin werkte ik vooral als Data Scientist. Nu het team ondertussen wat verder uitgebouwd is, ben ik meer bezig met de architectuur en strategie. En ik leg ook de link met andere afdelingen binnen het bedrijf zoals Devops en de Business kant.

Davy : Ik was de tweede persoon die werd aangeworven binnen het data team bij Cake. Ik werk als Data Scientist.

Jessica: Ondertussen bestaat ons Data team uit 6 personen. Nick en James zijn allebei Data Engineers en werken als duo, Thomas is Data Analyst en Mohamed is ETL Engineer.

🔎 Wat is het verschil tussen al deze rollen?

Jessica : Een Data Scientist is specialist in Machine Learning, ontwikkelt de predictieve modellen of voorziet in clustering algoritmes.

Data Engineers zorgen ervoor dat alle verrijkte gegevens op de juiste plek terechtkomen, op het juiste moment en in de juiste vorm.

Een ETL engineer zorgt voor de processen die de verschillende bronnen van data samenbrengen in een formaat dat bruikbaar is voor het data team (de transacties, de feedback van gebruikers, …).

Een Data Analist maakt rapporten van de data die er al is en die verrijkt werd en zorgt dat die op de beste manier bij de verschillende stakeholders terecht komt (zowel consumenten als commerciële partners van Cake).

Davy : Het onderscheid ligt ook in de business oriëntering. Waar een Data Scientist of Analyst eerder kijkt naar de business waarde en een antwoord op business vraagstukken formuleert op basis van data, is het werk van een Data Engineer technischer.

En ook de time frame waarbinnen gewerkt wordt is verschillend. Een Data Analyst verwerft inzicht op ad-hoc vraagstukken. Een Data Scientist bouwt modellen. Een engineer zorgt voor robuuste data flows, zeker wanneer ze real-time moeten worden gebruikt.

Jessica : Het onderscheid tussen al deze verschillende rollen is heel belangrijk om een goed draaiend team samen te stellen. Ik stel vast dat daar in de praktijk vaak nog te weinig rekening mee wordt gehouden en dat de verkeerde profielen voor de verkeerde rollen worden aangeworven. En dan kom je in de problemen. Het Data domein is nieuw voor veel bedrijven en dan zie je dat er en cours op de route al eens wat ongelukken gebeuren. En goed overzicht van de verschillende rollen kan je in dit artikel vinden.

🚀 Hoe begin je te bouwen aan zo’n leeg blad?

Jessica: Dat is een iteratief proces. En eigenlijk weten we dat nog steeds niet.😂 Neen, dat is uiteraard een grapje. Eigenlijk begon alles met de missie van Cake die van bij het begin zeer duidelijk was: het financieel welzijn van de gewone consument verbeteren dankzij een betere banking app.

Vanuit die missie zijn we gesprekken aangegaan met instanties zoals het CEBUD (Centrum voor budgetadvies en -onderzoek) en het OCMW. En toen werd snel duidelijk dat inzicht in je financieel gedrag cruciaal is voor je financieel welzijn. Dat is wat ook alle financieel experts zeggen: hoe minder goed we weten hoe ons geld werkt, hoe meer foute beslissingen we nemen..
En van daaruit zijn we vertrokken.

Davy : In je banktransacties zit alle informatie om een goed inzicht te krijgen vervat. Alleen niet op een overzichtelijke manier. Het verrijken en ordenen van de banktransacties werd dus de eerste stap. En hoe dan ook ga je in zo’n proces verschillende alternerende fases door van meer strategisch denkwerk en meer technische uitvoering en bekommernissen.

Jessica: Het CEBUD blijft, als academische instantie, ook vandaag nog een belangrijkklankbord voor de verdere ontwikkeling van de app. Wij, op onze beurt, helpen hen ook om bepaalde assumpties af te toetsen.

💁 Op welke manier wordt die data dan verrijkt?

Jessica: We bouwen een model voor het verwerken van de data dat zelflerend is. Hoe langer het model loopt, hoe meer gebruikers er zijn en hoe meer data er binnenkomt, hoe accurater de informatie die uit het model komt. Maar zo’n model bouw je uiteraard niet op één dag. Zo’n model doorloopt verschillende fases vooraleer het er staat.

De eerste fase noemen we de exploratieve fase. En dat is niet meer of minder dan met gezond boerenverstand begrijpen welke informatie er binnenkomt. En daar bestaan geen vaste regels over.

In een tweede fase gaan we concrete voorbeelden verzamelen op basis waarvan we het model later “hints” (de zogenaamde features) kunnen geven van waarop het moet letten om een bepaalde transactie toe te wijzen. Zo kan je het model bijvoorbeeld leren dat transacties op een zaterdagavond tussen 8u en middernacht waarschijnlijk horeca-uitgaven zijn.

In een derde fase wordt het verhaal technischer en gaan de Data Scientists een prototype bouwen.

In een vierde fase gaan de Data Engineers aan het werk. Zij bouwen een werkend model . Dat is de echte implementatie fase waarin er echte data doorheen het model kan beginnen stromen.

Davy : Uiteraard begin je met het analyseren van de transacties en de informatie die voorhanden is. Dat is voor Cake alle informatie die dankzij de PSD2 wetgeving via de connectie met de banken (de zogenaamde API) bij ons binnen loopt.

Ik ben dan met het idee gekomen om Natural Language Processing toe te passen. Dat is een tak van kunstmatige intelligentie die ervoor zorgt dat computers menselijke taal kunnen interpreteren en begrijpen. Alleen hebben we hier niet te maken met menselijke taal maar met een “hoopje” van termen die niet de normale menselijke zinsbouw hebben, dus geen werkwoorden, hoofdletters, leestekens. Een ferme opdracht dus om dit systeem te laten werken op ruwe en ongestructureerde data zoals deze:

Omdat we een methode gebruiken waarvoor die in eerste instantie niet is bedoeld moesten we die dus “omscholen”. En daar kwamen (en komen nog steeds) wat uitdagingen bij kijken:

  1. Je hebt geen voorbeelden.Op zich is dit al moeilijk voor grote retailketens met meerdere winkelpunten, laat staan voor kleine ondernemers die slechts één verkooppunt hebben.
  2. Vaak is de informatie die we van de bank ontvangen beperkt in lengte waardoor we te maken hebben met afkortingen en soms cryptische omschrijvingen (bv. MRS in onderstaande transactie staat voor een Bpost kantoor).
  3. Meerdere talen (zeker voor België) zorgen voor een bijkomende complexiteit.
  4. Verschillende schrijfwijzen per verkooppunt of winkel van de transactie. Zo komt een “Proximus” transactie soms binnen als “Proxihus”.
  5. Achter een bepaalde winkel of verkooppunt schuilt vaak een legale entiteit of rechtspersoon met een andere naam Bv. snoepwinkel Zoet in Mechelen komt binnen als Neuhaus in Londerzeel.

Jessica: Ondertussen staan we voor Vlaanderen al vrij ver. We analyseerden intussen al meer dan XNUMX miljoen transacties voor een totale waarde van meer dan XNUMX miljoen.

Ongeveer 60% van de terminal transacties zijn intussen verrijkt met het juiste verkooppunt en de juiste categorie. In het begin moesten we veel data manueel bijsturen. Ondertussen verloopt er nu heel veel automatisch maar er gaan altijd uitzonderingen zijn die manueel zullen moeten bijgestuurd worden.

Sowieso blijft dit een spanningsveld tussen beslissingen nemen en de juiste graad van accuraatheid inschatten. We doen continu aannames die we in werking zetten en waarop opnieuw wordt bijgestuurd. En dit blijft een proces van vooruit en achteruit gaan.

🏁 Zal het model ooit afgewerkt zijn?

Davy : Neen, nooit 😀. Neen, alles verandert elke dag. Elke maatschappelijke, culturele of economische context, of verandering ervan, heeft een effect op het model waar weer rekening mee moet worden gehouden. Neem terug het voorbeeld waarbij het model geleerd heeft dat transacties op een zaterdagavond waarschijnlijk horeca zijn. Dit is waardeloos geworden in coronatijden. Transacties op een zaterdagavond zijn nu waarschijnlijk eerder de activatie van een Netflix-abonnement. Daar moeten we dan manueel op ingrijpen en het model opnieuw trainen.

Jessica: Ook wanneer we later naar andere landen gaan zullen we het model opnieuw moeten laten leren. Enerzijds omdat de informatie die via de bank binnenloopt anders opgebouwd is maar anderzijds ook omdat het om een andere taal gaat of in sommige gevallen zelfs om een ander schrift.

Davy : Ook voor Wallonië staan we al ver. Uiteraard komt de informatie in een andere taal binnen maar de banken zijn dezelfde, de manier waarop de informatie binnenkomt is dezelfde en de grote retailketens zijn ook dezelfde.

Ondertussen zijn we ook gestart met de eerste testen met Nederlandse banken en hiervoor gaan we dus opnieuw moeten zoeken naar nieuwe regels. Voor België kunnen we bijvoorbeeld uit het maandelijkse bedrag van het groeipakket afleiden hoeveel kinderen iemand heeft. Als dat systeem in Nederland anders werkt dan moeten we daarvoor andere regels bedenken.

Jessica: Het ultieme doel en het inzicht in financiën is universeel. Ook de regels over wat een gezond financieel leven is zijn universeel. Alleen de manier waarop we voor elke markt de inzichten moeten opbouwen is anders.

En ook in de samenstelling van het team zullen we op termijn rekening moeten houden met de evoluerende noden. Al hebben we op vandaag al een redelijk divers team met diverse achtergronden en werkend vanuit verschillende landen.

📝 Wat met feedback van gebruikers?

Jessica: Feedback van gebruikers is heel belangrijk om het model hints te geven of op het juiste spoor te zetten. En feedback van individuele gebruikers wordt gebruikt om het model voor alle gebruikers te verbeteren. Feedback geven in de app maakt de app dus voor iedereen beter.

Deze week wordt er in de app een nieuwe functionaliteit toegevoegd waarbij je als gebruiker feedback kan geven die realtime weergegeven wordt in jouw app. Van zodra het model meerdere gebruikers heeft die dezelfde feedback geven dan wordt het toegepast voor iedereen.

Davy : Deze nieuwe feedback mogelijkheid zal zorgen voor een grote sprong voorwaarts in de verrijking van de transacties. We starten met feedback over de locatie maar dat wordt in de komende weken nog uitgebreid.

🔐 Hoe garanderen jullie de veiligheid van de data?

Jessica : Gezien we werken met bank transactiegegevens is privacy en veiligheid steeds onze prioriteit. Om te beginnen worden alle transactiegegevens van zodra ze bij ons binnen lopen volledig ontdaan van alle identificatiegegevens. Dit wil zeggen dat alle informatie die de transactiegegevens kunnen linken aan een bepaald persoon verwijderd worden en bewaard worden in een aparte database. Hoe dit precies werkt kan je hier nalezen.

Davy : Daarnaast hebben slechts een beperkt aantal mensen toegang tot alle informatie en enkel wanneer dit strikt noodzakelijk is. Data Scientists hebben bijvoorbeeld wel toegang tot de ruwe data (dit wil zeggen de transacties ontdaan van de identiteitsgegevens). De Data Engineers hebben geen data toegang omdat dat niet noodzakelijk is. Zij bouwen het model met testdata, specimen zeg maar (in IT jargon noemt men dat de QA omgeving). De Data Analyst heeft dan weer enkel toegang tot de verrijkte gegevens maar nooit de ruwe data.

🥳 Wat is jullie ultieme doel? Wanneer gaan jullie tevreden zijn?

Davy : 80% verrijking zou fantastisch zijn. Die laatste 20% is heel moeilijk omdat er een grote longtail is van de zogenaamde one-off transacties. Transacties die eenmalig gebeuren bij 1 of slechts enkele gebruikers zullen altijd moeilijk blijven.

Jessica : Als we effect zien in het gedrag van mensen voor en na de installatie van de app zal ik tevreden zijn. Dan weten we dat we echt een impact hebben op het financieel welzijn en dat we onze missie aan het waarmaken zijn. En ik ben ervan overtuigd dat, hoewel de app nu nog lang niet al zijn mogelijkheden toont, we dit nu al doen door inzichten te geven. Dat zien we nu al aan de reacties van gebruikers die binnen komen. Zelfs bij Cake hebben we al collega’s die na confrontatie met hun Zalando grafiek hun aankoopgedrag hebben bijgestuurd. Ik noem geen namen. 💪

Davy : Hoe dan ook, hoe meer gebruikers we hebben, hoe meer transacties we analyseren, hoe juister de inzichten die we genereren. Dat is de kern van het Cake ecosysteem.

De Cake app is sinds begin dit jaar gratis te downloaden. Hoewel het nog steeds een bètaversie is, biedt ze al meer dan voldoende functionaliteiten om je financieel inzicht te verbeteren.👏 En om je bankrekening terug te laten opbrengen. 💸. We onze inkomsten met onze actieve gebruikers.


👉 Download de app in de App Store of via Google Play. Als je de app leuk vindt, aarzel dan niet om een ​​review te schrijven! 📝

Door Sophie

Head of Marketing & Communication