Overslaan naar content

Effectieve dubbelrol Data Scientist / Machine Learning Engineer

“Doordat we met zoveel verschillende achtergronden bij elkaar werken, is kennisdeling een van onze speerpunten. Het delen van kennis helpt niet alleen andere collega’s, maar is ook een goed ijkmoment voor jezelf.“

Gabriel Ybeles Smit - Data Scientist

Gabriel Ybeles Smit

Gabriel Ybeles Smit werkt sinds 2016 bij Future Facts Conclusion als Data Scientist en heeft zich in de afgelopen jaren ook de rol van Machine Learning Engineer eigen gemaakt. Hij neemt ons graag mee in zijn werkzaamheden en (het delen van) de ontwikkelingen in zijn vakgebied.

Modelontwikkeling en infrastructuur

Als Data Scientist houd ik me bezig met het ontwikkelen van specifieke modellen voor klanten. Hiervoor haal ik eerst de specificaties op om een bepaald probleem op te lossen. Ook ontwikkel ik code voor het testen en valideren van het model, zodat de klant het model of de uitkomsten ook daadwerkelijk kan gebruiken.

Daarnaast ben ik Machine Learning Engineer, wat betekent dat ik ook de infrastructuur opzet om de modellen in productie te krijgen bij de klant. Het ontwikkelen van deze extra rol is eigenlijk heel natuurlijk gegaan. Future Facts Conclusion geeft me de vrijheid om een bepaalde richting meer te ontdekken, en ik heb veelal in trajecten bij de klant de mogelijkheid gehad om die ontwikkeling door te maken. Het mes snijdt daarbij aan twee kanten: je maakt er klanten blij mee en je leert zelf een hoop.

Om het model doorlopend te kunnen trainen en te gebruiken op nieuwe data moet je een geautomatiseerd proces opzetten. Daar komt het een en ander bij kijken. De infrastructuur om de data te verwerken ligt tegenwoordig in een cloud-omgeving en wordt met code in elkaar gezet, ook wel infrastructure-as-code genoemd. Je moet processen ontwikkelen voor de instroom en opslag van data, de verwerking en het draaien van de modellen uiteraard, maar ook de monitoring en alerting moet je hierin meenemen.

Virtualisatie: steeds meer serverless en on-demand computing

De tendens is om alles zoveel mogelijk te virtualiseren. Dit brengt veel voordelen met zich mee. Vroeger moest je naast een mainframe zitten om je code en data in te voeren (cf. de eniac). Later kon je al inloggen via een terminal (teletype - tty), de terminal werd virtueel (terminal emulator), en nog later werd de computer ook virtueel (virtual machines). Door dit proces steeds verder door te voeren naar operating systems werd containertechnologie volwassen. Docker is daar een van de meest bekende voorbeelden van. Zodoende kan steeds meer serverless of on-demand computing worden uitgevoerd, waarbij alle os-level-resources virtueel zijn. Dit maakt het bouwen, schalen en migreren van een oplossing erg flexibel. Ik denk dat we dit in veel meer oplossingen gaan tegenkomen.

Kennisdeling met junior collega’s

Ik krijg veel energie van het werken met dit soort nieuwe technologieën, maar ik vind het ook erg leuk om kennis over te dragen. Vroeger als promovendus en postdoctoraal onderzoeker heb ik vaak college en practicums gegeven aan studenten. Nog wat dieper gravend in het verleden ben ik als natuurkundeleraar opgeleid en is daar de kiem al geplant. De ‘Future Facts Fast Track’ is een programma om junior collega’s klaar te stomen als Machine Learning Engineer. Voor dit traject geef ik meestal een cursus Python, Pyspark en Data Bricks. Onze collega’s hebben vaak een heel verschillende achtergrond, waardoor er behoefte is een basis te creëren van waaruit iedereen kan starten. In een paar weken tijd behandelen we verschillende onderwerpen van Data Engineering en Data Science tot meer soft skills. Ik vind het erg leuk om te zien hoe snel deze kennis weer gebruikt wordt in de praktijk.

Pragmatisme, openheid, plezier en diversiteit

Die pragmatische insteek is kenmerkend voor Future Facts Conclusion. Daarnaast trouwens ook de open cultuur, het plezier en de diversiteit binnen onze organisatie. Diversiteit komt niet alleen terug in projecten maar ook in collega’s. Doordat we met zoveel verschillende achtergronden bij elkaar werken, is kennisdeling een van onze speerpunten. Het delen van kennis helpt niet alleen andere collega’s, maar is ook een goed ijkmoment voor jezelf. Als je een onderwerp moet uitleggen aan een ander, zie je pas wat de grenzen zijn van je eigen kennis. Plezier en openheid merk in de samenwerking die we hebben met elkaar, zoals in avonden met een hackathon of een kennistrack. Of bijvoorbeeld op de vrijdagen, waarin collega’s een klein onderwerp presenteren tijdens onze zogenaamde ‘Friday Sessions’. Dit levert altijd weer stof tot nadenken op.

Nieuwsgierig geworden naar de mogelijkheden bij Future Facts Conclusion?

Wij zijn altijd op zoek naar talentvolle Data Scientists, Analytics Translators, Machine Learning Engineers en Data Engineers. Bekijk de openstaande vacatures bij Future Facts en wie weet worden we collega’s!

De Hot ITem Groep maakt onderdeel uit van het Conclusion ecosysteem. Een unieke bundeling van bedrijven op het gebied van Business Transformatie en IT Services, met elk hun eigen signatuur en vakgebied. Wat ons verbindt? De drive om met oplossingen te komen die echt impact maken.