Fabric Data Ingestion: een persoonlijke mening

Kennis Benito van Breugel

4-9-2025

De voorbije 18 maanden kreeg ik de kans om met Microsoft Fabric te werken in meerdere klantprojecten. In die periode heb ik Fabric leren waarderen als een krachtig en veelzijdig platform voor data-analyse. Toch duikt er telkens weer één thema op: vragen en discussies rond hoe en waarom ik bepaalde methodes kies om data te integreren in het platform.

Fabric biedt een uniforme omgeving met verschillende opties om data in te laden in de Lakehouse, één van de kerncomponenten. Maar met zoveel keuzes rijst al snel de vraag:

Welke methode past het beste bij jouw scenario?

In deze blog deel ik mijn perspectief op basis van praktijkervaring met de 3 meest gebruikte opties: Notebooks, Copy Data Activity en Dataflow Gen2. Ik laat event streams voorlopig buiten beschouwing. Houd er rekening mee dat de “beste” methode meestal afhangt van de situatie bij de klant, met betrekking tot teamgroei, ervaring en toekomstige strategie en visie. Heb je vragen of wil je dieper ingaan op één van de aanpakken? Contacteer me gerust!

Notebooks

De eerste manier om data in Microsoft Fabric te integreren, is via notebooks. Die ondersteunen custom code in PySpark of T-SQL.

Persoonlijk werk ik heel graag met PySpark-notebooks. Ze geven me volledige controle over hoe ik data inlaad en transformeer, met de flexibiliteit om alles precies zo te structureren als ik het voor ogen heb. Dankzij de parallelle verwerkingsmogelijkheden van Spark kan ik efficiënt meerdere datasets verwerken, of ze nu uit API’s of andere bronnen komen, allemaal binnen de notebook-omgeving.

Waarom werkt dit voor mij?
Als ingenieur geeft deze aanpak me de vrijheid om dingen op mijn manier te doen. Ik kan datakwaliteitscontroles en validaties rechtstreeks in de workflow integreren, nog vóór iets wordt opgeslagen. Zo is betrouwbaarheid meteen verzekerd.

Ja, er zijn wel programmeervaardigheden nodig. Maar met tools zoals Copilot en ChatGPT gaat de ontwikkeling veel sneller: vaak staat 80% van de oplossing in enkele minuten. Het is die laatste 20% — de verfijning en klantgerichte aanpassingen — die de meeste tijd vraagt. En laten we eerlijk zijn: gegenereerde code werkt zelden in één keer perfect.

Wanneer gebruiken?
Notebooks zijn dé tool voor (ervaren) data engineers, zeker wanneer je te maken hebt met complexe of onconventionele databronnen. Ze komen vooral tot hun recht wanneer je platform specifieke logica of manuele aanpassingen nodig heeft voor de opslag.

Werk je echter binnen een medallion-architectuur, dan is het meestal best practice om ruwe data in de bronze layer te landen zonder transformaties. In dat geval is een Copy Data-activiteit vaak een betere eerste stap: eenvoudig, efficiënt en ontworpen voor ruwe data-ingestie. Laten we dat nu bekijken.

Copy Data (Pipelines)

De Copy Data-activiteit in Microsoft Fabric is een eenvoudige maar krachtige manier om data van bron naar bestemming te verplaatsen binnen een pipeline. Met meer dan 50 connectors en ondersteuning voor diverse formaten, kan je snel, schaalbaar en automatisch data inladen.

Ik vind dit vooral nuttig wanneer het bronsysteem bereikbaar is via één van die connectors en je de data 1-op-1 in Fabric wil laden. Geen transformaties, gewoon ruwe data in je bronze layer, zoals bedoeld.

Waarom werkt dit voor mij?
In vergelijking met notebooks is Copy Data veel meer plug-and-play. Het is makkelijk te configureren, in te plannen en te monitoren, en dus ideaal voor zowel engineers als ervaren business-analisten.

Zelf gebruik ik altijd een metadatatabel om de objecten te bepalen die ik wil laden. Zo heb ik controle over welke datasets parallel lopen en welke sequentieel, wat de prestaties en het resourcegebruik optimaliseert. Je krijgt dus één centrale plek met alle info voor het dataplatform.

Een belangrijke kanttekening: werk je met on-premises bronnen, dan moet je een data gateway opzetten om via Copy Data te verbinden. Maar eens dat geregeld is, loopt de ingestie vlot en efficiënt.

Wanneer gebruiken?
Copy Data is dé oplossing voor 1-op-1 data-ingestie, zeker in kleinere datateams. Het is low-code, makkelijk te beheren en perfect voor rechttoe-rechtaan taken zonder diepgaande engineering skills. Bij het ophalen van data uit verschillende databanktypes is dit mijn voorkeursaanpak.

Voor API’s kies ik doorgaans wél voor notebooks. Die bieden de flexibiliteit en controle die nodig zijn om complexere logica en dynamische datastructuren te verwerken. Bovendien kan ik in notebooks:

Extra Python-packages importeren
API-sleutels veilig ophalen uit Key Vault
Eigen logica bouwen, afgestemd op de API-structuur

Dataflows Gen2

Dataflow Gen2 in Microsoft Fabric is een krachtige, low-code transformatietool gebaseerd op Power Query. Ze is ontworpen om data uit diverse bronnen in te laden, op te schonen en te herstructureren richting Lakehouses of Warehouses.

Met meer dan 140 connectors biedt het zelfs bredere connectiviteit dan Copy Data. En dat in een vertrouwde, Excel-achtige interface, waardoor het zeer toegankelijk is voor business users en analisten zonder programmeerkennis.

Waarom werkt dit voor mij?
Ik zie echt waarde in het opbouwen van herbruikbare, business-vriendelijke logica met Dataflow Gen2. Het is intuïtief, visueel en ideaal voor samenwerking tussen technische en niet-technische teams.

Maar er is een keerzijde: Dataflow Gen2 verbruikt 4 tot 8 keer meer Capacity Units (CU) dan Notebooks of Copy Data. Dat is een serieuze factor, zeker bij grote volumes of frequente runs. Vanuit mijn technische achtergrond en focus op efficiëntie kies ik dus bijna altijd voor notebooks of Copy Data, tenzij er een sterke reden is om Dataflow Gen2 in te zetten.

Wanneer gebruiken?
Dataflow Gen2 komt alleen in beeld wanneer Notebooks of Copy Data écht niet haalbaar zijn. Ik kies het dus enkel in specifieke, goed gemotiveerde scenario’s, nadat ik efficiëntere alternatieven heb uitgesloten.

De uiteindelijke keuze hangt ook sterk af van de samenstelling van het klantenteam, zowel functioneel als technisch. Als er business users zijn die zelf ingestielogica moeten kunnen bouwen en onderhouden zonder code, is Dataflow Gen2 een prima oplossing. Maar voor engineer-gedreven platforms of workloads waar prestaties cruciaal zijn, raad ik aan om bij Notebooks of Copy Data te blijven.

Kort samengevat

Notebooks
De juiste keuze wanneer je met API’s werkt, volledige controle nodig hebt of validaties en transformaties wil inbouwen. Ideaal als er een ervaren engineeringteam achter je dataplatform staat.

Copy Data
Perfect voor een 1-op-1 kopie van brondata (behalve API’s), zolang er een connector beschikbaar is. Laagdrempelig en efficiënt, zeker voor kleinere teams.

Dataflow Gen2
Een optie als er geen connector in Copy Data zit of wanneer je team weinig technische skills heeft. Voor business users die zonder code ingestielogica willen opzetten.

Wil je advies over de beste ingestiestrategie voor jouw situatie? Neem gerust contact op of bereik me via Wortell, ik help je graag verder!

En ga je naar de European Microsoft Fabric Community Conference? Dan hoop ik je daar te ontmoeten!

Connect

Onze auteur

Benito van Breugel

Benito is een ervaren en enthousiaste Data & Analytics Consultant & Team Lead bij Wortell, met een passie voor datagedreven werken en Microsoft Fabric technologie. Met zijn ruime ervaring als Data Engineer, Architect en Team Lead vormt hij een vertrouwde analytische schakel tussen techniek en business. Benito vertaalt nieuwe ontwikkelingen van Data en AI actief naar concrete meerwaarde voor klanten. Energie, scherpte en impact staan bij hem altijd centraal.

Contact me. Bekijk alle artikelen van Benito.