SAP Data Hub: Deep Dive, hoe werkt de Hub nu echt?
In het blog van Ronald heeft u eerder al kunnen lezen dat SAP een nieuw product aan het portfolio toe heeft gevoegd, waarmee het voor bedrijven eenvoudiger wordt om inzicht te krijgen in het totale datalandschap, inclusief het verplaatsen van data tussen systemen. Recentelijk is Interdobs bij een bezoek aan de eerste SAP Partner test voor de Data Hub bijgepraat over de functionaliteit in SAP Data Hub.
Achtergrond SAP Data Hub
Het datalandschap van bedrijven groeit sterk. Met de komst van allerlei IoT devices en producten, zien bedrijven dat het volume van hun data sterk stijgt. Gegevens waarover bedrijven beschikking hebben, worden allang niet meer alleen gegenereerd vanuit hun transactionele systemen zoals SAP ECC, maar komen voort uit het realtime volgen van alle bedrijfsprocessen (bijv. productieprocessen, track&trace) maar ook vanuit data die door verkochte producten of diensten wordt gegenereerd (bijv. alle activiteiten die door sporthorloges worden vastgelegd, social media activiteiten die betrekking hebben op een bedrijf of haar producten, etc.).
Door de sterke volume stijging van de data en doordat nog niet altijd duidelijk is welke informatie precies uit die data gehaald kan worden, zijn bedrijven meer en meer op zoek naar systemen waar zij deze gegevens relatief goedkoop kunnen opslaan. Een Enterprise datawarehouse is dan niet de meest voor de hand liggende optie en je ziet dan ook meer en meer datalakes ontstaan die gebruik maken van relatief goedkope opslagmogelijkheden zoals HDFS en AWS S3.
Uiteraard is het uiteindelijk wel de bedoeling om met (een subset van) die data wat te doen. En daar komt de SAP Data Hub om de hoek kijken. Globaal gezien kent SAP Data Hub een drietal functionele gebieden:
- Data Discovery en Governance
- Task workflows
- Data pipelines
De SAP Data Hub functionaliteit is bereikbaar vanuit de SAP Data Hub Cockpit:
Data Discovery en Governance
De Data Hub biedt een meta data repository over de data die is opgeslagen in het op de Data Hub aangesloten systeemlandschap. Het is vrij eenvoudig mogelijk om bijvoorbeeld bestanden die zijn opgeslagen op een HDFS omgeving of gegevens in tabellen in SAP Vora, te benaderen en te profilen (toetsen). Per bestand kan o.a. opgevraagd worden welke kolommen het bestand bevat, wat de opbouw van de kolommen is en welke inhoud de kolommen bevatten.
Task workflows en Data pipelines
De functionaliteit rondom data pipelines is tweeledig. Enerzijds kunnen zogenaamde Task Workflows worden gebouwd. Met deze workflows kunnen taken worden uitgevoerd waarmee gegevens uit een bronsysteem aan de hand van een ETL proces verwerkt kunnen worden en naar doelsystemen weggeschreven kunnen worden. De intentie van Data Hub is hierbij: bring logic to the data, not data to the logic. Het idee is dat de data zoveel mogelijk in de bronsystemen verwerkt wordt en indien nodig wordt verplaatst naar een ander systeem. SAP Data Hub vervult hierin de rol van aanstuurder van de processen en verwerking. De data zal niet in Data Hub zelf worden opgeslagen.
Anderzijds kunnen data pipelines worden gebouwd, waarmee realtime data kan worden verwerkt en de verwerking kan worden gemonitord. Denk hierbij aan sensordata die binnenkomt en in een doelsysteem zoals S3 of HDFS moet worden weggeschreven. In het blog van Ronald is een voorbeeld terug te vinden van de werking van een data pipeline.
De basis van een Task Workflow zijn datasets en taken. De datasets zijn verwijzingen naar tabellen in de aangesloten systemen. Een dataset kan ook een vanuit Data Hub gegenereerde nieuwe tabel zijn, waarin data wordt weggeschreven door een Task Workflow.
Een voorbeeld van een taak is een zogenaamde FlowGraph. Met onderstaand voorbeeld van een Flowgraph worden in een aantal stappen bepaalde statistieken berekend op basis van gegevens uit verschillende bronbestanden
Taken kunnen worden gegroepeerd in een uitvoerbare Task Workflow, welke via de Data Hub Cockpit kunnen worden ingepland en gemonitord.
SAP’s inzet op SAP Data Hub
Natuurlijk rijst al snel de vraag: ‘Is de SAP Data Hub een vervanger van bestaande ETL tools die SAP al in de markt zet?’. Het antwoord hierop is nee.
Bij de ontwikkeling van de SAP Data Hub is het streven om de SAP Data Hub het centrale punt te maken waarvandaan de datastromen binnen bedrijf kunnen worden gecoördineerd en gemonitord. Ook bestaande data processing tools zoals Data Services, SDI en SLT kunnen (op termijn) vanuit de SAP Data Hub worden aangestuurd en gemonitord. Het streven tot integratie van al deze tools in de SAP Data Hub blijkt ook uit het feit dat de verschillende afdelingen binnen SAP die zich bezig houden met de ontwikkelingen van deze tools, zijn samengevoegd in één afdeling waarin ook de ontwikkeling van Data Hub is ondergebracht.
Door zowel de ingezette ontwikkelcapaciteit van SAP als de noodzaak bij veel bedrijven om meer mogelijkheden te krijgen om het steeds ingewikkeldere datalandschap te kunnen beheren, lijkt de SAP Data Hub een mooie toekomst tegemoet te kunnen zien!