SAP Data Hub, de dirigent van het data landschap!

SAP Data Hub, de dirigent van het data landschap!

Een recente studie onder IT managers gaf een aantal opvallende zaken weer:

  • 74% gaf aan dat het data landschap te complex is om snel op te kunnen acteren
  • 50% gaf aan dat hun data niet toegankelijk is voor business gebruikers
  • 86% heeft het gevoel veel meer met de aanwezige data te kunnen doen

Het bovenstaande is ongetwijfeld herkenbaar. De tijden dat data in een data warehouse vanuit 1 plek kwam (lees SAP ECC) is al lang voorbij. Door het ontsluiten van vele bronnen, zowel gestructureerd als ongestructureerd, ontstaat een schat aan data. Dat gezegd hebbende, ontbreekt vaak de kaart om van deze bak met data een schat aan informatie te maken.

 

 

Hoe komt dat toch?

Er zijn een veelvoud aan redenen. 1 van de belangrijkste mijn inziens is governance. Als u niet weet waar de data vandaan komt, hoe kunt u er dan een stempel “goed genoeg” aangeven? En van wie is die data in het data lake nu eigenlijk? Waar komt deze vandaan? Hoe is de kwaliteit ervan? Hoe lang heb ik het tot mijn beschikking tot het weer verwijderd wordt? Legio vragen die de betrouwbaarheid en beheersbaarheid van data lakes ondermijnen. Ook is het categoriseren van de data een probleem. Als er zoveel data tot de beschikking staat van een eindgebruiker, moet er ook een catalogus van zijn. Zonder kaart geen schatkist, simpel zat.

Mocht u als organisatie de mankracht hebben het voorgaande te kunnen realiseren, dan blijft er nog de IT uitdaging om alle data van A naar B te bewegen (en vaak weer terug). Dat was in de BW begin jaren nog geen probleem met 1 tot enkele, vaak SAP, bron systemen. Het werd al wat moeilijker met het connecteren van relationele databases,  maar het wordt bijna onmogelijk met grote ongestructureerde data bronnen met een grote diversiteit aan componenten (KAFKA, Spark, HDFS, S3, Zeppelin) om er maar een paar te noemen.

 

 

SAP Data Hub

Met de lancering van SAP Data Hub wil SAP een totaal oplossing gaan geven voor de geschetste uitdagingen. Een oplossing die klanten gaat helpen inzicht te krijgen in hun totale data landschap en een brug te slaan tussen Enterprise systemen en gedistribueerde data systemen.

 

 

Er zijn 3 kern elementen in de oplossing:

  1. Data pipelines om data flows te maken welke connecteren met een grote hoeveelheid aan bron en doel systemen
  2. Workflows om data door het gehele landschap te kunnen sturen en deze te monitoren
  3. Governance welke een catalogus (repository) aan informatie zal bevatten inclusief de mogelijkheid om de data kwaliteit te toetsen (profiling)

 

 

Roadmap

De ontwikkelingen die reeds gerealiseerd zijn in Data Hub zijn indrukwekkend. Het SAP ontwikkel apparaat is breed ingezet om zo snel mogelijk een totaal oplossing te kunnen bieden voor u als klant.

 

 

Data Hub Developer edition

Zoals ook met HANA heeft SAP een Developer edition uitgebracht waarmee ontwikkelaars op hun eigen laptop data flows kunnen bouwen om zo de functionaliteit te testen. Natuurlijk hebben we dit vanuit Interdobs getest. Binnen 30 minuten na installatie pushten we de eerste records vanuit Data Hub naar HANA. Indrukwekkend!

Meer weten? Neem contact met ons op!

Ronald Konijnenburg