SAP Data Hub 2.3, demonstratie van alle mogelijkheden

SAP Data Hub 2.3, demonstratie van alle mogelijkheden

In Oktober is door SAP de Data Hub 2.3 aangekondigd. In deze blog zal ik u meenemen in de nieuwe features die deze release brengt en tevens de belangrijkste functionaliteit demonstreren in een YouTube video. In video zal ik de volgende zaken demonsteren:

  • Koppelingen met BW, HANA en Azure Data lake
  • Data profiling en indexatie
  • Data ophalen en wegschrijven via HANA
  • Een ETL proces maken op het Azure Data Lake en de resultaten weer wegschrijven naar het data lake
  • De data rapporteren in SAP Analytics Cloud

Ik zal in de demo gebruik maken van een zeer uitgebreide data set welke beschikbaar is gesteld door “Berkeley Earth”:

The Berkeley Earth Surface Temperature Study combines 1.6 billion temperature reports from 16 pre-existing archives. Date: starts in 1750 for average land temperature and 1850 for max and min land temperatures and global ocean and land temperatures

Ik zal deze data verrijken met GEO informatie en de nieuwe data set vervolgens visualiseren in SAP Analytics Cloud om te kijken of we inderdaad aan kunnen tonen dat de temperaturen stijgen.
Voordat we onze bevindingen demonsteren, wat is er eigenlijk nieuw in Data Hub 2.3?

Eén toegangspunt voor alle SAP Data Hub applicaties

De Introductie van de SAP Data Hub Launchpad, een op Fiori gebaseerde gebruikersinterface die is ontworpen om een enkel toegangspunt te bieden voor alle gebruikersgerichte applicaties, waaronder System Management, Monitoring, SAP Vora Tools, Connection Management, Metadata Explorer en de Pipeline Modeler.

De applicatie oogt hierdoor veel mooier en tevens is de gebruikersvriendelijkheid sterk verbeterd. De applicaties staan allemaal op een logische plek.

Vereenvoudigde implementatie van SAP Data Hub in cloud en on-premise omgevingen

Een grote wijziging. Met een volledig gecontaineriseerde architectuur kunt u SAP Data Hub implementeren op elk platform welke Kubernetes ondersteunt. Dit omvat cloudservices zoals: AWS (EKS), GCP (GKE), Azure (AKS), private cloud of on-premise-installaties zoals Suse CaaSP. In het Interdobs landschap hebben wij bijvoorbeeld Data Hub geïnstalleerd op AWS in een Kubernetes container.

Vanaf Data Hub 2.3 worden alle benodigde componenten, inclusief SAP HANA en SAP Vora’s gedistribueerde runtime-engines, gecontaineriseerd geleverd via een Docker-registry. Hierdoor is het niet meer nodig om een afzonderlijke SAP HANA-instance voor externe opslag of een Hadoop-cluster voor Vora’s runtime-uitvoeringen te installeren. Dit is een grote verbetering t.o.v. voorgaande releases waar de componenten dus los geïnstalleerd moesten worden. SAP HANA hoeft dus niet langer op een afzonderlijke server geïnstalleerd te worden. Verder worden alle grote cloudopslagplatforms, HDFS en on-premise file shares ondersteund.

Meta Data catalogus voor bedrijfs-brede data sets

Volgens mij een “killer applicatie”! De SAP Data Hub Metadata Explorer heeft als doel het helpen identificeren en beheren van metadata die verspreid zijn over een veelvoud aan systemen en bronnen. U krijgt als het ware een catalogus van de aanwezige bronnen en velden in de verschillende data sets zodat analisten en data scientists snel de juiste data uit de aanwezige sets kunnen vinden. Wat Analytics Hub biedt voor het identificeren van aanwezige rapporten is Data Hub de manier om data sets te vinden, inclusief de metadata dus!

De belangrijke functionaliteit is:

  • Maak verbinding met gegevensbronnen met de mogelijkheid om hun metadatastructuren automatisch te indexeren
  • Zoek en blader door de catalogus met metagegevens om relevante gegevensitems te vinden
  • Ontdek en test gegevens in het landschap om inzicht te krijgen in de gegevenskwaliteit
  • Ondersteuning voor SAP HANA, SAP Vora, Object Stores (S3, GCS, ADL, etc.), HDFS, SAP BW en Oracle

 

Verbeterde mogelijkheden voor gegevensintegratie en connectiviteit

De kracht van Data Hub is natuurlijk native connectiviteit. SAP Data Hub biedt een breed scala aan connectiviteit met een sterke focus op “Big Data” componenten (bijv. Hadoop, Cloud Stores, Machine Learning Services en real-time messaging-technologieën). In onze Interdobs demo maken we gebruikt van een koppeling met ons Azure Data Lake bijvoorbeeld.

Onder andere biedt SAP Data Hub native connectiviteit met de volgende bronnen:

  • Relationele databases (Oracle, etc.) en SAP applicaties (bijvoorbeeld S/4HANA en BW/4 HANA)
  • Populaire cloud storage zoals WASB, S3 en GCS
  • Open protocollen zoals OData en OpenAPI
  • Machine Learning Services zoals de SAP Machine Learning Foundation Services
  • 3rd Party Services en technologieën zoals Spark, Livy en Google Pub / Sub

De huidige operators met native connectiviteit:

 

 

In de toekomst zullen deze nog verder uitgebreid worden, maar opvallend is dat de meeste reeds aanwezig zijn. Knap voor een nieuw product.

SAP Data Hub Modeler

In de 2.3 release zijn alle bestaande modelleringstoepassingen nu beschikbaar in één enkele interface: de SAP Data Hub Modeler. De gegevensbewerkingen worden beschikbaar gesteld met zogeheten “operators” die gebruikt kunnen worden in een data pipeline. Er zijn er een groot aantal beschikbaar.

Een aantal belangrijke:

  • Workflow Pipeline Operators om pipelines te kunnen starten en stoppen
  • Remote Sources Orchestration om processen E2E af te schieten en te monitoren(SAP BW procesketen, SAP Data Services Job, SAP HANA Flowgraph)
  • Structured Data Transformations (projection, aggregatie, join, union, case) om ETL uit te voeren in Data Hub
  • Gegevens maskeren (o.a. voor GDPR)
  • Validatieregels

 

Samenvattend

Samenvattend biedt SAP Data Hub 2.3 weer meer functionaliteit en connectiviteit om data E2E te monitoren, te administreren en te combineren. Een knappe prestatie als je ziet dat het product slechts kort op de markt is.

Voor een demonstratie van de nieuwe functionaliteit nodig ik u uit om de volgende video te bekijken:

Namens mijzelf en de Interdobs collega’s, fijne kerstdagen!

Ronald Konijnenburg