GEDOPLAN

Schulung Apache Spark und Azure Databricks

Moderne Big Data Verarbeitung und Analytik in der Cloud

  • Einführung in Apache Spark und Azure Databricks
  • Fokus auf Big Data Verarbeitung, Analyse und Cloud-Integration
  • Entwicklung von Spark-Anwendungen sowie Bereitstellung in Azure Databricks

Beschreibung

Dieses Seminar bietet eine umfassende Einführung in Apache Spark und Azure Databricks, mit einem Fokus auf Big Data Verarbeitung, Analyse und Cloud-Integration. Die Teilnehmer lernen, wie man Spark-Anwendungen entwickelt, optimiert und in Azure Databricks bereitstellt, sowie Best Practices für die Integration und das Monitoring von Big Data-Anwendungen.

Agenda

Modul 1: Einführung in Apache Spark und Azure Databricks

  • Überblick über Apache Spark: Architektur, Kernkomponenten und Anwendungsfälle
  • Einführung in Azure Databricks: Integration mit Azure, Vorteile und Funktionen
  • Einrichtung eines Azure Databricks Clusters und erster Kontakt mit der Plattform

Modul 2: Apache Spark Grundkonzepte und Architektur

  • Spark-Architektur: Driver, Executors, Tasks und RDDs (Resilient Distributed Datasets)
  • Spark-Session und Spark-Kontext: Aufbau und Verwaltung von Spark-Anwendungen
  • DataFrames und Datasets: Strukturierte Datenverarbeitung und -Manipulation

Modul 3: Entwicklung von Spark-Anwendungen in Java

  • Einführung in Spark mit Java: Setup, Abhängigkeiten und Tools
  • Implementierung von ETL-Prozessen (Extract, Transform, Load) mit Spark
  • Nutzung von Spark SQL für komplexe Abfragen und Datenanalysen
  • Verarbeitung von unstrukturierten Daten: Text, JSON, Parquet und Avro

Modul 4: Fortgeschrittene Spark-Themen

  • Spark Streaming: Echtzeit-Datenverarbeitung und -Analyse
  • Spark MLlib: Maschinenlernen und Data Mining mit Spark
  • GraphX: Verarbeitung und Analyse von Graphdaten
  • Optimierung von Spark-Anwendungen: Caching, Partitionierung und Tuning

Modul 5: Azure Databricks in der Praxis

  • Azure Databricks Notebooks: Erstellen und Verwenden von interaktiven Notebooks
  • Integration mit Azure Data Lake Storage und Azure SQL Data Warehouse
  • Verwaltung von Clustern und Jobs in Azure Databricks
  • Sicherheits- und Governance-Funktionen in Azure Databricks

Modul 6: Datenintegration und -Management

  • Verbindung zu Datenquellen: Azure Blob Storage, SQL-Datenbanken und externe Datenquellen
  • Nutzung von Azure Databricks Delta Lake für Transaktionssicherheit und Echtzeit-Analysen
  • Schema Management und Datenqualität in der Delta Lake

Modul 7: Monitoring und Performance-Tuning

  • Überwachung von Spark-Anwendungen und Azure Databricks Clustern
  • Nutzung von Azure Monitor und Spark UI für Performance-Analyse
  • Best Practices für Fehlerbehebung und Optimierung von Spark-Jobs

Modul 8: Integration von Spark und Databricks in eine Cloud-Native Architektur

  • Cloud-Native Datenarchitekturen und deren Implementierung mit Spark und Databricks
  • Nutzung von Azure Data Factory für Orchestrierung und Datenpipeline-Management
  • Implementierung von CI/CD-Pipelines für Spark-Anwendungen mit Azure DevOps

Modul 9: Sicherheit und Compliance

  • Sicherheitskonzepte in Azure Databricks: Netzwerksicherheit, Identitäts- und Zugriffsmanagement
  • Datenverschlüsselung und Compliance-Vorgaben in Azure
  • Implementierung von Zugriffskontrollen und Audit-Protokollen

Modul 10: Alternativen und Erweiterungen

  • Vergleich von Apache Spark mit anderen Big Data-Technologien: Hadoop, Flink
  • Alternativen zu Azure Databricks: Amazon EMR, Google Dataproc
  • Erweiterungen und Tools für Spark: Zeppelin, Apache Livy

Modul 11: Praxisbeispiele und Best Practices

  • Fallstudien und Best Practices aus der Industrie: Erfolgreiche Implementierungen und Anwendungsfälle
  • Hands-on-Labs: Aufbau und Optimierung von Spark-Anwendungen, Nutzung von Azure Databricks Notebooks und Delta Lake

Modul 12: Zukunftsausblick und neue Entwicklungen

  • Neueste Entwicklungen in der Spark- und Databricks-Welt
  • Ausblick auf zukünftige Trends und Technologien in Big Data und Cloud Analytics

Teilnehmerkreis und Voraussetzungen

Es richtet sich an Entwickler, Datenwissenschaftler und Dateningenieure, die ein tiefes Verständnis der Spark-Architektur, der Nutzung von Azure Databricks und der Implementierung von Datenverarbeitungslösungen in Java erlangen möchten.

Schulungstermine

27.01.–31.01.2025

Online
5 Tage
Rabatt ab 2 Personen
Plätze frei

2.980,00 €
Details

05.05.–09.05.2025

Online
5 Tage
Rabatt ab 2 Personen
Plätze frei

2.980,00 €
Details

08.09.–12.09.2025

Online
5 Tage
Rabatt ab 2 Personen
Plätze frei

2.980,00 €
Details

Diese Schulung bieten wir auch als maßgeschneiderte Firmenschulung an

GEDOPLAN erstellt für Sie auf Ihre Unternehmensziele zugeschnittene Firmenschulung.
Durch unser modulares Schulungssystem sind wir in der Lage, anhand Ihrer Angaben eine individuelle Schulung zu gestalten. Denn die optimale Weiterbildung Ihrer Mitarbeiter nach Ihren Vorgaben und Anforderungen stehen bei uns im Mittelpunkt.
Bei Interesse nehmen Sie bitte Kontakt, wir führen dann gerne mit Ihnen ein unverbindliches Gespräch

GEDOPLAN - Telefonkontakt

030 / 20 89 82 63 0

GEDOPLAN - E-Mail Kontakt

Tim.Neumann@GEDOPLAN.de

Weitere Schulungen

Vorträge & News zum Thema
Es wurden keine Ergebnisse gefunden, die deinen Suchkriterien entsprechen.

News aus Schulung, Beratung & Softwareentwicklung

News aus Schulung, Beratung & Softwareentwicklung