Opleiding : Spark Python, toepassingen ontwikkelen voor big data

Spark Python, toepassingen ontwikkelen voor big data




Spark is een gedistribueerd rekenraamwerk voor het manipuleren van grote hoeveelheden gegevens. In eerste instantie ontworpen om Hadoop-verwerking te versnellen, is het nu een autonoom systeem geworden. Het kan worden geprogrammeerd in vier talen, waaronder Python, dat de dominante taal is geworden. In deze cursus maakt u kennis met Spark Python.


INTER
INTRA
OP MAAT

Praktijkcursus ter plaatse of via klasverband op afstand

Ref. QNC
  3d - 21u00
Prijs : Neem contact met ons op




Spark is een gedistribueerd rekenraamwerk voor het manipuleren van grote hoeveelheden gegevens. In eerste instantie ontworpen om Hadoop-verwerking te versnellen, is het nu een autonoom systeem geworden. Het kan worden geprogrammeerd in vier talen, waaronder Python, dat de dominante taal is geworden. In deze cursus maakt u kennis met Spark Python.


Pedagogische doelstellingen
Aan het einde van de training is de deelnemer in staat om:
Ontdek de fundamentele concepten van Spark
Het RDD-concept van Spark gebruiken
Gegevens exploiteren met Spark SQL
Real-time analyses uitvoeren met Spark Streaming
Spark gebruiken met Jupyter notebooks, gegevens manipuleren met Pyspark zoals met Pandas
Machinaal leren met Spark

Doelgroep
Iedereen die bekend is met Python en meer wil leren over het Spark framework van de Apache Foundation.

Voorafgaande vereisten
Goede kennis van de taal Python.

Praktische modaliteiten
Oefening
Er worden talloze oefeningen gebruikt om de onderwerpen te illustreren.
Leer methodes
Elk onderwerp wordt geïllustreerd met demonstraties op een cluster in de cloud. Deelnemers maken oefeningen nadat de concepten zijn gepresenteerd.

Opleidingsprogramma

1
Inleiding tot Apache Spark

  • Geschiedenis van het kader.
  • De vier hoofdcomponenten: Spark SQL, Spark Streaming, MLlib en GraphX.
  • Python-tools en -bibliotheken voor Spark: PySpark, Jupyter-notebooks, Koala's.
  • Spark programmeerconcepten.
  • Spark draaien in een gedistribueerde omgeving.
Praktisch werk
De Python-omgeving voor Spark opzetten. Scripts implementeren die Spark concepten manipuleren.

2
Spark gebruiken met Python: veerkrachtige gedistribueerde datasets (RDD)

  • Uw Python-omgeving configureren.
  • Verbinding maken met Spark met Python: contexten en sessies.
  • Inleiding tot RDD's. RDD's maken, manipuleren en hergebruiken.
  • De belangrijkste functies/transformaties, implementatie van map/reduce algoritmen.
  • Accumulatoren en uitzendvariabelen.
  • Gebruik partities.
  • Notebooks gebruiken en Python-taken indienen.
Praktisch werk
Contexten en sessies manipuleren. Aanmaken en hergebruiken van RDDs. Taken indienen.

3
Omgaan met gestructureerde gegevens

  • Inleiding tot Spark SQL en DataFrames en datasets.
  • De verschillende soorten/formaten gegevensbronnen.
  • Interoperabiliteit met RDD's.
  • Gebruik de PySpark Pandas-bibliotheek.
Begeleid praktisch werk
Uitvoeren van queries met Spark SQL. Implementeren van DataFrames en datasets. DataFrame manipulatie.

4
Machinaal leren met Spark

  • Inleiding tot machinaal leren.
  • De verschillende klassen van algoritmen.
  • MLlib introduceren.
  • Implementatie van de verschillende algoritmen in MLlib.
Praktisch werk
Implementatie van leren onder toezicht door classificatie.

5
Real-time analyse met Spark Streaming

  • De architectuur van streaming begrijpen.
  • Presentatie van gediscretiseerde streams (DStreams).
  • De verschillende soorten bronnen.
  • API-manipulatie (aggregatie, watermerken, enz.).
  • Real-time machinaal leren.
Praktisch werk
Real-time statistieken maken van een gegevensbron en voorspellingen doen met behulp van machine learning.

6
Grafentheorie

  • Inleiding tot grafentheorie (knopen, randen, gerichte grafieken, paden, belangrijkste algoritmen).
  • De API gebruiken.
  • Presentatie van de GraphX en GraphFrame bibliotheken.
Praktisch werk
Implementatie van een algoritme voor paginarangschikking en weergave van de grafiek.