Opleiding : Spark Python, toepassingen ontwikkelen voor big data

Spark Python, toepassingen ontwikkelen voor big data

Spark is een gedistribueerd rekenraamwerk voor het manipuleren van grote hoeveelheden gegevens. In eerste instantie ontworpen om Hadoop-verwerking te versnellen, is het nu een autonoom systeem geworden. Het kan worden geprogrammeerd in vier talen, waaronder Python, dat de dominante taal is geworden. In deze cursus maakt u kennis met Spark Python.

INTER

INTRA

OP MAAT

Opleiding bij u thuis of op afstand

Ref. QNC

3d - 21u00

Wilt u deze opleiding ongewijzigd omzetten voor uw onderneming?

Downloaden in pdf-formaat

Deze cursus delen via mail

DOELSTELLINGEN
PROGRAMMA

Pedagogische doelstellingen

Aan het einde van de training is de deelnemer in staat om:

	Ontdek de fundamentele concepten van Spark
	Het RDD-concept van Spark gebruiken
	Gegevens exploiteren met Spark SQL
	Real-time analyses uitvoeren met Spark Streaming
	Spark gebruiken met Jupyter notebooks, gegevens manipuleren met Pyspark zoals met Pandas
	Machinaal leren met Spark

Doelgroep

Iedereen die bekend is met Python en meer wil leren over het Spark framework van de Apache Foundation.

Voorafgaande vereisten

Goede kennis van de taal Python.

Praktische modaliteiten

Oefening

Er worden talloze oefeningen gebruikt om de onderwerpen te illustreren.

Leer methodes

Elk onderwerp wordt geïllustreerd met demonstraties op een cluster in de cloud. Deelnemers maken oefeningen nadat de concepten zijn gepresenteerd.

Opleidingsprogramma

1
Inleiding tot Apache Spark

Geschiedenis van het kader.
De vier hoofdcomponenten: Spark SQL, Spark Streaming, MLlib en GraphX.
Python-tools en -bibliotheken voor Spark: PySpark, Jupyter-notebooks, Koala's.
Spark programmeerconcepten.
Spark draaien in een gedistribueerde omgeving.

Praktisch werk

De Python-omgeving voor Spark opzetten. Scripts implementeren die Spark concepten manipuleren.

2
Spark gebruiken met Python: veerkrachtige gedistribueerde datasets (RDD)

Uw Python-omgeving configureren.
Verbinding maken met Spark met Python: contexten en sessies.
Inleiding tot RDD's. RDD's maken, manipuleren en hergebruiken.
De belangrijkste functies/transformaties, implementatie van map/reduce algoritmen.
Accumulatoren en uitzendvariabelen.
Gebruik partities.
Notebooks gebruiken en Python-taken indienen.

Praktisch werk

Contexten en sessies manipuleren. Aanmaken en hergebruiken van RDDs. Taken indienen.

3
Omgaan met gestructureerde gegevens

Inleiding tot Spark SQL en DataFrames en datasets.
De verschillende soorten/formaten gegevensbronnen.
Interoperabiliteit met RDD's.
Gebruik de PySpark Pandas-bibliotheek.

Begeleid praktisch werk

Uitvoeren van queries met Spark SQL. Implementeren van DataFrames en datasets. DataFrame manipulatie.

4
Machinaal leren met Spark

Inleiding tot machinaal leren.
De verschillende klassen van algoritmen.
MLlib introduceren.
Implementatie van de verschillende algoritmen in MLlib.

Praktisch werk

Implementatie van leren onder toezicht door classificatie.

5
Real-time analyse met Spark Streaming

De architectuur van streaming begrijpen.
Presentatie van gediscretiseerde streams (DStreams).
De verschillende soorten bronnen.
API-manipulatie (aggregatie, watermerken, enz.).
Real-time machinaal leren.

Praktisch werk

Real-time statistieken maken van een gegevensbron en voorspellingen doen met behulp van machine learning.

6
Grafentheorie

Inleiding tot grafentheorie (knopen, randen, gerichte grafieken, paden, belangrijkste algoritmen).
De API gebruiken.
Presentatie van de GraphX en GraphFrame bibliotheken.

Praktisch werk

Implementatie van een algoritme voor paginarangschikking en weergave van de grafiek.

Opleiding : Spark Python, toepassingen ontwikkelen voor big data

Spark Python, toepassingen ontwikkelen voor big data

1 Inleiding tot Apache Spark

2 Spark gebruiken met Python: veerkrachtige gedistribueerde datasets (RDD)

3 Omgaan met gestructureerde gegevens

4 Machinaal leren met Spark

5 Real-time analyse met Spark Streaming

6 Grafentheorie

1
Inleiding tot Apache Spark

2
Spark gebruiken met Python: veerkrachtige gedistribueerde datasets (RDD)

3
Omgaan met gestructureerde gegevens

4
Machinaal leren met Spark

5
Real-time analyse met Spark Streaming

6
Grafentheorie