1
Inleiding tot Apache Spark
- Geschiedenis van het kader.
- De vier hoofdcomponenten: Spark SQL, Spark Streaming, MLlib en GraphX.
- Python-tools en -bibliotheken voor Spark: PySpark, Jupyter-notebooks, Koala's.
- Spark programmeerconcepten.
- Spark draaien in een gedistribueerde omgeving.
Praktisch werk
De Python-omgeving voor Spark opzetten. Scripts implementeren die Spark concepten manipuleren.
2
Spark gebruiken met Python: veerkrachtige gedistribueerde datasets (RDD)
- Uw Python-omgeving configureren.
- Verbinding maken met Spark met Python: contexten en sessies.
- Inleiding tot RDD's. RDD's maken, manipuleren en hergebruiken.
- De belangrijkste functies/transformaties, implementatie van map/reduce algoritmen.
- Accumulatoren en uitzendvariabelen.
- Gebruik partities.
- Notebooks gebruiken en Python-taken indienen.
Praktisch werk
Contexten en sessies manipuleren. Aanmaken en hergebruiken van RDDs. Taken indienen.
3
Omgaan met gestructureerde gegevens
- Inleiding tot Spark SQL en DataFrames en datasets.
- De verschillende soorten/formaten gegevensbronnen.
- Interoperabiliteit met RDD's.
- Gebruik de PySpark Pandas-bibliotheek.
Begeleid praktisch werk
Uitvoeren van queries met Spark SQL. Implementeren van DataFrames en datasets. DataFrame manipulatie.
4
Machinaal leren met Spark
- Inleiding tot machinaal leren.
- De verschillende klassen van algoritmen.
- MLlib introduceren.
- Implementatie van de verschillende algoritmen in MLlib.
Praktisch werk
Implementatie van leren onder toezicht door classificatie.
5
Real-time analyse met Spark Streaming
- De architectuur van streaming begrijpen.
- Presentatie van gediscretiseerde streams (DStreams).
- De verschillende soorten bronnen.
- API-manipulatie (aggregatie, watermerken, enz.).
- Real-time machinaal leren.
Praktisch werk
Real-time statistieken maken van een gegevensbron en voorspellingen doen met behulp van machine learning.
6
Grafentheorie
- Inleiding tot grafentheorie (knopen, randen, gerichte grafieken, paden, belangrijkste algoritmen).
- De API gebruiken.
- Presentatie van de GraphX en GraphFrame bibliotheken.
Praktisch werk
Implementatie van een algoritme voor paginarangschikking en weergave van de grafiek.