1
Inleiding tot modelleren
- Inleiding tot de taal Python.
- Inleiding tot Jupiter Notebook-software.
- De stappen die nodig zijn om een model te bouwen.
- Supervised en unsupervised algoritmen.
- De keuze tussen regressie en classificatie.
Praktisch werk
Installatie van Python 3, Anaconda en Jupiter Notebook.
2
Modelevaluatieprocedures
- Technieken voor herbemonstering in trainings-, validatie- en testspellen.
- Testen van de representativiteit van trainingsgegevens.
- Prestatiemetingen voor voorspellende modellen.
- Verwarring en kostenmatrix, ROC- en AUC-curven.
Praktisch werk
Het opzetten van steekproeven van gegevenssets. Evaluatietests uitvoeren op verschillende geleverde modellen.
3
Algoritmen onder toezicht
- Het principe van univariate lineaire regressie.
- Multivariate regressie.
- Polynomiale regressie.
- Gereguleerde regressie.
- De Naive Bayes.
- Logistische regressie.
Praktisch werk
Implementatie van regressies en classificaties op verschillende soorten gegevens.
4
Algoritmen zonder toezicht
- Hiërarchische clustering.
- Niet-hiërarchische clustering.
- Gemengde benaderingen.
Praktisch werk
Ongecontroleerde verwerking van clustering op verschillende datasets.
5
Analyse van componenten
- Principale componentenanalyse.
- Correspondentie factoranalyse.
- Meervoudige correspondentieanalyse.
- Factoranalyse voor gemengde gegevens.
- Hiërarchische classificatie op basis van principale componenten.
Praktisch werk
Implementatie van de vermindering van het aantal variabelen en identificatie van de factoren die ten grondslag liggen aan de dimensies die verband houden met significante variabiliteit.
6
Tekstgegevensanalyse
- Verzamelen en voorbewerken van tekstuele gegevens.
- Extractie van primaire entiteiten, benoemde entiteiten en referentiële resolutie.
- Grammaticale labeling, syntactische analyse, semantische analyse.
- Lemmatisering.
- Vectorweergave van teksten.
- TF-IDF weging.
- Word2Vec.
Praktisch werk
Verken de inhoud van een tekstdatabase met behulp van latente semantische analyse.