Opleiding : Gegevensanalyse met Python

gegevensmodellering en -representatie

Gegevensanalyse met Python

gegevensmodellering en -representatie



Data Analytics is een term die wordt gebruikt om het proces van gegevensanalyse uit te drukken om beslissingen te nemen. De taal Python biedt een ecosysteem voor statistische verwerking, van de constructie van analysemodellen tot de evaluatie en weergave ervan.


INTER
INTRA
OP MAAT

Praktijkcursus ter plaatse of via klasverband op afstand

Ref. BDA
  4d - 28u00
Prijs : Neem contact met ons op




Data Analytics is een term die wordt gebruikt om het proces van gegevensanalyse uit te drukken om beslissingen te nemen. De taal Python biedt een ecosysteem voor statistische verwerking, van de constructie van analysemodellen tot de evaluatie en weergave ervan.


Pedagogische doelstellingen
Aan het einde van de training is de deelnemer in staat om:
Het principe van statistische modellering begrijpen
Kiezen tussen regressie en classificatie afhankelijk van het type gegevens
De voorspellende prestatie van een algoritme evalueren
Selecties en rankings maken op basis van grote hoeveelheden gegevens om trends te identificeren

Doelgroep
Managers van datacentra (datamining, marketing, kwaliteit, enz.), databasegebruikers en bedrijfsmanagers.

Voorafgaande vereisten
Basiskennis van Python. Basiskennis statistiek of afronding van de cursus "Statistics, mastering the fundamentals" (Ref. STA).

Praktische modaliteiten
Praktisch werk
Ontwikkelen/creëren van analyses met behulp van Python-software, met de modules pandas, NumPy, SciPy, MatPlotLib, seaborn, scikit-learn en statsmodels.

Opleidingsprogramma

1
Inleiding tot modelleren

  • Inleiding tot de taal Python.
  • Inleiding tot Jupiter Notebook-software.
  • De stappen die nodig zijn om een model te bouwen.
  • Supervised en unsupervised algoritmen.
  • De keuze tussen regressie en classificatie.
Praktisch werk
Installatie van Python 3, Anaconda en Jupiter Notebook.

2
Modelevaluatieprocedures

  • Technieken voor herbemonstering in trainings-, validatie- en testspellen.
  • Testen van de representativiteit van trainingsgegevens.
  • Prestatiemetingen voor voorspellende modellen.
  • Verwarring en kostenmatrix, ROC- en AUC-curven.
Praktisch werk
Het opzetten van steekproeven van gegevenssets. Evaluatietests uitvoeren op verschillende geleverde modellen.

3
Algoritmen onder toezicht

  • Het principe van univariate lineaire regressie.
  • Multivariate regressie.
  • Polynomiale regressie.
  • Gereguleerde regressie.
  • De Naive Bayes.
  • Logistische regressie.
Praktisch werk
Implementatie van regressies en classificaties op verschillende soorten gegevens.

4
Algoritmen zonder toezicht

  • Hiërarchische clustering.
  • Niet-hiërarchische clustering.
  • Gemengde benaderingen.
Praktisch werk
Ongecontroleerde verwerking van clustering op verschillende datasets.

5
Analyse van componenten

  • Principale componentenanalyse.
  • Correspondentie factoranalyse.
  • Meervoudige correspondentieanalyse.
  • Factoranalyse voor gemengde gegevens.
  • Hiërarchische classificatie op basis van principale componenten.
Praktisch werk
Implementatie van de vermindering van het aantal variabelen en identificatie van de factoren die ten grondslag liggen aan de dimensies die verband houden met significante variabiliteit.

6
Tekstgegevensanalyse

  • Verzamelen en voorbewerken van tekstuele gegevens.
  • Extractie van primaire entiteiten, benoemde entiteiten en referentiële resolutie.
  • Grammaticale labeling, syntactische analyse, semantische analyse.
  • Lemmatisering.
  • Vectorweergave van teksten.
  • TF-IDF weging.
  • Word2Vec.
Praktisch werk
Verken de inhoud van een tekstdatabase met behulp van latente semantische analyse.


Data en plaats
Selecteer uw locatie of kies voor de les op afstand en kies vervolgens uw datum.
Klas op afstand