1
Introducción al aprendizaje automático
- Big Data y aprendizaje automático.
- Algoritmos de aprendizaje supervisado, no supervisado y de refuerzo.
- Las etapas de la construcción de un modelo predictivo.
- Detección de valores atípicos y tratamiento de datos omitidos.
- ¿Cómo se eligen el algoritmo y las variables del algoritmo?
Demostración
Familiarizarse con el entorno Spark con Python utilizando Jupyter Notebook. Ver varios ejemplos de los modelos proporcionados.
2
Procedimientos de evaluación de modelos
- Técnicas de remuestreo en juegos de entrenamiento, validación y prueba.
- Comprobación de la representatividad de los datos de formación.
- Medición del rendimiento de los modelos predictivos.
- Matriz de confusión y de costes, curvas ROC y AUC.
Trabajo práctico
Evaluación y comparación de los distintos algoritmos en los modelos proporcionados.
3
Modelos predictivos, el enfoque frecuentista
- Aprendizaje estadístico.
- Acondicionamiento de datos y reducción de dimensiones.
- Máquinas de vectores soporte y métodos kernel.
- Cuantificación de vectores.
- Redes neuronales y aprendizaje profundo.
- Aprendizaje por conjuntos y árboles de decisión.
- Algoritmos de bandidos, optimismo ante la incertidumbre.
Trabajo práctico
Aplicar familias de algoritmos utilizando diversos conjuntos de datos.
4
Modelos bayesianos y aprendizaje
- Principios de inferencia y aprendizaje bayesianos.
- Modelos gráficos: redes bayesianas, campos de Markov, inferencia y aprendizaje.
- Métodos bayesianos: Naive Bayes, mezclas gaussianas, procesos gaussianos.
- Modelos de Markov: procesos de Markov, cadenas de Markov, cadenas de Markov ocultas, filtrado bayesiano.
Trabajo práctico
Aplicar familias de algoritmos utilizando diversos conjuntos de datos.
5
Aprendizaje automático en la producción
- Las particularidades del desarrollo de un modelo en un entorno distribuido.
- Despliegue de Big Data con Spark y MLlib.
- La nube: Amazon, Microsoft Azure ML, IBM Bluemix...
- Modelo de mantenimiento.
Trabajo práctico
Puesta en producción de un modelo predictivo con integración en procesos por lotes y flujos de tratamiento.