1
Historia del aprendizaje automático y el contexto de Big Data
- Ponga en perspectiva los conceptos de Inteligencia Artificial, aprendizaje automático, etc.
- El vínculo con las matemáticas, la estadística (inferencial), la minería de datos y la ciencia de datos.
- Pasar del análisis descriptivo al predictivo y luego al prescriptivo.
- Aplicaciones de aprendizaje automático (motores de búsqueda, detección de spam, lectura de cheques).
- Tipología de algoritmos de Dominique CARDON.
- La comunidad de la ciencia de datos y los retos de Kaggle (por ejemplo, Netflix).
Estudios de caso
Estudios de aplicaciones concretas del aprendizaje automático (motores de búsqueda, detección de spam, lectura de cheques).
2
Datos disponibles: recogida y preparación
- Datos estructurados, semiestructurados y no estructurados.
- Naturaleza estadística de los datos (cualitativos o cuantitativos).
- Objetos conectados (IoT) y streaming.
- Oportunidades y límites de los datos abiertos.
- Identificación de correlaciones, el problema de la multicolinealidad.
- Reducción de dimensiones mediante análisis de componentes principales.
- Detección y corrección de valores atípicos.
- ETL (extracción, transformación y carga).
- Web scraping.
Demostración
Demostración ETL (Extract Transform Load). Recogida de datos web.
3
Herramientas de mercado para el tratamiento de datos y el aprendizaje automático
- El software tradicional (SAS, SPSS, Stata, etc.) y su apertura al código abierto.
- Elija entre los dos líderes del código abierto: Python y R.
- Plataformas en la nube (Azure, AWS, Google Cloud Platform) y soluciones SaaS (IBM Watson, Dataïku).
- Nuevos empleos en empresas: ingeniero de datos, científico de datos, analista de datos, etc.
- Adecuar las competencias a las distintas herramientas.
- API en línea (IBM Watson, Microsoft Cortana Intelligence, etc.).
- Chatbots (agentes conversacionales).
Demostración
Demostración de un chatbot (agente conversacional) y Azure Machine Learning.
4
Los distintos tipos de aprendizaje automático
- Aprendizaje supervisado: repetir un ejemplo.
- Aprendizaje no supervisado: descubrir los datos.
- Aprendizaje (automático) en línea frente a técnicas por lotes.
- Aprendizaje por refuerzo: optimización de una recompensa.
- Otros tipos de aprendizaje (transferencia, secuencial, activo, etc.).
- Ilustraciones (motores de recomendación, etc.).
Demostración
Demostraciones de los distintos tipos de aprendizaje automático posibles.
5
Algoritmos de aprendizaje automático
- Regresión lineal simple y múltiple. Limitaciones de los enfoques lineales.
- Regresión polinómica (LASSO). Series temporales.
- Regresión logística y aplicaciones de puntuación.
- Clasificación jerárquica y no jerárquica (KMeans).
- Clasificación mediante árboles de decisión o el método Naïve Bayes.
- Ramdom Forest (desarrollo de árboles de decisión).
- Refuerzo gradual. Redes neuronales. Máquina de soporte vectorial.
- Deep Learning: ejemplos y razones del éxito actual.
- Minería de textos: análisis de corpus de datos textuales.
Demostración
Demostración de los distintos algoritmos básicos en R o Python.
6
Procedimiento de entrenamiento y evaluación del algoritmo
- Separación de conjuntos de datos: formación, prueba y validación.
- Técnicas Bootstrap (bagging).
- Ejemplo de validación cruzada.
- Definición de una métrica de rendimiento.
- Descenso de gradiente estocástico (minimización métrica).
- Curvas ROC y de elevación para evaluar y comparar algoritmos.
- Matriz de confusión: falsos positivos y falsos negativos.
Demostración
Demostrar la elección del mejor algoritmo.
7
Elaboración de un algoritmo de aprendizaje automático
- Descripción de una plataforma de Big Data.
- Cómo funcionan los PLC.
- Del desarrollo a la producción.
- Estrategia de mantenimiento correctivo y evolutivo.
- Evaluación de los costes de explotación de la producción.
Demostración
Demostración de las API de geolocalización y análisis de sentimientos.
8
Aspectos éticos y jurídicos de la Inteligencia Artificial
- Competencias de la CNIL y evolución futura.
- Derecho de acceso a los datos personales.
- La cuestión de la propiedad intelectual de los algoritmos.
- Nuevas funciones en la empresa: Director de Datos y Responsable de Protección de Datos.
- La cuestión de la imparcialidad de los algoritmos.
- Cuidado con el sesgo de confirmación.
- Sectores y profesiones afectados por la automatización.
Reflexión colectiva
Lluvia de ideas para identificar las claves del éxito.