Formación : Spark Python, desarrollo de aplicaciones para big data

Spark Python, desarrollo de aplicaciones para big data




Spark es un marco informático distribuido para manipular grandes cantidades de datos. Inicialmente diseñado para acelerar el procesamiento de Hadoop, se ha convertido en un sistema independiente. Se puede programar en cuatro lenguajes, incluido Python, que se ha convertido en el lenguaje dominante. Este curso le introduce a Spark Python.


ABIERTA
IN-COMPANY
A MEDIDA

Formación en tus instalaciones, en nuestro centro o a distancia

Ref. QNC
  3d - 21h00
Duración, formato, fechas y lugar: ¡Tú decides, nosotros nos encargamos de organizarlo!

Descargar en formato pdf

Compartir este curso por correo electrónico




Spark es un marco informático distribuido para manipular grandes cantidades de datos. Inicialmente diseñado para acelerar el procesamiento de Hadoop, se ha convertido en un sistema independiente. Se puede programar en cuatro lenguajes, incluido Python, que se ha convertido en el lenguaje dominante. Este curso le introduce a Spark Python.


Objetivos pedagógicos
Una vez finalizada la formación, el participante podrá:
Descubra los conceptos fundamentales de Spark
Uso del concepto RDD de Spark
Explotación de datos con Spark SQL
Realice análisis en tiempo real con Spark Streaming
Uso de Spark con Jupyter notebooks, manipulación de datos con Pyspark como con Pandas.
Aprendizaje automático con Spark

Público afectado
Cualquier persona familiarizada con Python que quiera aprender más sobre el framework Spark de la Fundación Apache.

Requisitos previos
Buen conocimiento del lenguaje Python.

Modalidades prácticas
Ejercicio
Los temas se ilustran con numerosos ejercicios.
Métodos pedagógicos
Cada tema se ilustra mediante demostraciones en un clúster en la nube. Los participantes completan ejercicios tras la presentación de los conceptos.

Programa de la formación

1
Introducción a Apache Spark

  • Historia del marco.
  • Los cuatro componentes principales: Spark SQL, Spark Streaming, MLlib y GraphX.
  • Herramientas y bibliotecas de Python para Spark: PySpark, Jupyter notebooks, Koalas.
  • Conceptos de programación Spark.
  • Ejecución de Spark en un entorno distribuido.
Trabajo práctico
Configuración del entorno Python para Spark. Implementación de scripts que manipulan conceptos de Spark.

2
Uso de Spark con Python: conjuntos de datos distribuidos resilientes (RDD)

  • Configuración del entorno Python.
  • Conexión a Spark con Python: contextos y sesiones.
  • Introducción a los RDDs. Creación, manipulación y reutilización de RDDs.
  • Las principales funciones/transformaciones, implementación de algoritmos map/reduce.
  • Acumuladores y variables de emisión.
  • Utiliza particiones.
  • Uso de cuadernos y envío de trabajos de Python.
Trabajo práctico
Manipulación de contextos y sesiones. Creación y reutilización de RDDs. Envío de trabajos.

3
Tratamiento de datos estructurados

  • Introducción a Spark SQL y DataFrames y conjuntos de datos.
  • Los distintos tipos/formatos de fuentes de datos.
  • Interoperabilidad con los RDD.
  • Utilice la biblioteca PySpark Pandas.

4
Aprendizaje automático con Spark

  • Introducción al aprendizaje automático.
  • Las diferentes clases de algoritmos.
  • Presentación de MLlib.
  • Implementación de los distintos algoritmos en MLlib.
Trabajo práctico
Aplicación del aprendizaje supervisado mediante clasificación.

5
Análisis en tiempo real con Spark Streaming

  • Comprensión de la arquitectura de streaming.
  • Presentación de flujos discretizados (DStreams).
  • Los distintos tipos de fuente.
  • Manipulación de API (agregación, marca de agua, etc.).
  • Aprendizaje automático en tiempo real.
Trabajo práctico
Creación de estadísticas en tiempo real a partir de una fuente de datos y predicciones mediante aprendizaje automático.

6
Teoría de grafos

  • Introducción a la teoría de grafos (nodos, aristas, grafos dirigidos, caminos, principales algoritmos).
  • Uso de la API.
  • Presentación de las bibliotecas GraphX y GraphFrame.
Trabajo práctico
Implementación de un algoritmo de page rank y visualización del gráfico.