El CESGA celebrará el del 16 al 19 de julio un taller Big Data donde se explicarán los conceptos básicos de Apache Spark. El taller será eminentemente práctico y los asistentes tendrán que resolver problemas diversos utilizando Spark.
Al final del curso los asistentes tendrán los conocimientos necesarios para comenzar a utilizar Spark en sus tareas cotidianas de análisis de datos.
- Fecha y hora: del 16 al 19 de julio en horario de mañana de 10:00h. a 14:00h.
- Lugar: CESGA, Avda. de Vigo s/n – Campus Vida – Santiago de compostela.
- Destinatarios: El taller está destinado a usuarios de la plataforma Big Data que deseen aprender a utilizar Spark 2.
¿Qué aprenderé durante el taller?
Al final del taller sabrás:
- Cómo transformar datos en Spark usando RDDs
- Cómo transformar datos en Spark usando DataFrames y Spark SQL
- Cómo transformar datos en Spark desde R usando sparklyr
- Cómo preparar y lanzar un trabajo de Spark
- Cómo monitorizar y optimizar un trabajo de Spark
¿Qué NO se enseñará durante el taller?
- Los asistentes deben tener conceptos básicos de programación en alguno de los lenguajes soportados para uso interactivo de Spark (Python, Scala o R), idealmente Python.
- Durante algunas partes del curso resultará de utilidad tener familiaridad con el lenguaje SQL. Sin embargo, durante el taller no se enseñará a programar en SQL.
- Durante el taller se enseñarán a utilizar algunos comandos básicos de Hadoop, los imprescindibles para el taller. El taller no tiene por propósito enseñar a usar Hadoop.
- Durante el taller se mostrará como usar Spark para realizar tareas de machine learning por medio de Spark ML, sin embargo se hará de manera muy superficial sin entrar en detalle en todos los algoritmos de machine learning soportados.
- Durante el taller no se cubrirán Spark Streaming ni Spark GraphX.
Prerrequisitos: El curso requiere conocimientos básicos de programación en Python, R, Scala o Java.
Durante el curso, para enseñar los conceptos de Spark, se usará principalmente el lenguaje Python, aunque también se mostrará como usar Spark desde R a través de Sparklyr.
Resultarán de utilidad, aunque no imprescindibles, conocimientos de GNU/Linux y familiaridad con SQL.
Python es un lenguaje muy popular y que se puede aprender rápidamente, por lo que a los alumnos que no estén familiarizados con este lenguaje, les recomendamos que realicen antes del curso alguno numerosos tutoriales de Python 2 existentes, por ejemplo:
https://docs.python.org/2/tutorial/
Es aconsejable para todos los participantes realizar el siguiente test de Python antes del curso:
En general, el uso de Spark desde Scala es muy similar al de Python así que los alumnos que lo deseen podrán resolver los ejercicios usando Scala.
Contenidos
1. Herramientas necesarias
- Jupyter
- HDFS
- YARN
2. Conceptos básicos de Spark
3. Programando con RDDs
4. Programando con PairRDDs
5. Programando con Spark SQL y DataFrames
6. Lanzando aplicaciones
7. Monitorizando, optimizando y depurando la ejecución de aplicaciones
8. Usando Spark desde R: SparklyR