Solicitamos su permiso para obtener datos estadísticos de su navegación en esta web. Si continúa navegando consideramos que acepta el uso de cookies. OK | Política de cookies | Política de Privacidad

Máster HPC

  • Máster HPC

Subscríbeche

  • Suscribete a Novas CESGA

HPC User Portal

  • HPC User Portal

Síguenos ...

  • Twitter FacebbokFlickrYouTube CESGA

Servizos PYME's

  • Servicios para Empresas

díxitos Xullo 2019

  • díxitos Xullo 2019

  • CESGA ICTS

Taller Big Data: Usando Spark 2

Nova: Taller Big Data: Usando Spark 2

 0 voto(s)

Mércores 19/06/2019 13:43

O CESGA celebrará o do 16 ao 19 de xullo un taller Big Data onde se explicarán os conceptos básicos de Apache Spark. O taller será eminentemente práctico e os asistentes terán que resolver problemas diversos utilizando Spark.

Ao final do curso os asistentes terán os coñecementos necesarios para comezar a utilizar Spark nas súas tarefas cotiás de análises de datos.

Data e hora: do 16 ao 19 de xullo en horario de mañá de 10:00 h. a 14:00 h.

Lugar: CESGA, Avda. de Vigo s/n - Campus Vida - Santiago de compostela.

Destinatarios: O taller está destinado a usuarios da plataforma Big Data que desexen aprender a utilizar Spark 2.

REXISTRO PECHADO


Que aprenderei durante o taller?

Ao final do taller saberás:

  • Como transformar datos en Spark usando RDDs
  • Como transformar datos en Spark usando DataFrames e Spark SQL
  • Como transformar datos en Spark desde R usando sparklyr
  • Como preparar e lanzar un traballo de Spark
  • Como monitorar e optimizar un traballo de Spark

Que NON se ensinará durante o taller?

  • Os asistentes deben ter conceptos básicos de programación nalgún das linguaxes soportadas para uso interactivo de Spark ( Python, Scala ou R), idealmente Python.
  • Durante algunhas partes do curso resultará de utilidade ter familiaridade coa linguaxe SQL. Con todo, durante o taller non se ensinará a programar en SQL.
  • Durante o taller ensinaranse a utilizar algúns comandos básicos de Hadoop, os imprescindibles para o taller. O taller non ten por propósito ensinar a usar Hadoop.
  • Durante o taller mostrarase como usar Spark para realizar tarefas de machine learning por medio de Spark ML, con todo farase de maneira moi superficial sen entrar en detalle en todos os algoritmos de machine learning soportados.
  • Durante o taller non se cubrirán Spark Streaming nin Spark GraphX.

Prerrequisitos: O curso require coñecementos básicos de programación en Python, R, Scala ou Xava.

Durante o curso, para ensinar os conceptos de Spark, usarase principalmente a linguaxe Python, aínda que tamén se mostrará como usar Spark desde R a través de Sparklyr.

Resultarán de utilidade, aínda que non imprescindibles, coñecementos de GNU/Linux e familiaridade con SQL.

Python é unha linguaxe moi popular e que se pode aprender rapidamente, polo que aos alumnos que non estean familiarizados con esta linguaxe, recomendámoslles que realicen antes do curso algún numerosos titoriais de Python 2 existentes, por exemplo:

http://www.learnpython.org/

https://docs.python.org/2/tutorial/

É aconsellable para todos os participantes realizar o seguinte test de Python antes do curso:

http://www.mypythonquiz.com

En xeral, o uso de Spark desde Scala é moi similar ao de Python así que os alumnos que o desexen poderán resolver os exercicios usando Scala.

 

Contidos

1. Ferramentas necesarias

  • Jupyter
  • HDFS
  • YARN

2. Conceptos básicos de Spark

3. Programando con RDDs

4. Programando con PairRDDs

5. Programando con Spark SQL e DataFrames

6. Lanzando aplicacións

7. Monitorando, optimizando e depurando a execución de aplicacións

8. Usando Spark desde R: SparklyR

Valorar: