La plataforma Big Data ha sido actualizada a Hadoop 3, incluyendo también la nueva versión de Spark 2.4.
El servicio Big Data permite el procesado de grandes volúmenes de información en paralelo, así como la recogida de datos por streaming y la utilización de Jupyter Notebooks para tareas de exploración y visualización de datos.
El servicio está basado en la última versión de la distribución de Hadoop de Cloudera, CDH 6, basada en Hadoop 3 que ofrece una solución estable y que incluye numerosos componentes del ecosistema de Hadoop: YARN, HDFS, MapReduce, Spark, Flume,H ive, Impala, HBase, …
La plataforma actualizada está accesible por SSH a través de **hadoop3.cesga.es**, mientras que la antigua basada en Hadoop 2 se seguirá accediendo a través de hadoop.cesga.es. Para facilitar la transición la plataforma antigua permanecerá activa hasta el próximo 30 de junio, momento en el que será apagada.
En la Guía de Uso hemos preparado una sección que indica como migrar los datos de HDFS: http://bigdata.cesga.es/user-guide/migrating_data.html
No es necesario migrar los datos del HOME ya que los datos de la antigua plataforma han sido automáticamente migrados desde GlusterFS al nuevo HOME. Para más información sobre la plataforma incluyendo tutoriales para aprender a usar rápidamente las distintas herramientas le recomendamos acceder al portalespecífico de la plataforma: https://bigdata.cesga.es
Este portal incluye un interfaz web (WebUI) que le permitirá hacer las tareas más habituales a través del navegador.
También le recomendamos consultar la nueva guía de usuario que hemos preparado: http://bigdata.cesga.es/user-guide
NOTA: En algunos navegadores, si accedió anteriormente al portal o al WebUI, tendrá que limpiar antes la caché del navegador para visualizar la nueva versión.