Logra acelerar las rondas de entrenamiento de aprendizaje máquina haciendo uso de FinisTerrae
Gonzalo Ferro del Dpto. de Proyectos y Aplicaciones del CESGA ha desarrollado un paquete de software en python para explotar el paralelismo que posibilita FinisTerrae II utilizando la API de Google para aprendizaje máquina, TensorFlow. Así, consiguió reducir los tiempos de entrenamiento de un algoritmo de aprendizaje automático en un 90%.
Con esto, Ferro demostró que se puede acelerar el entrenamento de redes convolucionales empleando como ejemplo un caso de control de un proceso de deposición por láser desarrollado por el Centro Tecnológico AIMEN. El caso muestra la ventaja del empleo de redes de interconexión de nodos de alta velocidad como Infiniband para reducir los tiempos de un entrenamento paralelo.
Lo preparó un paquete que tira provecho de las tecnologías Infiniband de intercomunicación de nodos de las que dispone FinisTerrae.
Una completa descripción del paquete y los resultados del experimento pueden ser consultados en el informe técnico “Integrating Neural Network Parallel Training using Tensorflow with SLURM”