Big Data – Instituto Carlos I de Física Teórica y Computacional

En la actualidad es muy frecuente encontrarnos con bases de datos de gran tamaño en muchos ámbitos de la ciencia y el mundo empresarial, necesitando analizar grandes cantidades de datos en los procesos de extracción de conocimiento. Este tipo de problemas recibe el nombre de Big Data. No pueden ser procesados de forma secuencial con los algoritmos clásicos de aprendizaje, las técnicas clásicas de extracción de conocimiento no se adaptan a las nuevas necesidades de espacio y de tiempo, requiriendo de nuevos paradigmas de desarrollo de algoritmos escalables.

Recientemente, Google desarrolló un nuevo marco de programación llamado MapReduce para el procesamiento de grandes cantidades de información, y permite abordar problemas con bases de datos de gran tamaño, alcanzando los petabytes de tamaño. Yahoo lideró el desarrollo de una implementación opensource denominada Hadoop para este paradigma y puede usarse sobre un cluster de ordenadores o grandes granjas de ordenadores, permitiendo diseño de servicios bajo el paradigma de cloud computing. Sobre Hadoop se están desarrollando librerías de procesamiento masivo de datos como la librería Mahout que permite el diseño e implementación de algoritmos de aprendizaje escalables.

En esta conferencia se presentan los aspectos más relevantes de este problema, se presenta el paradigma MapReduce y el entorno abierto Hadoop, y se analizan los problemas asociados a su uso.

Ponente: Prof. Francisco Herrera Triguero

Más contenidos