Programación Matemática y Software (Jun 2015)
Procesamiento de big data en Hadoop usando el repartition join
Abstract
El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.