Programación Matemática y Software (Jun 2015)

Procesamiento de big data en Hadoop usando el repartition join

  • Néstor Iván Escalante Fol,
  • Alberto Portilla Flores,
  • Genoveva Vargas-Solar,
  • Carolina Rocío Sánchez Pérez,
  • Marva Angélica Mora Lumbreras

Journal volume & issue
Vol. 7, no. 2

Abstract

Read online

El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.

Keywords