Procesamiento de big data en Hadoop usando el repartition join

Néstor Iván Escalante Fol; Alberto  Portilla Flores; Genoveva Vargas-Solar; Carolina Rocío Sánchez Pérez; Marva Angélica Mora Lumbreras

Programación Matemática y Software (Jun 2015)

Procesamiento de big data en Hadoop usando el repartition join

Néstor Iván Escalante Fol,
Alberto Portilla Flores,
Genoveva Vargas-Solar,
Carolina Rocío Sánchez Pérez,
Marva Angélica Mora Lumbreras

Affiliations

Néstor Iván Escalante Fol: Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
Alberto Portilla Flores: Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
Genoveva Vargas-Solar: French Council of Scientific Research, LIG-LAFMIA. 681 rue de la Passerelle BP 72, 38402. Saint Martin d’Heres, Francia
Carolina Rocío Sánchez Pérez: Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
Marva Angélica Mora Lumbreras: Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Journal volume & issue: Vol. 7, no. 2

Abstract

Read online

El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.

Published in Programación Matemática y Software

ISSN: 2007-3283 (Online)
Publisher: Universidad Autónoma del Estado de Morelos
Country of publisher: Mexico
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science: Computer software
Website: https://progmat.uaem.mx/progmat

About the journal

Abstract

Keywords