SABER UCV >
2) Tesis >
Pregrado >

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10872/13720

Título : Expansión de la distribución Linux para Ciencia de Datos Live-Hadoop
Autor : Valdivieso, Pedro
Ziegler, Sebastian
Palabras clave : Cluster
Linux
Live Hadoop
Fecha de publicación : 16-Mar-2016
Citación : Biblioteca Alonso Gamero Facultad de Ciencias;TG-20345
Resumen : Para hacer procesamientos con grandes volúmenes de datos (Big Data) es necesario tener un cluster. Montar un cluster no es una tarea sencilla, existe una distribución de Linux desarrollada en la Universidad Central de Venezuela por el profesor José R. Sosa que monta un cluster Beowulf listo para procesar y almacenar grandes volúmenes de datos. Este sistema operativo lleva por nombre Live Hadoop y presenta ciertas limitaciones que hacen que resuelva un conjunto limitado de problemas de Big Data. Por todo lo anterior se decidió expandir el sistema operativo Live Hadoop para integrar distintas herramientas del ecosistema Hadoop y así ampliar su funcionalidad. La siguiente investigación tiene como fin crear y adaptar módulos que permitan la extracción, carga, almacenamiento y procesamiento de grandes volúmenes de datos en Live Hadoop. Para lograr lo anterior se integraron distintas herramientas al sistema operativo Live Hadoop en forma de módulos, estos fueron: Logstash, Elasticsearch, Kibana, Mahout, Fluentd, HBase, ZooKeeper y Spark. Logstash y Fluentd sirven para hacer extracción, carga y limpieza de grandes volúmenes de datos. Elasticsearch permite indexar datos en una base de datos orientada a documentos y lo hace de forma distribuida. Kibana provee una visualización de los datos almacenados en Elasticsearch usando una interfaz web, permite hacer consultas y gráficas. Mahout incluye con una amplia biblioteca de algoritmos de minería de datos que pueden usarse desde distintos lenguajes de programación. Hbase permite indexar datos desde el sistema de archivos distribuido de Hadoop en una base de datos orientada a columnas usando distintos procesos que corren de manera distribuida. Zookeeper tiene toda una interfaz que provee funciones de coordinación y administración para procesos distribuidos. Finalmente Spark permite hacer procesamiento de grandes volúmenes de datos en memoria lo que disminuye el tiempo de procesamiento de manera drástica, tiene una amplia librería de algoritmos de minería de datos y tiene la capacidad escribir resultados en el sistema de archivos distribuidos de Hadoop o en bases de datos. De todas estas herramientas se hicieron pruebas simples y además se realizó un caso de estudio complejo integrando algunas de las herramientas añadidas. El caso de estudio fue enfocado en el procesamiento de datos de bitácoras de servidores con el fin de detectar anomalías en las mismas y generar reportes y alertas que son enviados a un administrador. Este trabajo dejo como producto final un sistema operativo con un conjunto de herramientas del ecosistema Hadoop que monta un cluster Beowulf listo para procesar grandes volúmenes de datos usando Live Hadoop. Un sistema de recolección y procesamiento de datos de bitácoras de servidores para detectar anomalías. También, se dejó una instalación del sistema operativo XenServer en una maquina de la sala de servidores del centro de computación donde se virtualizó un cluster de 15 nodos de la distribución de Hadoop Hortonworks y otros 5 nodos con la distribución Live Hadoop.
Descripción : Tutor: Prof. Jesús Lares; Prof. José R. Sosa
URI : http://hdl.handle.net/10872/13720
Aparece en las colecciones: Pregrado

Ficheros en este ítem:

Fichero Descripción Tamaño Formato
Tesis.pdf16.76 MBAdobe PDFVisualizar/Abrir

Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2008 MIT and Hewlett-Packard - Comentarios