SABER UCV >
2) Tesis >
Pregrado >
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10872/13720
|
Título : | Expansión de la distribución Linux para Ciencia de Datos Live-Hadoop |
Autor : | Valdivieso, Pedro Ziegler, Sebastian |
Palabras clave : | Cluster Linux Live Hadoop |
Fecha de publicación : | 16-Mar-2016 |
Citación : | Biblioteca Alonso Gamero Facultad de Ciencias;TG-20345 |
Resumen : | Para hacer procesamientos con grandes volúmenes de datos (Big Data) es necesario tener un cluster.
Montar un cluster no es una tarea sencilla, existe una distribución de Linux desarrollada en la Universidad
Central de Venezuela por el profesor José R. Sosa que monta un cluster Beowulf listo para procesar y
almacenar grandes volúmenes de datos. Este sistema operativo lleva por nombre Live Hadoop y presenta
ciertas limitaciones que hacen que resuelva un conjunto limitado de problemas de Big Data. Por todo
lo anterior se decidió expandir el sistema operativo Live Hadoop para integrar distintas herramientas del
ecosistema Hadoop y así ampliar su funcionalidad.
La siguiente investigación tiene como fin crear y adaptar módulos que permitan la extracción, carga,
almacenamiento y procesamiento de grandes volúmenes de datos en Live Hadoop. Para lograr lo anterior
se integraron distintas herramientas al sistema operativo Live Hadoop en forma de módulos, estos fueron:
Logstash, Elasticsearch, Kibana, Mahout, Fluentd, HBase, ZooKeeper y Spark.
Logstash y Fluentd sirven para hacer extracción, carga y limpieza de grandes volúmenes de datos.
Elasticsearch permite indexar datos en una base de datos orientada a documentos y lo hace de forma
distribuida. Kibana provee una visualización de los datos almacenados en Elasticsearch usando una interfaz
web, permite hacer consultas y gráficas. Mahout incluye con una amplia biblioteca de algoritmos
de minería de datos que pueden usarse desde distintos lenguajes de programación. Hbase permite indexar
datos desde el sistema de archivos distribuido de Hadoop en una base de datos orientada a columnas
usando distintos procesos que corren de manera distribuida. Zookeeper tiene toda una interfaz que provee
funciones de coordinación y administración para procesos distribuidos. Finalmente Spark permite hacer
procesamiento de grandes volúmenes de datos en memoria lo que disminuye el tiempo de procesamiento
de manera drástica, tiene una amplia librería de algoritmos de minería de datos y tiene la capacidad
escribir resultados en el sistema de archivos distribuidos de Hadoop o en bases de datos.
De todas estas herramientas se hicieron pruebas simples y además se realizó un caso de estudio
complejo integrando algunas de las herramientas añadidas. El caso de estudio fue enfocado en el procesamiento
de datos de bitácoras de servidores con el fin de detectar anomalías en las mismas y generar
reportes y alertas que son enviados a un administrador.
Este trabajo dejo como producto final un sistema operativo con un conjunto de herramientas del ecosistema
Hadoop que monta un cluster Beowulf listo para procesar grandes volúmenes de datos usando
Live Hadoop. Un sistema de recolección y procesamiento de datos de bitácoras de servidores para detectar
anomalías. También, se dejó una instalación del sistema operativo XenServer en una maquina de la
sala de servidores del centro de computación donde se virtualizó un cluster de 15 nodos de la distribución
de Hadoop Hortonworks y otros 5 nodos con la distribución Live Hadoop. |
Descripción : | Tutor: Prof. Jesús Lares; Prof. José R. Sosa |
URI : | http://hdl.handle.net/10872/13720 |
Aparece en las colecciones: | Pregrado
|
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.
|