Cabecera

Cabecera

lunes, 14 de octubre de 2013

Apache Hadoop

Apache Hadoop es un framework basado en JAVA que soporta aplicaciones distribuida. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS). Hadoop es un proyecto de alto nivel Apache y con una gran comunidad base. Yahoo! ha sido el mayor contribuidor al proyecto.

Hadoop: Procesamiento de enormes cantidades de datos (TB y PB) en grandes clusters de comodity hardware. Esta formado por 2 sistemas:

  • Almacenamiento: HDFS
  • Procesamiento: MapReduce

y aporta una serie de ventajas:

  • Bajo coste
  • Facilidad de uso
  • Tolerancia a fallos

domingo, 13 de octubre de 2013

AUTOR(S)



   BIOGRAPHY





La investigación sobre Hadoop Cloud Computing modelo y sus Aplicaciones.

Hai-Shan

 

Tome este artículo básicamente porque él describe las tres partes mas importantes de Hadoop HDFS, analiza y da algunas sugerencias de optimización del rendimiento, seria un gran aporte en el desarrollo de mi estudio para optimizar la capacidad de procesamiento y desarrollo de la computación.






Dr. Konstantin V. Shvachko
El sistema de archivos distribuido Hadoop


Tome este articulo para el desarrollo de mi Ensayo Técnico, ya que el describen el (HDFS) y su arquitectura, analiza como almacenar grandes conjuntos de datos de manera fiable, para transmitirlos en conjuntos de datos en un ancho de banda  alto. Este aporte es muy importante para el análisis de procesamiento de grandes volúmenes de datos que voy a desarrollar en mi proyecto.






Dr.Jeffrey Shafer
El sistema de ficheros distribuido Hadoop: la 
portabilidad de equilibrio y el rendimiento.


Tome este artículo principalmente porque el analiza el rendimiento de HDFS y descubren algunos problemas de rendimiento, donde me pueden ayudar a comparar métodos para el buen funcionamiento de manera rentable y adaptable.


¿Qué es Cloud Computing?




Cloud Computing es un paradigma que permite ofrecer servicios de computación a través de Internet.

Cloud computing es el desarrollo y la utilización de capacidad de procesamiento computacional basado en Internet (la “nube”). El concepto es un cambio de paradigma, a través del cual los usuarios ya no necesitan contar con conocimientos, experiencia o control sobre la infraestructura tecnológica que se encuentra “en la nube”, la misma que soporta sus actividades. Este concepto involucra típicamente la provisión de recursos fácilmente escalables y casi siempre virtualizados, tratados como servicios sobre Internet.
El termino “nube” (cloud en ingles) es usado como una metáfora para el Internet, basado en como el Internet es representado en los diagramas de redes computacionales y como abstracción de la infraestructura subyacente que el misma oculta. Los proveedores de cloud computing proveen aplicaciones en línea de negocio, las mismas que se pueden acceder desde exploradores de internet (Firefox, IE, Opera, Chrome, Safari, etc), mientras el software y los datos son almacenados en los servidores.
Estas aplicaciones están ampliamente divididas en las siguientes categorías: Software como Servicio (Software as a Service – SaaS), Utility Computing, Web Services, Plataformas como Servicio (Platform as a Service – PaaS), Proveedores de Servicios Administrados (Managed Service Providers – MSP), Servicio de Comercio (Service Commerce) e Integración de Internet (Internet Integration).
El nombre de “cloud computing” fue inspirado por el símbolo de la nube que usualmente representa a la Internet en diagramas de flujo y de redes.

En resumen, podríamos definir Cloud Computing como el nuevo paradigma computacional que pretende el uso compartido de recursos (procesamiento, almacenamiento, servicios) a través de Internet (también redes privadas) de la forma más transparente posible para el usuario. El Cloud Computing es un paso más en la computacion distribuida en contraposición a la tradicional arquitectura cliente-servidor.

ESTUDIO DEL PROCESAMIENTO DE DATOS MASIVOS CON CLOUD COMPUTING Y HADOOP








UNIDAD ARGUMENTATIVA 


Actualmente muchas empresas corporativas están constantemente inundadas de datos, las bases de datos y los sistemas de administración de datos han jugado un papel primordial en el crecimiento del éxito de las organizaciones, debido a la gran competencia del mercado y a un panorama comercial cada vez más competitivo.
Esto ha dado origen a que los departamentos de tecnología de la información inicien la  búsqueda de nuevas herramientas y paradigmas para el procesamiento de datos y de la información generada sabiendo la importancia de la información de datos ya que es el núcleo de cada organización como empresa y su revelación que dispone hacia los demás. 


Entendiendo que Hadoop permite el desarrollo de la computación confiable, escalable, distribuida y aprovechando el poder de la computación en la nube, muchas grandes empresas podrían llevar a cabo su día a día de procesamiento de datos sin problemas, optimizado para manejar grandes cantidades de datos estructurados de manera rentable y adaptable a cualquier necesidad. Siendo esta una posible solución para el problema de datos de la actualidad.






OBJETIVO GENERAL

El principal objetivo es el estudio y análisis de la herramienta Hadoop, este analisis se extenderá a las diferentes aplicaciones con procesamientos de grandes volúmenes de datos utilizando este framework y aprovechando el poder de la computación en la nube para posteriormente obtener conclusiones.


OBJETIVO ESPECIFICO

  • Mejorar la ampliación del procesamiento de la información en forma distribuida.
  • Proveer nuevas alternativas debido al incremento de la información en las organizaciones.
  • Comparar métodos de aplicación en procesamiento de grandes volúmenes.
  • Analizar la información recopilada y organizarla detalladamente para determinar el alcance y las necesidades de las organizaciones.