ESPACIO

lunes, 14 de octubre de 2013

Apache Hadoop

Apache Hadoop es un framework basado en JAVA que soporta aplicaciones distribuida. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS). Hadoop es un proyecto de alto nivel Apache y con una gran comunidad base. Yahoo! ha sido el mayor contribuidor al proyecto.

Hadoop: Procesamiento de enormes cantidades de datos (TB y PB) en grandes clusters de comodity hardware. Esta formado por 2 sistemas:

Almacenamiento: HDFS

Procesamiento: MapReduce

y aporta una serie de ventajas:

Bajo coste

Facilidad de uso

Tolerancia a fallos

domingo, 13 de octubre de 2013

AUTOR(S)

BIOGRAPHY

http://prezi.com/sjiiobs95rhp/?utm_campaign=share&utm_medium=copy

La investigación sobre Hadoop Cloud Computing modelo y sus Aplicaciones.

Hai-Shan

Tome este artículo básicamente porque él describe las tres partes mas importantes de Hadoop HDFS, analiza y da algunas sugerencias de optimización del rendimiento, seria un gran aporte en el desarrollo de mi estudio para optimizar la capacidad de procesamiento y desarrollo de la computación.

Dr. Konstantin V. Shvachko

El sistema de archivos distribuido Hadoop

Tome este articulo para el desarrollo de mi Ensayo Técnico, ya que el describen el (HDFS) y su arquitectura, analiza como almacenar grandes conjuntos de datos de manera fiable, para transmitirlos en conjuntos de datos en un ancho de banda alto. Este aporte es muy importante para el análisis de procesamiento de grandes volúmenes de datos que voy a desarrollar en mi proyecto.

Dr.Jeffrey Shafer

El sistema de ficheros distribuido Hadoop: la

portabilidad de equilibrio y el rendimiento.

Tome este artículo principalmente porque el analiza el rendimiento de HDFS y descubren algunos problemas de rendimiento, donde me pueden ayudar a comparar métodos para el buen funcionamiento de manera rentable y adaptable.

¿Qué es Cloud Computing?

Cloud Computing es un paradigma que permite ofrecer servicios de computación a través de Internet.

Cloud computing es el desarrollo y la utilización de capacidad de procesamiento computacional basado en Internet (la “nube”). El concepto es un cambio de paradigma, a través del cual los usuarios ya no necesitan contar con conocimientos, experiencia o control sobre la infraestructura tecnológica que se encuentra “en la nube”, la misma que soporta sus actividades. Este concepto involucra típicamente la provisión de recursos fácilmente escalables y casi siempre virtualizados, tratados como servicios sobre Internet.

El termino “nube” (cloud en ingles) es usado como una metáfora para el Internet, basado en como el Internet es representado en los diagramas de redes computacionales y como abstracción de la infraestructura subyacente que el misma oculta. Los proveedores de cloud computing proveen aplicaciones en línea de negocio, las mismas que se pueden acceder desde exploradores de internet (Firefox, IE, Opera, Chrome, Safari, etc), mientras el software y los datos son almacenados en los servidores.

Estas aplicaciones están ampliamente divididas en las siguientes categorías: Software como Servicio (Software as a Service – SaaS), Utility Computing, Web Services, Plataformas como Servicio (Platform as a Service – PaaS), Proveedores de Servicios Administrados (Managed Service Providers – MSP), Servicio de Comercio (Service Commerce) e Integración de Internet (Internet Integration).

El nombre de “cloud computing” fue inspirado por el símbolo de la nube que usualmente representa a la Internet en diagramas de flujo y de redes.

En resumen, podríamos definir Cloud Computing como el nuevo paradigma computacional que pretende el uso compartido de recursos (procesamiento, almacenamiento, servicios) a través de Internet (también redes privadas) de la forma más transparente posible para el usuario. El Cloud Computing es un paso más en la computacion distribuida en contraposición a la tradicional arquitectura cliente-servidor.

ESTUDIO DEL PROCESAMIENTO DE DATOS MASIVOS CON CLOUD COMPUTING Y HADOOP

UNIDAD ARGUMENTATIVA

Actualmente muchas empresas corporativas están constantemente inundadas de datos, las bases de datos y los sistemas de administración de datos han jugado un papel primordial en el crecimiento del éxito de las organizaciones, debido a la gran competencia del mercado y a un panorama comercial cada vez más competitivo.

Esto ha dado origen a que los departamentos de tecnología de la información inicien la búsqueda de nuevas herramientas y paradigmas para el procesamiento de datos y de la información generada sabiendo la importancia de la información de datos ya que es el núcleo de cada organización como empresa y su revelación que dispone hacia los demás.

Entendiendo que Hadoop permite el desarrollo de la computación confiable, escalable, distribuida y aprovechando el poder de la computación en la nube, muchas grandes empresas podrían llevar a cabo su día a día de procesamiento de datos sin problemas, optimizado para manejar grandes cantidades de datos estructurados de manera rentable y adaptable a cualquier necesidad. Siendo esta una posible solución para el problema de datos de la actualidad.

OBJETIVO GENERAL

El principal objetivo es el estudio y análisis de la herramienta Hadoop, este analisis se extenderá a las diferentes aplicaciones con procesamientos de grandes volúmenes de datos utilizando este framework y aprovechando el poder de la computación en la nube para posteriormente obtener conclusiones.

OBJETIVO ESPECIFICO