Cursos gratutitos SEFCARM

IFCT23 Administrador big data cloudera apache hadoop

Objetivo general


El objetivo de la presente formación es preparar al alumno para analizar y resolver problemas del mundo real utilizando Apache Hadoop y herramientas asociadas al centro de datos empresariales. Se trabajara a través de todo el proceso de diseño y construcción
de soluciones, incluyendo los datos de ingestión, determinar el formato de archivo adecuado para el almacenamiento, el procesamiento de los datos almacenados, y presentar los resultados al usuario final en una forma fácil de interpretar. Irá más allá de
MapReduce para utilizar elementos adicionales del centro de datos empresarial y desarrollar aplicaciones de convergencia que son altamente relevantes para el negocio.


Los alumnos adquirirán los conocimientos básicos del lenguaje Java y los conocimientos necesarios para, una vez familiarizados con los componentes principales de Hadoop, HDFS, MapReduce y el amplio ecosistema alrededor de Hadoop, elaborar código sobre la
API de Hadoop, así como depurar programas Mapreduce y optimizar su funcionamiento. A lo largo del curso también se introduce a los asistentes en otros elementos del ecosistema Hadoop como son Hive, Pig, HBase, Flume y Oozie.

 

Objetivos específicos

  • Al finalizar el módulo el alumno será capaz de desarrollar aplicaciones en Pyton.
  • Al finalizar el módulo el alumno será capaz de importar datos a Apache Hadoop Cluster y procesarlos con Spark, Hive, Flume, Sqoop, Impala, y otras herramientas del ecosistema de Hadoop.
  • Al finalizar el módulo el alumno será capaz de: simplificar el desarrollo con Kite SDK, definir y usar Data Sets, importar datos relacionales con Apache Sqoop, capturar datos con Apache Flume y desarrollar componentes personalizados, manejar Workflows con Apache Oozie, procesar pipeline de datos con Apache Crunch, leer y analizar formatos de datos customizados
    en Apache Hive, responder queries interactivas con Impala, transformar Data Streams con Morphlines, autorizar búsqueda completa en los datos guardados con HDFS y presentar resultados a los usuarios

  

Número de participantes

Máximo 25 participantes para cursos presenciales.

 

Relación secuencial de módulos formativos

 Módulo 1. DESARROLLO DE APLICACIONES PYTHON

- Introducción a Python
- Cómo ejecuta Python los programas
- Ejecutar programas en Python
- Introducción a los tipos de objetos Python
- Tipos Numéricos
- Tipado Dinámico
- Fundamentos de Cadenas
- Listas y Diccionarios
- Tuplas, Ficheros y todo lo demás
- Introducción a las Sentencias Python
- Asignaciones, Expresiones y Prints
- if Tests y Reglas de Sintaxis
- Los Bucles While y For
- Iteraciones y Comprehensions
- La Documentación
- Fundamentos de las Funciones
- Scopes
- Argumentos
- Funciones Avanzadas
- Comprehensions y Generations
- Benchmarking
- Módulos
- Programación de Módulos
- Programación Orientada a Objetos
- Fundamentos de Programación de Clases
- Sobrecarga de Operadores


 Módulo 2. DESARROLLADOR CLOUDERA PARA APACHE SPARK I

- Introduction
- Introduction to Hadoop and the Hadoop Ecosystem
- Hadoop Architecture and HDFS
- Importing Relational Data with Apache Sqoop
- Introduction to Impala and Hive
- Modeling and Managing Data with Impala and Hive
- Data Formats
- Data Partitioning
- Capturing Data with Apache Flume
- Spark Basics
- Working with RDDs in Spark
- Writing and Deploying Spark Applications
- Parallel Programming with Spark
- Spark Caching and Persistence
- Common Patterns in Spark Data Processing
- Preview: Spark SQL
- Conclusion


 Módulo 3. DESARROLLADOR CLOUDERA PARA APACHE SPARK II

- Introducción
- Arquitectura de applicaciones
- Simplificando el desarrollo con Kite SDK
- Definiendo y usando Data Sets
- Importación de datos relacionales con Apache Sqoop
- Captura de datos con Apache Flume
- Desarrollo de componentes Flume customizados
- Manejo de Workflows con Apache Oozie
- Procesamiento de pipeline de datos con Apache Crunch
- Leer y analizar formatos de datos customizados en Apache Hive
- Responder queries interactivas con Impala
- Transformación de Data Streams con Morphlines
- Autorizar Búsqueda completa en los datos guardados con HDFS
- Presentación de resultados a los usuarios
- Trabajo de RDDs
- El Hadoop Distributed File System
- Ejecutar Spark en un Cluster
- Programación paralela con Spark
- Caching y Persistence
- Escritura de aplicaciones Spark
- Spark, Hadoop y el Enterprise Data Center
- Spark Streaming
- Algoritmos usuales en Spark
- Mejora de rendimiento Spark
- Conclusion

 

Duración

Horas totales: 175

No hay artículos en esta familia