Cursos gratutitos SEFCARM

IFCD19 Desarrollador big data cloudera apache hadoop

Objetivo general


Adquirir los conocimientos esenciales del lenguaje Java para elaborar código sobre la API de Hadoop, una vez familiarizados con los componentes principales de Hadoop, HDFS, MapReduce y el amplio ecosistema existente alrededor de Hadoop. Aprender a implementar, depurar y adaptar programas Mapreduce y otros elementos del ecosistema Hadoop como Hive, Pig, HBase, Flume y Oozie para optimizar su funcionamiento y obtener un alto rendimiento

En concreto, para esta acción formativa el alumno se capacita para superar el siguiente examen de certificación oficial de Cloudera :

  • CCD-410 - Cloudera Certified Developer for Apache Hadoop (CCDH)

 

Objetivos específicos

  • Reconocer los objetos y operaciones que forman los bloques de construcción del diseño del programa Java, declarar e inicializar las variables, enumerar varios tipos de datos primitivos, utilizar los operadores, loops, y construcciones de decisión, declarar y crear instancias de Arrays y resolver problemas en Java.
  • Crear aplicaciones de subprocesos múltiples de alto rendimiento, implementar funcionalidades de entrada y salida (I / O), leer y escribir datos y archivos de texto, entender las corrientes avanzadas de E / S, ejecutar una aplicación Java desde la línea de comandos, manipular archivos, directorios y sistemas de archivos utilizando la especificación JDK NIO.2, crear aplicaciones que utilizan el marco colecciones de Java, realizar varias operaciones en tablas de bases de datos
  • Desarrollar aplicaciones MapReduce, crear unidades de testeo (unit tests) para aplicaciones MapReduce, utilizar los combiners, partitioners, y la cache distribuida de un MapReduce, implementar la entrada y salida de datos en aplicaciones MapReduce, unir conjunto de datos en MapReduce, usar los algoritmos Machine Learning de Mahout y utilizar Hive y Pig para el desarrollo de aplicaciones
  • Relacionar un conjunto de datos con el SDK de Kite, desarrollar componentes personalizados Flume para la ingestión de datos, gestionar un flujo de trabajo de varias etapas con Oozie, analizar los datos con Crunch, escribir funciones definidas por el usuario para Hive e Impala, transformar datos con Morphlines e
    indexar datos con Cloudera Search

 

Número de participantes

Máximo 25 participantes para cursos presenciales.

 

Relación secuencial de módulos formativos

 Módulo 1: Fundamentos Java SE

 Introducción a la tecnología y el lenguaje de programación Java
 Aproximación a los Objetos
 Trabajo con variables primitivas
 Trabajo con objetos
 Creación y uso de Arrays
 Uso de construcciones de bucle
 Trabajo con Métodos y sobrecarga de métodos
 Uso de encapsulación y constructores
 Introducción a conceptos avanzados de orientación a objetos
 Manejo de errores
 Big Picture


 Módulo 2: Programación Java SE

 Java Platform
 Sintaxis Java y revisión de clase
 Encapsulación y subclases
 Sustitución de métodos, polimorfismo, y clases estáticas
 Clases abstractas y anidadas
 Interfaces y Expresiones Lambda
 Colecciones y Genéricos
 Colecciones, Streams y filtros
 Lambda incorporando interfaces funcionales
 Lambda Operaciones
 Excepciones y aserciones
 La API Java Date/Time
 Fundamentos de entrada y salida (I/O)
 Archivos I/O (NIO.2)
 Concurrencia
 Framework Fork-Join
 Streams paralelos
 Aplicaciones de bases de datos con JDBC
 Localización


 Módulo 3: Desarrollador Cloudera para Apache Hadoop

 Fundamentos y HDFS de Hadoop
 Introducción a MapReduce
 Hadoop Clusters y el Ecosistema Hadoop
 Codificación de un programa MapReduce en Java
 Codificación de un programa MapReduce empleando Streaming
 Programas MapReduce de Testing Unitario
 Profundización en la API Hadoop
 Trucos y Técnicas prácticos de desarrollo
 Partitioners y Reducers
 Data Input y Output
 Algoritmos Compunes de MapReduce
 Unión de conjuntos de datos en Jobs MapReduce
 Integración de Hadoop en el Workflow corporativo
 Introducción a Hive, Impala y Pig
 Introducción a Oozie


 Módulo 4: Diseño y Creación de aplicaciones Big Data

 Arquitectura de aplicaciones
 Simplificación del desarrollo con Kite SDK
 Definición y uso de conjuntos de datos
 Importación de datos relacionales con Apache Sqoop
 Captura de datos con Apache Flume
 Desarrollo de componentes Flume customizados
 Manejo de Workflows con Apache Oozie
 Procesamiento de pipeline de datos con Apache Crunch
 Lectura y análisis de formatos de datos customizados en Apache Hive
 Respuesta a consultas interactivas con Impala
 Transformación de Data Streams con Morphlines
 Autorización de Búsqueda completa en los datos guardados con HDFS
 Presentación de resultados a los usuarios

Duración

Horas totales: 150 h

No hay artículos en esta familia