Cursos gratutitos SEFCARM

IFCT24 Analista de datos big data cloudera apache hadoop

Objetivo general


Adquirir los conocimientos y la solvencia necesaria para capturar, manejar, almacenar, transformar, buscar y visualizar un conjunto de datos de gran volumen y complejidad y relacionarlos entre sí, para extraer información de valor a partir de ellos, mediante una solución Big Data de código abierto como Cloudera.

 

Objetivos específicos

  • Adquirir los conocimientos necesarios para entender las características y beneficios de las bases de datos relacionales, los lenguajes SQL y PostgreSQL, los datos y tipos de columna, aprender a crear un diseño de base de datos con una estructura eficiente y ser capaz de extraer información de bases de datos de base con el comando SELECT, solucionar problemas de sintaxis y entender las advertencias y los errores típicos. Ser capaz de agrupar datos de consulta con la agregación, conectar datos de múltiples filas de la tabla con JOIN, realizar anidados de subconsultas y utilizar funciones simples.
  • Adquirir los conocimientos fundamentales y las principales funcionalidades acerca del framework Apache Hadoop. Saber identificar y seleccionar los casos y situaciones más apropiadas para su alicación. Aprender a implementar Hadoop y su ecosistema en cualquier entorno y a estimar los recursos necesarios para desplegar Hadoop
  • Conocer las características de Pig, Hive, e Impala para la adquisición, almacenamiento y análisis de datos, unir conjuntos de datos para obtener mayor información y realizar consultas complejas sobre conjuntos de datos en tiempo real
  • Adquirir los conocimientos fundamentales y las principales funcionalidades acerca del uso de Apache HBase.
    Aprender a manejar la interacción entre HBase, Hadoop y RDBMS. Manejar HBase Shell para manipular directamente las tablas de HBase. Diseñar esquemas óptimos de HBase para un manejo eficiente del almacenaje de datos y su recuperación. Conocer cómo conectar HBase usando la API de Java para insertar y extrae datos en tiempo real. Aprender las mejores prácticas para mejoras de rendimiento y evitar cuellos de botella.

 

Número de participantes

Máximo 25 participantes para cursos presenciales.

 

Relación secuencial de módulos formativos


 Módulo nº1: Fundamentos de SQL con PostgreSQL

 Introducción
 Base de datos básica
 Estructura de base de datos
 El uso de SQL
 Creación de una base de datos
 Las consultas básicas
 Mantenimiento de la Base de datos
 Copia de tablas y modificaciones de columnas
 Índices y restricciones
 Eliminar o modificar filas de la tabla de datos
 Funciones: uso y tipos
 Funciones específicas
 Joins
 Exportación de datos, consultas y utilidades
 Importación de datos y de archivos de datos
 Importación con sentencias y utilidades
 Subconsultas generales y básicas
 Subconsulta no correlacionada y correlacionada
 Tipos de subconsultas
 Modificación de la tabla con subconsultas
 Motores de almacenamiento
 Creación de Vistas
 Transacciones
 Recuperación de Metadatos
 Conclusiones


 Módulo nº2: Fundamentos de Cloudera Apache Hadoop

 Acerca de Apache Hadoop
 Acerca de Cloudera
 La motivación para Hadoop
 Problemas con los sistemas tradicionales de gran escala
 Cómo Hadoop aborda estos desafíos
 HDFS: El sistema de ficheros distribuidos de Hadoop
 El funcionamiento de MapReduce
 Anatomía de un cluster Hadoop
 Aplicaciones comunes y usos especiales de la solución Hadoop
 El ecosistema Hadoop
  ‐ Almacenamiento de datos: Hbase
  ‐ Integración de datos: Flume y Sqoop
  ‐ Procesamiento de datos: Spark
  ‐ Análisis de los datos: Hive, Pig e Impala
  ‐ Exploración de datos: Cloudera Search
 Integración de Hadoop en el CPD
 Herramientas para gestionar Hadoop
 Planificación del proyecto


 Módulo nº3: Análisis de Datos Big Data

 Introducción a Pig
 Análisis de datos básico con Pig
 Procesado de datos complejos con Pig
 Operaciones con multiconjuntos de datos con Pig
 Troubleshooting y optimización de Pig
 Introducción a Hive e Impala
 Consultas con Hive e Impala
 Administración de datos
 Almacenamiento y datos de rendimiento
 Análisis de datos relacional con Hive y Impala
 Trabajo con Impala
 Análisis de texto y datos complejos con Hive
 Optimización de Hive
 Extensión de Hive


 Módulo nº4: Cloudera Apache HBase

 Introducción
 Introducción a HBase
 Conceptos básicos de HBase
 Administración de APIs HBase
 Acceso a datos con la API HBase, Parte 1
 Acceso a datos con la API HBase, Parte 2
 Arquitectura HBase, Parte 1
 Arquitectura HBase, Parte 2
 Instalación y configuración
 Diseño ROW KEY en HBase
 Diseño de Schemas en HBase
 Ecosistema HBase
 Conclusión

 

Duración

Horas totales: 120 h

No hay artículos en esta familia