CCA Spark and Hadoop developer
10162
Intermedio
Big Data
21 horas
420 €
Convocatorias
Inicio - Fin
Horario  
25 enero - 29 enero Lun, Mar, Mie, Jue, Vie de 15:45 a 20:00 Sin definir
22 febrero - 26 febrero Lun, Mar, Mie, Jue, Vie de 09:45 a 14:00 Sin definir
29 marzo - 1 abril Lun, Mar, Mie, Jue de 08:45 a 14:00 Sin definir
Descripción

El curso es una formación Cloudera no oficial, todo y así seguiremos los contenidos y especificaciones recomendadas por Cloudera para los temas y puntos tratados durante la formación, orientando el curso a la obtención de la certificación CCA Spark and Hadoop developer.

El material del curso ha sido desarrollado integramente por los profesores de KNOWTECH y se entregará a los alumnos para un correcto seguimiento del curso.
Objetivos

A la finalización de la formación, el participante conocerá:

  • Uso del Spark Shell para análisis interactivo de datos.
  • Las características de los conjuntos de datos distribuidos resilientes de Spark.
  • Como ejecutar Spark en un cluster.
  • Programación paralela con Spark.
  • Creación de aplicaciones Spark.
  • Procesamiento de datos en streaming con Spark.
Contenido
  • Introducción a Apache Hadoop y el ecosistema Hadoop
  • Archivos de almacenamiento de Apache Hadoop
  • Proceso de datos en un clúster de Apache Hadoop
  • Fundamentos de Apache Spark
  • Trabajar con Dataframes y Schemas
  • Análisis de datos con consultas de DataFrame
  • RDDs: Sumario
  • Transformación de datos con RDDs
  • Agregación de datos con Pair RDDs
  • Consulta y vistas de tablas con Spark SQL
  • Creación, configuración y ejecución de aplicaciones Spark
  • Procesamiento distribuido
  • Persistencia de datos distribuidos
  • Patrones comunes al procesar datos con Spark
  • Spark Streaming: Introducción a DStreams
  • Spark Streaming: procesamiento de múltiples lotes
  • Apache Spark Streaming: Data Sources