Descripción
El curso es una formación Cloudera no oficial, todo y así seguiremos los contenidos y especificaciones recomendadas por Cloudera para los temas y puntos tratados durante la formación, orientando el curso a la obtención de la certificación CCA Spark and Hadoop developer.
El material del curso ha sido desarrollado integramente por los profesores de KNOWTECH y se entregará a los alumnos para un correcto seguimiento del curso.
Objetivos
A la finalización de la formación, el participante conocerá:
- Uso del Spark Shell para análisis interactivo de datos.
- Las características de los conjuntos de datos distribuidos resilientes de Spark.
- Como ejecutar Spark en un cluster.
- Programación paralela con Spark.
- Creación de aplicaciones Spark.
- Procesamiento de datos en streaming con Spark.
Contenido
- Introducción a Apache Hadoop y el ecosistema Hadoop
- Archivos de almacenamiento de Apache Hadoop
- Proceso de datos en un clúster de Apache Hadoop
- Fundamentos de Apache Spark
- Trabajar con Dataframes y Schemas
- Análisis de datos con consultas de DataFrame
- RDDs: Sumario
- Transformación de datos con RDDs
- Agregación de datos con Pair RDDs
- Consulta y vistas de tablas con Spark SQL
- Creación, configuración y ejecución de aplicaciones Spark
- Procesamiento distribuido
- Persistencia de datos distribuidos
- Patrones comunes al procesar datos con Spark
- Spark Streaming: Introducción a DStreams
- Spark Streaming: procesamiento de múltiples lotes
- Apache Spark Streaming: Data Sources