Saltear al contenido principal

Domesticar Big Data con Apache Spark y Python

Tomar Curso

Descripción

¡Nuevo! Actualizado para Spark 3, más ejercicios prácticos y un mayor enfoque en DataFrames y Structured Streaming.

El análisis de «macrodatos» es una habilidad muy valiosa y de gran valor, y este curso le enseñará la tecnología más novedosa en macrodatos: Apache Spark. Empleadores incluidos Amazonas, EBay, NASA JPL, y Yahoo todos usan Spark para extraer rápidamente el significado de conjuntos de datos masivos en un entorno tolerante a fallas Hadoop grupo. Aprenderá esas mismas técnicas utilizando su propio sistema Windows en casa. Es más fácil de lo que piensas.

Aprenda y domine el arte de enmarcar problemas de análisis de datos como problemas de Spark a través de más de 20 ejemplos prácticos, y luego escale para ejecutarlos en servicios de computación en la nube en este curso. Aprenderá de un ex ingeniero y gerente senior de Amazon e IMDb.

  • Aprenda los conceptos de los DataFrames y los almacenes de datos distribuidos resistentes de Spark

  • Desarrolle y ejecute trabajos de Spark rápidamente con Python

  • Traducir problemas de análisis complejos en scripts Spark iterativos o de varias etapas

  • Escale a conjuntos de datos más grandes con Amazon MapReduce elástico Servicio

  • Entender cómo Hadoop HILO distribuye Spark en clústeres informáticos

  • Obtenga más información sobre otras tecnologías Spark, como Spark SQL, Spark Streaming y GraphX

Al final de este curso, estará ejecutando un código que analiza gigabytes de información, en la nube, en cuestión de minutos.

Este curso utiliza el conocido lenguaje de programación Python.; si prefiere utilizar Scala para obtener el mejor rendimiento de Spark, consulte mi curso «Apache Spark con Scala – Hands On with Big Data» en su lugar.

Nos divertiremos un poco en el camino. Se calentará con algunos ejemplos sencillos del uso de Spark para analizar los datos de clasificación de películas y el texto de un libro. Una vez que tenga lo básico en su haber, pasaremos a algunas tareas más complejas e interesantes. Usaremos un millón de clasificaciones de películas para encontrar películas que sean similares entre sí, ¡e incluso podrías descubrir algunas películas nuevas que te pueden gustar en el proceso! Analizaremos un gráfico social de superhéroes y aprenderemos quién es el superhéroe más «popular», y desarrollaremos un sistema para encontrar «grados de separación» entre superhéroes. ¿Están todos los superhéroes de Marvel a pocos grados de estar conectados con The Incredible Hulk? Encontrarás la respuesta.

Este curso es muy práctico; pasará la mayor parte de su tiempo siguiendo al instructor mientras escribimos, analizamos y ejecutamos código real juntos, tanto en su propio sistema como en la nube utilizando el servicio Elastic MapReduce de Amazon. 7 horas de video el contenido está incluido, con más de 20 ejemplos reales de complejidad creciente que puede construir, ejecutar y estudiar usted mismo. Muévase a través de ellos a su propio ritmo, según su propio horario. El curso concluye con una descripción general de otras tecnologías basadas en Spark, incluidas Spark SQL, Spark Streaming y GraphX.

La gestión de big data con Apache Spark es una habilidad importante en el mundo técnico actual. ¡Enlístate ahora!

  • ”Estudié“ Domesticación de Big Data con Apache Spark y Python ”con Frank Kane, y me ayudó a construir una gran plataforma para Big Data as a Service para mi empresa. ¡Recomiendo el curso! ”- Cleuton Sampaio De Melo Jr.

Ver Comentarios del Curso

Volver arriba