Este curso intentará articular el resultado esperado de los científicos de datos y después enseñará a los estudiantes cómo utilizar PySpark (parte de Apache SparkApache Spark es un motor de procesamiento de datos de código abierto que permite el análisis de grandes volúmenes de información de manera rápida y eficiente. Su diseño se basa en la memoria, lo que optimiza el rendimiento en comparación con otras herramientas de procesamiento por lotes. Spark es ampliamente utilizado en aplicaciones de big data, machine learning y análisis en tiempo real, gracias a su facilidad de uso y...) para cumplir con estas expectativas. Las asignaciones del curso incluyen ejercicios de minería de registros, acreditación de entidades textuales y filtrado colaborativo que enseñan a los estudiantes cómo manipular conjuntos de datos a través de el procesamiento paralelo con PySpark.