Ce cours tentera d'articuler les résultats attendus des scientifiques des données, puis enseignera aux étudiants comment utiliser PySpark (parte de Apache SparkApache Spark es un motor de procesamiento de datos de código abierto que permite el análisis de grandes volúmenes de información de manera rápida y eficiente. Su diseño se basa en la memoria, lo que optimiza el rendimiento en comparación con otras herramientas de procesamiento por lotes. Spark es ampliamente utilizado en aplicaciones de big data, machine learning y análisis en tiempo real, gracias a su facilidad de uso y...) pour répondre à ces attentes. Les devoirs du cours comprennent des exercices d'extraction de grumes, accréditation d'entités textuelles et filtrage collaboratif qui enseignent aux étudiants comment manipuler des ensembles de données via un traitement parallèle avec PySpark.