Este curso intentará articular el resultado esperado de los científicos de datos y después enseñará a los estudiantes cómo utilizar PySpark (parte de Apache Spark) para cumplir con estas expectativas. Las asignaciones del curso incluyen ejercicios de minería de registros, acreditación de entidades textuales y filtrado colaborativo que enseñan a los estudiantes cómo manipular conjuntos de datos a través de el procesamiento paralelo con PySpark.