Questo corso tenterà di articolare l'output atteso dei data scientist e quindi insegnerà agli studenti come utilizzare PySpark (parte de Apache SparkApache Spark è un motore di elaborazione dati open source che consente l'analisi di grandi volumi di informazioni in modo rapido ed efficiente. Il suo design si basa sulla memoria, che ottimizza le prestazioni rispetto ad altri strumenti di elaborazione batch. Spark è ampiamente utilizzato nelle applicazioni di big data, Apprendimento automatico e analisi in tempo reale, grazie alla sua facilità d'uso e...) per soddisfare queste aspettative. Le assegnazioni del corso includono esercizi di log mining, accreditamento delle entità testuali e filtraggio collaborativo che insegnano agli studenti come manipolare i set di dati attraverso l'elaborazione parallela con PySpark.