Roadmap per superare l'esame Microsoft Azure DP 100

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati

Scienza dei dati, apprendimento automatico, MLops, ingegneria dei dati, tutte queste frontiere dei dati avanzano con velocità e precisione. Il futuro della scienza dei dati è definito da aziende più grandi come Microsoft, Amazon, Databricks, Google e queste aziende stanno guidando l'innovazione in questo campo. A causa di questi rapidi cambiamenti, ha senso ottenere la certificazione con uno di questi grandi attori e conoscere la loro offerta di prodotti. Cosa c'è di più, con le soluzioni end-to-end fornite da queste piattaforme, da data lake scalabili a cluster scalabili, sia per il test che per la produzione, semplificare la vita ai professionisti dei dati. Dal punto di vista commerciale, ha tutte le infrastrutture sotto lo stesso tetto, nel cloud e su richiesta, e sempre più aziende si stanno appoggiando o, Cosa c'è di più, sono costretti a passare al cloud a causa della pandemia in corso.

In che modo DP-100 aiuta? (Progetta e implementa una soluzione di data science su Azure) a un data scientist o a chiunque lavori con i dati?

In sintesi, le aziende raccolgono dati da varie fonti, app mobili, Sistemi POS, strumenti interni, macchine, eccetera., e tutti questi sono in vari dipartimenti o vari database, questo è particolarmente vero per le grandi aziende legacy. Uno dei principali ostacoli per i data scientist è ottenere dati rilevanti sotto lo stesso tetto per costruire modelli da utilizzare in produzione.. Nel caso di Azure, tutti questi dati vengono spostati in un data lake, la manipolazione dei dati può essere eseguita utilizzando i gruppi SQL o Spark, pulizia dei dati, pre-elaborazione del modello, costruzione di modelli utilizzando cluster di test (basso costo), monitoraggio del modello, modello di equità, deriva dei dati e implementazione del cluster (costo scalabile più elevato). Il data scientist può concentrarsi sulla risoluzione dei problemi e lasciare che sia Azure a fare il lavoro pesante.

Un altro scenario di caso d'uso è il monitoraggio del modello utilizzando mlflow (Progetto open source Databricks). Chiunque abbia partecipato a un hackathon DS sa che il monitoraggio dei modelli, la registrazione delle metriche e il confronto dei modelli è un compito noioso, se non hai configurato una pipeline. In Azzurro, tutto questo è facilitato attraverso l'uso di esperimenti chiamati, tutti i modelli sono registrati, le metriche sono registrate, gli artefatti vengono registrati, tutto utilizzando una singola riga di codice.

Informazioni su Azure DP-100

Azure DP-100 (Progetta e implementa una soluzione di data science su Azure) è la certificazione di data science di Microsoft per tutti gli appassionati di dati. È un'esperienza di apprendimento autodidatta, con libertà e flessibilità. Dopo il completamento, si può lavorare in blu senza problemi e costruire modelli, monitorare gli esperimenti, costruire tubi, regolare gli iperparametri e Cammino AZZURRO.

Requisiti

  1. Conoscenza base di Python, dopo averci lavorato almeno per 3-6 mesi, rende facile la preparazione per l'esame.
  2. Conoscenza di base dell'apprendimento automatico. Questo aiuta a comprendere i codici e a rispondere alle domande sull'AA durante l'esame..
  3. Avendo lavorato sul laptop Jupyter o sul laboratorio Jupyter, questo non è un mandato, poiché tutti i laboratori sono sul laptop jupyter, è facile lavorare con loro.
  4. La conoscenza di Databricks e mlflow può essere sfruttata per ottenere punteggi dei test migliori. A partire da luglio 2021, questi concetti sono inclusi in DP-100.
  5. Rs. 4500 tasse d'esame.
  6. Registrati per un account Azure gratuito, riceverai crediti da 13.000 rupie con cui puoi esplorare Azure ML. Questo è più che sufficiente. Ma Azure ML è gratuito solo per i primi 30 giorni. Quindi fai buon uso di questo abbonamento.
  7. La cosa più importante è fissare la data dell'esame entro 30 giorni da oggi, pagalo, questo serve come un buon motivatore.
48761dp_100-1372277

Pagina esame Dp 100

46256dp_100_2-1996131
Sito web di Azure

Ne vale la pena?

Il costo dell'esame è di circa 4.500 rupie e non molte aziende si aspettano una certificazione durante il reclutamento, è bello averlo, ma molti, né i reclutatori lo richiedono né lo sanno, allora sorge la domanda: Vale la pena pagare?? Ne vale la pena i miei fine settimana?? La risposta è si, solo perché, anche se uno potrebbe essere un ottimo insegnante di machine learning o un esperto di Python, ma il funzionamento interno di Azure è specifico di Azure, molti metodi sono specifici di Azure per favorire il miglioramento delle prestazioni. Non puoi semplicemente scaricare un codice Python e aspettarti che offra prestazioni ottimali. Molti processi sono automatizzati in azzurro, ad esempio: il modulo automl crea modelli con una sola riga di codice, l'ottimizzazione degli iperparametri richiede una riga di codice. No ML Code è un altro strumento di trascinamento della selezione che rende la creazione di modelli un gioco da ragazzi. Contenitori / Conservazione / caveau delle chiavi / spazio di lavoro / esperimenti / sono tutti strumenti e tipi specifici di blu. Quando si creano istanze di calcolo, lavorare con la pipeline, mlflow aiuta anche a comprendere i concetti di Mlops. Sicuramente un vantaggio se lavori in Azure e vuoi esplorare il nocciolo della questione. Generalmente, le ricompense superano lo sforzo.

Preparazione

  1. L'esame si basa su MCQ con around 60 un 80 domande e il tempo previsto è 180 minuti. Questa volta è più che sufficiente per completare e rivedere tutte le domande.
  2. Vengono poste due domande di laboratorio o domande di tipo case study e queste sono domande obbligatorie e non possono essere saltate.
  3. È un test supervisionato, quindi assicurati di prepararti per l'esame.
  4. Microsoft cambia il modello circa due volte l'anno, quindi è meglio controllare l'aggiornamento modello d'esame.
  5. È più facile se la preparazione all'esame è divisa in 2 Passi, teoria e laboratorio.
  6. La teoria è abbastanza dettagliata e hai bisogno almeno 1-2 settimane di preparazione e revisione. Tutte le domande teoriche possono essere studiate da documenti Microsoft. Sarà sufficiente uno studio dettagliato di questi documenti..
  7. Questo sezione importante costituisce il maggior numero di domande – Crea e gestisci soluzioni di machine learning con Azure Machine Learning.
  8. Anche i laboratori sono importanti. Anche se non verranno poste domande pratiche di laboratorio, è utile comprendere classi e metodi specifici di Azure. E queste costituiscono la maggior parte delle domande.
  9. Non verranno poste domande sull'apprendimento automatico, ad esempio, non chiederà qual è il punteggio R2. Quello che potresti chiedere è come registrare il punteggio R2 per un esperimento. Quindi, L'app ML su Azure dovrebbe essere al centro dell'attenzione.
  10. Microsoft fornisce una guida con istruttore. corso a pagamento anche per DP-100. Non vedo la necessità di affrontare questo, poiché tutto è fornito nei documenti MS.
  11. Laboratori pratici, di 14, esercitati almeno una volta per acquisire familiarità con l'area di lavoro di Azure.
  12. Ripassa la teoria prima di sostenere gli esami, per non essere confuso durante l'esame.

Abilità misurate:

  • Configurare un'area di lavoro di Azure Machine Learning
  • Esegui esperimenti e addestra modelli
  • Ottimizza e gestisci i modelli
  • Distribuire e consumare modelli

Clona il repository per esercitarti con i laboratori di Azure:

git clone https://github.com/microsoftdocs/ml-basics

Alcuni metodi / importanti classi di Azure:

## per creare spazio di lavoro
ws = Workspace.get(nome="aml-workspace",
                   sottoscrizione_id='1234567-abcde-890-fgh...',
                   resource_group='aml-resources')
## modello di registro
modello = Modello.register(area di lavoro=ws,
nome_modello="classificazione_modello",

model_path="modello.pkl", # percorso locale

description='Un modello di classificazione',

tag={'formato dei dati': "CSV"},

model_framework=Model.Framework.SCIKITLEARN,

model_framework_version='0.20.3')




## Esegui un file .py in una pipeline

step2 = PythonScriptStep(nome="modello di treno",

                         source_directory = 'script',

                         script_name="train_model.py",

                         compute_target="aml-cluster")




# Definire la configurazione del passo della corsa parallela

parallel_run_config = ParallelRunConfig(

    source_directory='batch_script',

    entry_script="batch_scoring_script.py",

    mini_batch_size="5",

    error_threshold=10,

    output_action="append_row",

    ambiente=batch_env,

    compute_target=aml_cluster,

    node_count=4)

# Crea il passaggio della corsa parallela

parallelrun_step = ParallelRunStep(

    nome="punteggio batch",

    parallel_run_config=parallel_run_config,

    ingressi=[batch_data_set.as_named_input('batch_data')],

    output=output_dir,

    argomenti=[],

    allow_reuse=Vero

)

Alcuni concetti importanti (non un elenco esaustivo):

  1. Crea un cluster di calcolo per test e produzioni
  2. Creare passaggi della pipeline
  3. Connetti il ​​cluster Databricks all'area di lavoro di Azure Machine Learning
  4. Metodo di ottimizzazione degli iperparametri
  5. Lavora con i dati: set di dati e data warehouse
  6. Deriva del modello
  7. Privacy differenziale
  8. Rileva l'ingiustizia del modello (Domande MCQ)
  9. Spiegazioni del modello usando shap spiegatore.
  10. Metodo da ricordare
    1. Scriptrunconfig
    2. Dati pipeline
    3. ParallelRunConfig
    4. Endpoint della pipeline
    5. EseguiConfigurazione
    6. dentro () correre ()
    7. InviatoPipeline
    8. ComputeTarget.attach
    9. metodi del set di dati / archivio dati

Sessione di preparazione all'esame DP-100 di Azure

Area di lavoro di Azure Machine Learning:

84263dp_100_1-3541135

Azure Databricks crea un cluster:

86492dp_100_3-8116125

Azure Designer:

81672dp_100_4-7365021

giorno dell'esame

  1. Assicurati di testare il tuo sistema il giorno prima. I laptop da lavoro a volte causano problemi, quindi è meglio usare laptop personali.
  2. I libri non sono ammessi / documenti / penne o altri articoli di cancelleria.
  3. Il supervisore esegue i controlli di base iniziali e consente di iniziare l'esame.
  4. Una volta che l'esame è stato presentato, i punteggi vengono forniti sullo schermo e poi in un'e-mail. Quindi non dimenticare di controllare la tua posta.
  5. La certificazione è valida solo per 2 anni.

Buona fortuna! Il tuo prossimo obiettivo dovrebbe essere DP-203 (Ingegneria dei dati in Microsoft Azure).

ecco il mio Linkedin profilo nel caso tu voglia connetterti con me. Sarò felice di essere connesso con te. Me Insegne di Azure DS.

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.