Roteiro para passar no exame de DP do Microsoft Azure 100

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon

Ciência de dados, aprendizado de máquina, MLops, engenharia de dados, todas essas fronteiras de dados avançam com velocidade e precisão. O futuro da ciência de dados é definido por empresas maiores como a Microsoft, Amazonas, Databricks, O Google e essas empresas estão impulsionando a inovação neste campo. Por causa dessas mudanças rápidas, faz sentido obter a certificação de qualquer um desses grandes jogadores e aprender sobre a oferta de seus produtos. O que mais, com as soluções ponta a ponta fornecidas por essas plataformas, de lagos de dados escaláveis ​​a clusters escaláveis, para teste e produção, tornando a vida mais fácil para profissionais de dados. De uma perspectiva de negócios, tem toda a infraestrutura sob o mesmo teto, na nuvem e sob demanda, e mais e mais empresas estão se inclinando ou, O que mais, são forçados a se mover para a nuvem devido à pandemia em curso.

Como o DP-100 ajuda (Projetar e implementar uma solução de ciência de dados no Azure) para um cientista de dados ou qualquer pessoa que trabalhe com dados?

Em resumo, empresas coletam dados de várias fontes, aplicativos móveis, Sistemas POS, ferramentas internas, máquinas, etc., e todos estes estão em vários departamentos ou bancos de dados, isso é especialmente verdadeiro para grandes empresas legadas. Um dos principais obstáculos para os cientistas de dados é obter dados relevantes sob o mesmo teto para construir modelos para uso na produção.. No caso do Azure, todos esses dados são movidos para um data lake, a manipulação de dados pode ser feita usando grupos SQL ou Spark, limpeza de dados, modelo de pré-processamento, construir modelos usando clusters de teste (baixo custo), monitoramento de modelo, equidade do modelo, Desvio e implantação de dados usando cacho (custo escalável mais alto). O cientista de dados pode se concentrar na resolução de problemas e deixar o Azure fazer o trabalho pesado.

Outro cenário de caso de uso é o rastreamento de modelo usando mlflow (Projeto de código aberto Databricks). Qualquer pessoa que tenha participado de um hackathon do DS conhece o rastreamento de modelos, registrar métricas e comparar modelos é uma tarefa tediosa, se você não configurou um pipeline. No Azure, tudo isso é facilitado pelo uso de experimentos chamados, todos os modelos são registrados, as métricas são registradas, artefatos são registrados, tudo usando uma única linha de código.

Sobre o Azure DP-100

Azure DP-100 (Projetar e implementar uma solução de ciência de dados no Azure) é a certificação de ciência de dados da Microsoft para todos os entusiastas de dados. É uma experiência de aprendizado individualizada, com liberdade e flexibilidade. Após a conclusão, pode-se trabalhar em azul sem problemas e construir modelos, rastrear experimentos, construir tubos, ajustar hiperparâmetros e Camino AZUR.

Requisitos

  1. Conhecimento básico de Python, depois de ter trabalhado nisso por pelo menos 3-6 meses, torna mais fácil se preparar para o exame.
  2. Conhecimento básico de aprendizado de máquina. Isso ajuda a entender os códigos e responder a perguntas sobre AA durante o exame..
  3. Tendo trabalhado no laptop Jupyter ou no laboratório Jupyter, isto não é um mandato, já que todos os laboratórios estão no laptop jupyter, é fácil trabalhar com eles.
  4. Conhecimento de Databricks e mlflow pode ser aproveitado para obter melhores pontuações de teste. A partir de julho 2021, esses conceitos estão incluídos no DP-100.
  5. Rs. 4500 taxas de exame.
  6. Inscreva-se para uma conta gratuita do Azure, você receberá créditos de 13.000 rúpias com as quais você pode explorar o Azure ML. Isso é mais que suficiente. Mas o Azure ML é gratuito apenas para os primeiros 30 dias. Portanto, faça bom uso desta assinatura.
  7. O mais importante é definir a data do seu exame dentro de 30 dias a partir de hoje, pague, isso serve como um bom motivador.
48761dp_100-1372277

Página de exame Dp 100

46256dp_100_2-1996131
Site do Azure

Vale a pena?

O custo do exame é de aproximadamente 4.500 rúpias e poucas empresas esperam uma certificação durante o recrutamento, é bom ter isso, mas muitos, nem os recrutadores exigem nem sabem disso, então surge a questão: Vale a pena pagar? Vale a pena meus finais de semana? A resposta é sim, só porque, embora alguém possa ser um ótimo professor de aprendizado de máquina ou especialista em Python, mas o funcionamento interno do Azure é específico para o Azure, muitos métodos são específicos para o Azure para impulsionar melhorias de desempenho. Você não pode simplesmente descartar um código Python e esperar que ele forneça um desempenho ideal. Muitos processos são automatizados no azul, por exemplo: módulo automl cria modelos com apenas uma linha de código, o ajuste de hiperparâmetros requer uma linha de código. No ML Code é outra ferramenta de arrastar e soltar que torna a construção de modelos uma brincadeira de criança. Containers / armazenar / cofres-chave / local de trabalho / experimentos / todos são ferramentas e tipos específicos de azul. Ao criar instâncias de computação, trabalhar com o pipeline, mlflow também ajuda a entender os conceitos de Mlops. Definitivamente, uma vantagem se você estiver trabalhando no Azure e quiser explorar os detalhes essenciais. Em geral, as recompensas superam o esforço.

Preparação

  1. O exame é baseado em MCQ com cerca de 60 uma 80 perguntas e o tempo fornecido é 180 minutos. Este tempo é mais do que suficiente para completar e revisar todas as questões.
  2. Duas perguntas de laboratório ou perguntas do tipo estudo de caso são feitas e essas são perguntas obrigatórias e não podem ser ignoradas.
  3. É um teste supervisionado, então certifique-se de se preparar para o exame.
  4. A Microsoft muda o padrão cerca de duas vezes por ano, então é melhor verificar a atualização padrão de exame.
  5. É mais fácil se a preparação para o exame for dividida em 2 Passos, teoria e laboratório.
  6. A teoria é bastante detalhada e você precisa de pelo menos 1-2 semanas de preparação e revisão. Todas as questões teóricas podem ser estudadas a partir de documentos da microsoft. Um estudo detalhado desses documentos será suficiente..
  7. Está seção importante constitui o maior número de questões – Crie e opere soluções de aprendizado de máquina com o Azure Machine Learning.
  8. Os laboratórios também são importantes. Embora nenhuma pergunta prática de laboratório seja feita, é útil entender as classes e métodos específicos do Azure. E essas constituem a maioria das perguntas.
  9. Nenhuma pergunta sobre aprendizado de máquina será feita, por exemplo, não vai perguntar qual é a pontuação do R2. O que você pode perguntar é como registrar a pontuação do R2 para um experimento. Então, O aplicativo de ML no azul deve ser o foco.
  10. A Microsoft fornece um guia conduzido por instrutor. curso pago também para DP-100. Não vejo necessidade de resolver isso, uma vez que tudo é fornecido nos documentos do MS.
  11. Laboratórios Práticos, ao redor de 14, pratique pelo menos uma vez para se familiarizar com o espaço de trabalho do Azure.
  12. Revise a teoria antes de fazer os exames, para não ser confundido durante o exame.

Habilidades avaliadas:

  • Configurar um espaço de trabalho do Azure Machine Learning
  • Faça experimentos e treine modelos
  • Otimize e gerencie modelos
  • Implantar e consumir modelos

Clone o repositório para praticar o azure labs:

https clone git://github.com/microsoftdocs/ml-basics

Alguns métodos / classes importantes do Azure:

## para criar espaço de trabalho
ws = Workspace.get(nome ="aml-workspace",
                   subscription_id = '1234567-abcde-890-fgh ...',
                   resource_group = 'aml-resources')
## modelo de registro
model = Model.register(espaço de trabalho = ws,
model_name ="classificação_modelo",

model_path ="model.pkl", # caminho local

descrição = 'Um modelo de classificação',

tags ={'formato de dados': 'CSV'},

model_framework = Model.Framework.SCIKITLEARN,

model_framework_version = '0.20.3')




## Execute um arquivo .py em um piepeline

etapa 2 = PythonScriptStep(nome ="modelo de trem",

                         source_directory = 'scripts',

                         script_name ="train_model.py",

                         compute_target ="aml-cluster")




# Defina a configuração da etapa da etapa de execução paralela

parallel_run_config = ParallelRunConfig(

    source_directory = 'batch_scripts',

    entry_script ="batch_scoring_script.py",

    mini_batch_size ="5",

    limite_de_erro = 10,

    output_action ="append_row",

    ambiente = batch_env,

    compute_target = aml_cluster,

    node_count = 4)

# Crie a etapa de execução paralela

parallelrun_step = ParallelRunStep(

    nome ="pontuação do lote",

    parallel_run_config = parallel_run_config,

    entradas =[batch_data_set.as_named_input('batch_data')],

    output = output_dir,

    argumentos =[],

    allow_reuse = True

)

Alguns conceitos importantes (não é uma lista exaustiva):

  1. Crie um cluster de computação para testes e produções
  2. Criar etapas de pipeline
  3. Conecte o cluster Databricks ao espaço de trabalho do Azure ML
  4. Método de ajuste de hiperparâmetros
  5. Trabalhe com dados: conjuntos de dados e data warehouse
  6. Deriva do modelo
  7. Privacidade diferencial
  8. Detecte a injustiça do modelo (Perguntas MCQ)
  9. Explicações do modelo usando o explicador de forma.
  10. Método para lembrar
    1. Scriptrunconfig
    2. PipelineData
    3. ParallelRunConfig
    4. PipelineEndpoint
    5. RunConfiguration
    6. iniciar () corre ()
    7. PostedPipeline
    8. ComputeTarget.attach
    9. Métodos de conjunto de dados / banco de dados

Sessão de preparação para o exame Azure DP-100

Espaço de trabalho do Azure Machine Learning:

84263dp_100_1-3541135

Azure Databricks Criar um cluster:

86492dp_100_3-8116125

Azure Designer:

81672dp_100_4-7365021

Dia de prova

  1. Certifique-se de testar seu sistema no dia anterior. Laptops de trabalho às vezes causam problemas, então é melhor usar laptops pessoais.
  2. Livros não são permitidos / papéis / canetas ou outros artigos de papelaria.
  3. O inspetor realiza as verificações básicas iniciais e permite que você inicie o exame.
  4. Assim que o exame for enviado, as pontuações são fornecidas na tela e, em seguida, por e-mail. Portanto, não se esqueça de verificar seu e-mail.
  5. A certificação é válida apenas para 2 anos.

Boa sorte! Seu próximo objetivo deve ser DP-203 (Engenharia de dados no Microsoft Azure).

Aqui está o meu Linkedin perfil caso você queira se conectar comigo. Ficarei feliz em estar conectado com você. Mim Insignia de Azure DS.

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.