Validação e verificação de dados

Compartilhar no Facebook
Compartilhar no Twitter
Compartilhar no LinkedIn
Compartilhar no telegrama
Compartilhar no Whatsapp

Conteúdo

Introdução

Muitas vezes, usamos verificação de dados e validação de dados de forma intercambiável quando se trata de qualidade de dados. Porém, esses dois termos são diferentes. Neste artigo, vamos entender a diferença em 4 contextos diferentes:

  1. Dicionário de significado de verificação e validação
  2. Diferença entre verificação de dados e validação de dados em geral
  3. Diferença entre verificação e validação de uma perspectiva de desenvolvimento de software
  4. Diferença entre verificação e validação de dados de uma perspectiva de aprendizado de máquina

1) Dicionário de significado de verificação e validação

A bordo 1 explica o significado do dicionário das palavras verificação e validação com alguns exemplos.

screenshot-from-2021-03-08-17-04-09-e1615203319373-4126887

Em resumo, verificação é sobre veracidade e precisão, enquanto a validação é sobre como apoiar a solidez de um ponto de vista ou a precisão de uma afirmação. A validação verifica a precisão de uma metodologia, enquanto a verificação verifica a precisão dos resultados.

2) Diferença entre verificação de dados e validação de dados em geral

Agora que entendemos o significado literal das duas palavras, vamos explorar a diferença entre “verificação de dados” e “data de validade”.

Verificação de dados: para garantir que os dados sejam precisos.

Data de validade: para se certificar de que os dados estão corretos.

Vamos desenvolver com exemplos na Tabela 2.

76972table2-9093822

Tabela 2: “Verificação de dados” e “data de validade” exemplos

3) Diferença entre verificação e validação de uma perspectiva de desenvolvimento de software

De uma perspectiva de desenvolvimento de software,

  • A verificação é feita para garantir que o software é de alta qualidade, bem desenhado, robusto e sem erros sem entrar em sua usabilidade.
  • A validação é feita para garantir a usabilidade e a capacidade do software de atender às necessidades do cliente.

Como mostra a imagem 1, prova de correção, análise de robustez, testes de unidade, testes de integração e outros são todos Verifica Etapas onde as tarefas são orientadas para verificar detalhes. A saída do software é verificada com a saída desejada. Por outro lado, inspeção de modelo, teste de caixa preta e teste de usabilidade são todos validação Etapas onde as tarefas são orientadas para entender se o software atende aos requisitos e expectativas.

16417fig1-8538128

FIG 1: Diferenças entre verificação e validação no desenvolvimento de software

4) Diferença entre verificação e validação de dados de uma perspectiva de aprendizado de máquina

O papel de verificação de dados no processo de aprendizado de máquina, é o de um porteiro. Isso garante dados precisos e atualizados ao longo do tempo. A verificação de dados é feita principalmente na nova fase de aquisição de dados, quer dizer, no passo 8 do pipeline de ML, como mostrado na Fig. 2. Exemplos dessa etapa são identificar registros duplicados e realizar a desduplicação, e eliminar a discrepância nas informações do cliente em campos como endereço ou número de telefone.

Por outro lado, data de validade (no passo 3 do pipeline de ML) garante que os dados incrementais da etapa 8 adicionados aos dados de aprendizagem são de boa qualidade e semelhantes (de uma perspectiva de propriedades estatísticas) aos dados de treinamento existentes. Por exemplo, isso inclui encontrar anomalias nos dados o detectando diferenças entre os dados de treinamento existentes e os novos dados para adicionar aos dados de treinamento. Pelo contrário, quaisquer problemas de qualidade de dados / diferenças estatísticas nos dados incrementais podem ser perdidas e o treinamento erros podem se acumular com o tempo e deteriorar a precisão do modelo. Por tanto, a validação de dados detecta mudanças significativas (sim, existem) em dados de treinamento incrementais em um estágio inicial que ajuda na análise de causa raiz.

69253fig2-9964897
FIG 2: Componentes do pipeline de aprendizado de máquina

Autores:

1. Aditya Agarwal: Aditya Aggarwal é ciência de dados – Líder de prática na Abzooba Inc. Mais do que 12 anos de experiência na condução de metas de negócios por meio de soluções baseadas em dados, Aditya é especialista em análise preditiva, aprendizado de máquina, inteligência de negócios e estratégia de negócios. em uma variedade de indústrias. Como Líder de Prática de Análise Avançada na Abzooba, Aditya lidera uma equipe de mais de 50 Profissionais de ciência de dados enérgicos da Abzooba que estão resolvendo problemas de negócios interessantes usando o aprendizado de máquina, aprendizado profundo, processamento de linguagem natural e visão computacional. Fornece liderança de pensamento de IA para clientes para traduzir seus objetivos de negócios em problemas analíticos e soluções baseadas em dados. Sob sua liderança, várias organizações automatizaram tarefas de rotina, reduziram os custos operacionais, aumentou a produtividade da equipe e melhorou a receita superior e inferior. Você criou soluções como o motor de substituição, o mecanismo de recomendação de preço, manutenção preditiva do sensor IoT e muito mais. Aditya é Bacharel em Tecnologia e Bacharel em Administração de Empresas pelo Instituto Indiano de Tecnologia (IIT), Délhi.

2. Dr. Coelho Bose: O médico. Arnab Bose é diretor científico da Abzooba, uma empresa de análise de dados, e professor adjunto da Universidade de Chicago, onde ele ensina aprendizado de máquina e análise preditiva, operações de aprendizado de máquina, Análise e previsão de séries temporais e análises de saúde no programa de Mestrado em Análise. Ele é um veterano da indústria de análise preditiva de 20 anos desfrutando do uso de dados estruturados e não estruturados para prever e influenciar os resultados comportamentais na área de saúde, retalho, finanças e transporte. Suas áreas de foco atuais incluem estratificação de risco à saúde e gerenciamento de doenças crônicas usando aprendizado de máquina., e implantação de produção e monitoramento de modelos de aprendizado de máquina. Arnab publicou capítulos de livros e artigos referenciados em várias conferências e revistas do Instituto de Engenheiros Elétricos e Eletrônicos (IEEE). Recebeu a Melhor Apresentação na American Control Conference e ministrou palestras sobre análise de dados em universidades e empresas nos Estados Unidos.. UU., Austrália e Índia. Arnab tem mestrado e doutorado. graduado em engenharia elétrica pela University of Southern California, e um B.Tech. em engenharia elétrica do Instituto Indiano de Tecnologia em Kharagpur, Índia.

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.