Ciclo de vida e normalização de um banco de dados no contexto de big data

Conteúdo

Big data apresenta novos desafios para o gerenciamento de dados que vão além do gerenciamento de big data. Um desafio muitas vezes esquecido é o ciclo de vida e a normalização de um banco de dados nesse contexto de big data..

istock-654067526-5806779

Créditos fotográficos: iLexx

Gestão de dados, da fonte de dados e seus resultados, neste tipo de banco de dados apresenta grandes desafios. o comparação do ciclo de vida e normalização de um banco de dados tradicional com big data ajuda a entender um dos desafios de governança de dados mais complexos neste novo mundo de dados.

As etapas do ciclo de vida dos dados

UMA ciclo de vida dos dados normalmente consiste em quatro etapas:

  1. Ingestão. não consigo pensar nele ciclo de vida e normalização de um banco de dados sem começar do começo, momento em que as diferentes fontes de dados são incorporadas à plataforma de dados. Nesta fase também é comum encontrar processos de verificação e validação de dados básico, mesmo que o principal no momento seja apagar todos os dados disponíveis em um local central (que pode ser um armazenamento de dados, um data warehouse ou data lake).
  2. EU IRIA / Limpeza / Enriquecimento. Os tipos de dados e os nomes com os quais aparecem nas colunas são reconhecidos. Nesta fase, Os dados também podem ser enriquecidos e limpos.
  3. estandardização. Esta etapa envolve a transformação dos dados em um modelo de dados neutro comercialmente acordado. Aqui, relacionamentos são estabelecidos entre diferentes entidades de dados, essencialmente codificando o conhecimento interno e a estrutura dos dados. Essa fase também é conhecida como fase de integração de dados e coincide com o momento em que as regras de negócios são regularmente introduzidas e verificações de domínio, bem como validação de dados mestre ou de referência
  4. Apresentação. É a etapa final do procedimento., quando a transformação do modelo de negócios neutro criado na etapa anterior para uma ou mais representações de dados específicas da empresa estiver concluída. Este modelo é frequentemente chamado de modelo dimensional. É comum que regras de negociação adicionais sejam aplicadas neste momento, bem como agregações e a criação de dados derivados.
  5. Contorno na leitura / esquema por escrito. Você não pode falar sobre todo o ciclo de vida dos dados sem mencionar quando é usado pelo usuário. Uma das principais diferenças entre o armazenamento de dados tradicional e o armazenamento de big data é o ponto em que o usuário final interage com as informações.. Por isso, enquanto no ambiente de armazenamento de dados tradicional, o consumidor geralmente usaria um esquema de write-over bem definido, Plataformas de BI e soluções de análise avançada podem consumir dados da camada de apresentação para fornecer relatórios, painéis e análises preditivas, permitindo que o consumidor de dados acesse os dados muito mais cedo.

Ciclo de vida e normalização de um banco de dados em ambientes de Big Data

Ao considerar o ciclo de vida e normalização de um banco de dados, tudo relacionado ao uso da informação é decisivo, tanto em termos de processamento como em relação ao custo do ciclo de vida dos dados. Especificamente:

  1. E Big Data, os dois primeiros estágios são de alto volume e baixo custo e esforço.. Os dados são abundantes e baratos, e ingestão, identificação e limpeza de dados é relativamente simples. Apesar disto, o desafio está na gestão de Big Data. A dificuldade dos dois últimos processos do ciclo de vida e a normalização de uma base de dados tem a ver com a criação de sentido. de um conjunto de dados tão grande e amplamente desorganizado (esquema de leitura).
  2. Em um ambiente tradicional, pelo contrário, O armazenamento de dados precisa de um esforço considerável para garantir a qualidade dos dados ingeridos e para transformar os dados em modelos de dados adequados. (escrevendo esboço). Algo que se estende à aplicação consistente de regras de negócios. Apesar disto, como todos os consumidores têm a mesma visão do universo de dados, o desempenho da consulta é bastante alto e a capacidade de consulta do usuário é beneficiada. A densidade do valor dos dados é muito maior do que em ambientes de big data. Aqui, cada linha tem um valor intrínseco.

Finalmente, em assuntos associados ao ciclo de vida e padronização de um banco de dados, você precisa prestar atenção agilidade. E isso é algo inerente ao big data. Embora os data warehouses sejam notoriamente difíceis, demorado e caro para modificar, os consumidores de dados definem seus próprios critérios e cronogramas em um mundo de big data.

(função(d, s, Eu iria) {
var js, fjs = d.getElementsByTagName(s)[0];
E se (d.getElementById(Eu iria)) Retorna;
js = d.createElement(s); js.id = id;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&status = 0”;
fjs.parentNode.insertBefore(js, fjs);
}(documento, 'roteiro', 'facebook-jssdk'));

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.