quinta-feira, 8 de novembro de 2012

Limpeza de dados em um Data Warehouse


Um armazém de dados armazena enormes quantidades de dados históricos extraídos de diversas bases de dados individuais. Os armazéns de dados são utilizados principalmente para decisões estratégicas, sendo um exemplo, a determinação de promoções para oferecer aos clientes que residem em um determinado código postal.

Devido ao fato de que os dados são extraídos de várias bases de dados, é preciso haver um padrão uniforme de representação de dados e semântica em um data warehouse. Em outras palavras, "sujos" de bases de dados precisa ser "limpo" antes de ser consolidadas em um armazém de dados.

Para ilustrar alguns exemplos de dados sujos, vamos considerar os dados armazenados em bases de dados Y e Z.

Várias normas:

Y contém 1 centímetro. Z contém 0,3937 polegadas.

Por favor, note um centímetro = 0.3937 polegadas

Equivalência semântica:

Y contém Philly. Z contém Philadelphia.

Y contém Robert. Z contém Bob.

Y contém Mumbai. Z contém Bombaim.

Abreviaturas:

Y contém "Lake Drive Michigan." Z contém "L. Michigan Dr."

O uso inconsistente de códigos:

Y usa "M" ou "F" para denotar gênero. Z usa "0" ou "1".

Informações incorretas:

Y contém "31 de fevereiro", como uma data.

Como notado nos exemplos acima, existe um grande número de possibilidades de dados que estão sujos e, portanto, não existe um limpador de dados simples que pode ser utilizado em todas as situações. Produtos de limpeza não podem ser totalmente automatizada, uma vez que não é possível de modo a incluir todas as possibilidades. Tome Mumbai e Bombay como um exemplo. Uma pessoa que supervisiona as atividades de limpeza precisa estar ciente dos detalhes geográficos relevantes. Simplesmente não há solução one-size-fits-all.

A melhor maneira de criar um produto de limpeza é a realização de análise ou seja, entender o contexto de dados. Com base na análise, regras de transformação precisa ser criado para transformar dados sujos para limpar os dados. Estas regras de transformação, então precisam ser verificados em amostras de dados para garantir que as regras funcionam como pretendido.

Após a limpeza final é realizada, a intervenção humana é sempre recomendável para garantir que nenhum dados sujos foi copiado para data warehouse....

Nenhum comentário:

Postar um comentário