Ciência de Dados

Como utilizar Data Lake?

26 de abril de 2022

[vc_row][vc_column][vc_column_text]Para entender como utilizar o Data Lake no seu negócio, vamos à uma alegoria:

Imagine que você é dono de um grande restaurante e, dentro desse restaurante, existe um armazém onde todos os milhares de alimentos (frutas, legumes, carnes, ingredientes e etc.) serão armazenados antes de serem limpos, tratados, separados e organizados para a produção dos pratos do restaurante. Na cozinha, cada cozinheiro irá pegar somente os produtos que serão utilizados na produção dos seus pratos, de acordo com a área da culinária (Italiana, Brasileira, Americana e etc.).

[adrotate banner=”10″]

É assim que funciona um Data Lake. Ele é como um grande armazém onde são inseridos dados de várias fontes diferentes no seu estado bruto em grande volume, e que serão utilizados pelas áreas e profissionais distintos de acordo com suas necessidades.

Neste artigo, iremos entender como utilizar Data Lake e por que ele é considerado uma ótima opção quando nos referimos a um grande volume de dados e suas diferentes estruturas e tipos de dados.

Formas de utilização

Para que possamos entender a melhor forma de utilizar o Data Lake, vamos imaginar um local onde você precisa armazenar vários tipos de dados nas mais diversas estruturas: tabelas; músicas; imagens; arquivos .JSON, .PDF, .CSV; entre vários outros tipos de dados que serão utilizados pelos mais diversos setores da empresa. Eles irão servir como um grande repositório de dados, todos em estado bruto.

Além disso, outro ponto importante da necessidade da utilização do Data Lake é que ele fará com que você evite realizar consultas ou modelagem diretamente no banco de dados. Isso porque realizar essas ações diretamente no banco podem ocasionar problemas de performance para o usuário ou até a queda do sistema.

Assim, iremos mostrar exemplos de onde o Data Lake deve ser utilizado e onde não tem necessidade.

Exemplo 1 – Empresa 1

O dono de um pequeno comércio pediu para que você fizesse uma análise dos dados de sua empresa. A empresa possui cerca de 20 funcionários, um sistema de ERP, CRM e algumas planilhas de Excel. Os dados a serem tratados e analisados serão os dados de movimentação de compras e vendas (Comercial), do investimento realizado nas campanhas de divulgação da empresa (Marketing) e dos custos internos, que envolvem folha de pagamento e alguns custos de manutenção (manutenção e RH).

Essa empresa necessita de um Data Lake na construção de sua arquitetura de dados?

A resposta é não, e então você pode perguntar: “Por que não? Eu não poderia colocar um Data Lake mesmo com um pequeno volume de dados?”

E a resposta é sim. Porém, neste caso não seria um Data Lake, o ideal seria um Data Warehouse. Devemos lembrar que Data Lake não é uma ferramenta ou uma tecnologia, mas sim um conceito de como organizar um repositório de dados. O conceito de Data Lake envolve o armazenamento de dados quando nos referimos a Big Data. Ou seja, um grande volume com uma variedade enorme de tipos de dados.

No caso explicado acima, temos somente sistemas que virão em formato estruturado (tabelas) e em arquivos Excel (que também são tabelas). Ou seja, qual a necessidade de um Data Lake? Nenhuma

Exemplo 2 – Empresa 2

Uma grande empresa do ramo automobilístico precisa acompanhar de hora em hora o desempenho dos setores da sua empresa (como vendas, SAC, financeiro, RH, Marketing e logística de todas as suas 50 lojas no Brasil). Nesta realidade, teremos arquivos de vários tipos, como bancos de dados, sistemas, áudio de clientes, imagens de peças, arquivos JSON, PDF de notas fiscais e APIs com grande volume de dados.

Dessa forma, a empresa precisa desses dados organizados sem tratamento. Ou seja, em sua forma bruta em um repositório onde os analistas e cientistas de dados de cada setor poderão criar suas próprias consultas para acompanhar o desempenho dos setores. Neste caso, a necessidade do Data Lake aparece de forma mais clara, certo?

Basicamente, o Data Lake entra quando a variedade e o volume são muito grandes e a estrutura tradicional somente com Data Warehouse não será suficiente. Entretanto, isso não impede, por exemplo, que dentro de uma arquitetura não possamos ter um Data Lake e em seguida um Data Warehouse.

Assim, podemos deixar o Data Lake para quem deseja conseguir os dados de forma bruta e realizar suas próprias consultas. E o Data Warehouse para quem quer algo já tratado, padronizado de acordo com as regras de negócio.

Conclusão

Após alguns exemplos, conseguimos perceber que, mesmo com nomes parecidos e algumas similaridades, a forma de utilizar Data Lake tem o objetivo de atender a uma camada diferente quando nos referimos a dados. Ele possui suas próprias características que devem ser usadas de forma correta nos projetos que, assim necessitem, da sua estrutura.

[adrotate banner=”5″][/vc_column_text][/vc_column][/vc_row]

Imagem padrão

Autor

Daniel Ribeiro

Artigos relacionados

Receba nossa
newsletter

Assine nossa newsletter e receba as últimas
novidades sobre o mundo da tecnologia.

    Eu autorizo a Luby a usar meus dados para o envio de conteúdos personalizados.