Personalize as preferências de consentimento
Utilizamos cookies para ajudá-lo a navegar com eficiência e executar determinadas funções. Você encontrará informações detalhadas sobre todos os cookies em cada categoria de consentimento abaixo.

Os cookies categorizados como “Necessários” são armazenados no seu navegador, pois são essenciais para ativar as funcionalidades básicas do site.

Também utilizamos cookies de terceiros que nos ajudam a analisar como você usa este site, armazenam suas preferências e fornecem conteúdo e anúncios que são relevantes para você. Estes cookies só serão armazenados no seu navegador com o seu consentimento prévio.

Você pode optar por ativar ou desativar alguns ou todos esses cookies, mas a desativação de alguns deles pode afetar sua experiência de navegação.
Sempre ativo

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Não há cookies para exibir.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Não há cookies para exibir.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Não há cookies para exibir.

Performance cookies are used to understand and analyse the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Não há cookies para exibir.

Advertisement cookies are used to provide visitors with customised advertisements based on the pages you visited previously and to analyse the effectiveness of the ad campaigns.

Não há cookies para exibir.

Ciência de Dados

Como utilizar Data Lake?

26 de abril de 2022

[vc_row][vc_column][vc_column_text]Para entender como utilizar o Data Lake no seu negócio, vamos à uma alegoria:

Imagine que você é dono de um grande restaurante e, dentro desse restaurante, existe um armazém onde todos os milhares de alimentos (frutas, legumes, carnes, ingredientes e etc.) serão armazenados antes de serem limpos, tratados, separados e organizados para a produção dos pratos do restaurante. Na cozinha, cada cozinheiro irá pegar somente os produtos que serão utilizados na produção dos seus pratos, de acordo com a área da culinária (Italiana, Brasileira, Americana e etc.).

[adrotate banner=”10″]

É assim que funciona um Data Lake. Ele é como um grande armazém onde são inseridos dados de várias fontes diferentes no seu estado bruto em grande volume, e que serão utilizados pelas áreas e profissionais distintos de acordo com suas necessidades.

Neste artigo, iremos entender como utilizar Data Lake e por que ele é considerado uma ótima opção quando nos referimos a um grande volume de dados e suas diferentes estruturas e tipos de dados.

Formas de utilização

Para que possamos entender a melhor forma de utilizar o Data Lake, vamos imaginar um local onde você precisa armazenar vários tipos de dados nas mais diversas estruturas: tabelas; músicas; imagens; arquivos .JSON, .PDF, .CSV; entre vários outros tipos de dados que serão utilizados pelos mais diversos setores da empresa. Eles irão servir como um grande repositório de dados, todos em estado bruto.

Além disso, outro ponto importante da necessidade da utilização do Data Lake é que ele fará com que você evite realizar consultas ou modelagem diretamente no banco de dados. Isso porque realizar essas ações diretamente no banco podem ocasionar problemas de performance para o usuário ou até a queda do sistema.

Assim, iremos mostrar exemplos de onde o Data Lake deve ser utilizado e onde não tem necessidade.

Exemplo 1 – Empresa 1

O dono de um pequeno comércio pediu para que você fizesse uma análise dos dados de sua empresa. A empresa possui cerca de 20 funcionários, um sistema de ERP, CRM e algumas planilhas de Excel. Os dados a serem tratados e analisados serão os dados de movimentação de compras e vendas (Comercial), do investimento realizado nas campanhas de divulgação da empresa (Marketing) e dos custos internos, que envolvem folha de pagamento e alguns custos de manutenção (manutenção e RH).

Essa empresa necessita de um Data Lake na construção de sua arquitetura de dados?

A resposta é não, e então você pode perguntar: “Por que não? Eu não poderia colocar um Data Lake mesmo com um pequeno volume de dados?”

E a resposta é sim. Porém, neste caso não seria um Data Lake, o ideal seria um Data Warehouse. Devemos lembrar que Data Lake não é uma ferramenta ou uma tecnologia, mas sim um conceito de como organizar um repositório de dados. O conceito de Data Lake envolve o armazenamento de dados quando nos referimos a Big Data. Ou seja, um grande volume com uma variedade enorme de tipos de dados.

No caso explicado acima, temos somente sistemas que virão em formato estruturado (tabelas) e em arquivos Excel (que também são tabelas). Ou seja, qual a necessidade de um Data Lake? Nenhuma

Exemplo 2 – Empresa 2

Uma grande empresa do ramo automobilístico precisa acompanhar de hora em hora o desempenho dos setores da sua empresa (como vendas, SAC, financeiro, RH, Marketing e logística de todas as suas 50 lojas no Brasil). Nesta realidade, teremos arquivos de vários tipos, como bancos de dados, sistemas, áudio de clientes, imagens de peças, arquivos JSON, PDF de notas fiscais e APIs com grande volume de dados.

Dessa forma, a empresa precisa desses dados organizados sem tratamento. Ou seja, em sua forma bruta em um repositório onde os analistas e cientistas de dados de cada setor poderão criar suas próprias consultas para acompanhar o desempenho dos setores. Neste caso, a necessidade do Data Lake aparece de forma mais clara, certo?

Basicamente, o Data Lake entra quando a variedade e o volume são muito grandes e a estrutura tradicional somente com Data Warehouse não será suficiente. Entretanto, isso não impede, por exemplo, que dentro de uma arquitetura não possamos ter um Data Lake e em seguida um Data Warehouse.

Assim, podemos deixar o Data Lake para quem deseja conseguir os dados de forma bruta e realizar suas próprias consultas. E o Data Warehouse para quem quer algo já tratado, padronizado de acordo com as regras de negócio.

Conclusão

Após alguns exemplos, conseguimos perceber que, mesmo com nomes parecidos e algumas similaridades, a forma de utilizar Data Lake tem o objetivo de atender a uma camada diferente quando nos referimos a dados. Ele possui suas próprias características que devem ser usadas de forma correta nos projetos que, assim necessitem, da sua estrutura.

[adrotate banner=”5″][/vc_column_text][/vc_column][/vc_row]

Imagem padrão

Autor

Daniel Ribeiro

Artigos relacionados

Receba nossa
newsletter

Assine nossa newsletter e receba as últimas
novidades sobre o mundo da tecnologia.

    Eu autorizo a Luby a usar meus dados para o envio de conteúdos personalizados.