O termo data lake, “lago de Dados”, foi criado por James Dixon, CTO (chief technology officer) da Pentaho para nomear um grande repositório de dados brutos de fontes distintas que não passaram por nenhuma análise nem processamento. Um exemplo simplório é importar do sistema de emissão de documentos fiscais, RH e Financeiro da empresa informações distintas e em formatos diversos que estarão disponíveis para serem utilizados.
O acesso a ferramentas tecnológicas facilitou imensamente a coleta de dados. Nunca foi tão fácil coletar informações, seja por um formulário do google docs, um app de mensagens ou um elaborado e robusto sistema.
A facilidade em coletar dados pode influenciar a captação e consequentemente na armazenagem de dados irrelevantes, fator que com a entrada em vigor da LGPD (Lei Geral de Proteção de Dados) deve ser analisado pelas empresas, pois a lei que prevê a execução de rotinas que visam garantir a proteção e segurança de dados pessoais de pessoas físicas e jurídicas qualificados como sensíveis. Na redação do texto base da LGPD há sanções em caso de descumprimento das regras ali dispostas. Sendo assim, proteger os dados é uma obrigação que requer planejamento, análise e aporte financeiro.
Por tanto mensurar o fluxo de informação é fundamental para evitar multas ou mesmo desperdício de tempo e dinheiro na coleta e armazenagem de dados. O que? De quem? Para quem? Porque? são perguntas fundamentais para direcionar seu plano de gerenciamento de dados.
Por: Eider Castro – COMJOVEM Centro Oeste Mineiro