Proliferação de dados - Data proliferation

A proliferação de dados se refere à quantidade prodigiosa de dados , estruturados e não estruturados, que empresas e governos continuam a gerar em uma taxa sem precedentes e aos problemas de usabilidade que resultam da tentativa de armazenar e gerenciar esses dados. Embora originalmente pertencente a problemas associados à documentação em papel , a proliferação de dados se tornou um grande problema no armazenamento de dados primários e secundários em computadores.

Embora o armazenamento digital tenha se tornado mais barato, os custos associados, da energia bruta à manutenção e dos metadados aos mecanismos de busca, não acompanharam a proliferação de dados. Embora a energia necessária para manter uma unidade de dados tenha caído, o custo das instalações que abrigam o armazenamento digital tende a aumentar.

No nível mais simples, os sistemas de e-mail da empresa geram grandes quantidades de dados. Estima-se que o e-mail comercial - alguns importantes para a empresa, outros muito menos - cresça a uma taxa de 25-30% ao ano. E, seja relevante ou não, a carga no sistema está sendo ampliada por práticas como endereçamento múltiplo e anexação de grandes arquivos de texto, áudio e até mesmo vídeo .

-  IBM Global Technology Services

A proliferação de dados foi documentada como um problema para os militares dos EUA desde agosto de 1971, em particular no que diz respeito à documentação excessiva apresentada durante a aquisição dos principais sistemas de armas. Os esforços para mitigar a proliferação de dados e os problemas associados a eles estão em andamento.

Problemas causados

O problema da proliferação de dados está afetando todas as áreas do comércio como resultado da disponibilidade de dispositivos de armazenamento de dados relativamente baratos. Isso tornou muito fácil despejar dados no armazenamento secundário imediatamente após o término de sua janela de usabilidade. Isso mascara problemas que podem afetar gravemente a lucratividade das empresas e o funcionamento eficiente dos serviços de saúde, polícia e forças de segurança, governos locais e nacionais e muitos outros tipos de organizações. A proliferação de dados é problemática por vários motivos:

  • Dificuldade ao tentar encontrar e recuperar informações. Na Xerox , em média, os funcionários levam mais de uma hora por semana para encontrar documentos impressos, custando US $ 2.152 por ano para gerenciá-los e armazená-los. Para empresas com mais de 10 funcionários, isso aumenta para quase duas horas por semana a $ 5.760 por ano. Em grandes redes de armazenamento de dados primários e secundários, os problemas de localização de dados eletrônicos são análogos aos problemas de localização de dados impressos.
  • Perda de dados e responsabilidade legal quando os dados estão desorganizados, não são replicados corretamente ou não podem ser encontrados em tempo hábil. Em abril de 2005, a Ameritrade Holding Corporation disse a 200.000 clientes atuais e anteriores que uma fita contendo informações confidenciais havia sido perdida ou destruída em trânsito. Em maio do mesmo ano, a Time Warner Incorporated informou que 40 fitas contendo dados pessoais de 600.000 funcionários atuais e ex-funcionários foram perdidas no caminho para um depósito. Em março de 2005, um juiz da Flórida que ouviu um processo de US $ 2,7 bilhões contra o Morgan Stanley emitiu uma " ordem de inferência adversa " contra a empresa por "abuso intencional e grosseiro de suas obrigações de descoberta". O juiz citou o Morgan Stanley por encontrar repetidamente fitas perdidas de mensagens de e-mail muito depois de a empresa alegar que entregou todas essas fitas ao tribunal.
  • Aumento dos requisitos de mão de obra para gerenciar recursos de armazenamento de dados cada vez mais caóticos.
  • Redes mais lentas e desempenho de aplicativos devido ao excesso de tráfego conforme os usuários pesquisam e procuram novamente o material de que precisam.
  • Alto custo em termos de recursos de energia necessários para operar o hardware de armazenamento. Um sistema de 100 terabytes custará até US $ 35.040 por ano para operar - sem contar os custos de resfriamento.

Soluções propostas

  • Aplicativos que melhor utilizam a tecnologia moderna
  • Reduções nos dados duplicados (especialmente as causadas pela movimentação de dados)
  • Melhoria das estruturas de metadados
  • Melhoria das estruturas de transferência de arquivos e armazenamento
  • Educação e disciplina do usuário
  • A implementação de soluções de Gerenciamento do Ciclo de Vida da Informação para eliminar informações de baixo valor o mais cedo possível, antes de colocar o restante em armazenamento de longo prazo gerenciado ativamente, no qual pode ser acessado de forma rápida e barata.

Veja também

Referências