Virtualização de dados - Data virtualization

A virtualização de dados é uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como a forma como são formatados na origem ou onde estão fisicamente localizados, e pode fornecer uma única visão do cliente (ou visão única de qualquer outra entidade) dos dados gerais.

Ao contrário do processo tradicional de extração, transformação e carregamento ("ETL"), os dados permanecem no local e o acesso em tempo real é fornecido ao sistema de origem para os dados. Isso reduz o risco de erros de dados, da carga de trabalho movendo dados que nunca podem ser usados ​​e não tenta impor um único modelo de dados aos dados (um exemplo de dados heterogêneos é um sistema de banco de dados federado ). A tecnologia também suporta a gravação de atualizações de dados de transações de volta para os sistemas de origem. Para resolver as diferenças nos formatos de origem e consumidor e semântica, várias técnicas de abstração e transformação são usadas. Este conceito e software é um subconjunto de integração de dados e é comumente usado em inteligência de negócios , serviços de dados de arquitetura orientada a serviços, computação em nuvem , pesquisa corporativa e gerenciamento de dados mestre .

Virtualização de dados e armazenamento de dados

Alguns cenários corporativos são preenchidos com fontes de dados díspares, incluindo vários data warehouses , data marts e / ou data lakes , embora um Data Warehouse, se implementado corretamente, deva ser único e uma única fonte de verdade . A virtualização de dados pode fazer a ponte de dados de maneira eficiente entre data warehouses, data marts e data lakes sem ter que criar uma plataforma de dados física totalmente nova e integrada. A infraestrutura de dados existente pode continuar executando suas funções principais, enquanto a camada de virtualização de dados apenas aproveita os dados dessas fontes. Esse aspecto da virtualização de dados o torna complementar a todas as fontes de dados existentes e aumenta a disponibilidade e o uso de dados corporativos.

A virtualização de dados também pode ser considerada uma alternativa ao ETL e ao armazenamento de dados, mas, por questões de desempenho, não é realmente recomendada para um armazenamento de dados muito grande. A virtualização de dados é inerentemente destinada a produzir percepções rápidas e oportunas de várias fontes, sem ter que embarcar em um grande projeto de dados com extenso ETL e armazenamento de dados. No entanto, a virtualização de dados pode ser estendida e adaptada para atender aos requisitos de armazenamento de dados também. Isso exigirá uma compreensão dos requisitos de armazenamento e histórico de dados, juntamente com planejamento e design para incorporar o tipo certo de virtualização de dados, integração e estratégias de armazenamento e otimizações de infraestrutura / desempenho (por exemplo, streaming, em memória, armazenamento híbrido).

Exemplos

  • The Phone House - o nome comercial das operações europeias da cadeia de varejo de telefonia móvel Carphone Warehouse - implementou a tecnologia de virtualização de dados da Denodo entre os sistemas transacionais de sua subsidiária espanhola e os sistemas baseados na Web das operadoras móveis.
  • A Novartis implementou a ferramenta de virtualização de dados da TIBCO para permitir que seus pesquisadores combinem rapidamente dados de fontes internas e externas em um armazenamento de dados virtual pesquisável.
  • Os dados primários agnósticos de armazenamento (extinto, reencarnado como Hammer.space) era uma plataforma de virtualização de dados que permitia que aplicativos, servidores e clientes acessassem de forma transparente os dados enquanto eram migrados entre armazenamento em nuvem direta, conectado à rede, privado e público .
  • Os dados vinculados podem usar um único nome de fonte de dados ( DSN ) baseado em hiperlink para fornecer uma conexão a uma camada de banco de dados virtual que está internamente conectada a uma variedade de fontes de dados back-end usando ODBC , JDBC , OLE DB , ADO.NET , SOA serviços de estilo e / ou padrões REST .
  • A virtualização de banco de dados pode usar um único DSN baseado em ODBC para fornecer uma conexão a uma camada de banco de dados virtual semelhante.
  • Alluxio , um sistema de código aberto virtual de arquivos distribuídos (VDFS), iniciado na Universidade da Califórnia, Berkeley 's AMPLab . O sistema abstrai dados de vários sistemas de arquivos e armazenamentos de objetos.

Funcionalidade

O software de virtualização de dados fornece alguns ou todos os seguintes recursos:

  • Abstração - abstrai os aspectos técnicos dos dados armazenados, como localização, estrutura de armazenamento, API, linguagem de acesso e tecnologia de armazenamento.
  • Acesso virtualizado a dados - conecte-se a diferentes fontes de dados e torne-as acessíveis a partir de um ponto de acesso lógico comum.
  • Transformação - Transforme, melhore a qualidade, reformate, agregue, etc., dados de origem para uso do consumidor.
  • Federação de dados - Combine conjuntos de resultados de vários sistemas de origem.
  • Entrega de dados - publica conjuntos de resultados como visualizações e / ou serviços de dados executados pelo aplicativo cliente ou usuários quando solicitado.

O software de virtualização de dados pode incluir funções para desenvolvimento, operação e / ou gerenciamento. Um mecanismo de metadados coleta, armazena e analisa informações sobre dados e metadados (dados sobre dados) em uso em um domínio.

Os benefícios incluem:

  • Reduza o risco de erros de dados
  • Reduza a carga de trabalho dos sistemas por meio da não movimentação de dados
  • Aumente a velocidade de acesso aos dados em tempo real
  • Permite o processamento de consultas empurrado para a fonte de dados em vez de na camada intermediária
  • A maioria dos sistemas permite a criação de autoatendimento de bancos de dados virtuais por usuários finais com acesso aos sistemas de origem
  • Aumentar a governança e reduzir o risco por meio do uso de políticas
  • Reduza o armazenamento de dados necessário

As desvantagens incluem:

  • Pode afetar o tempo de resposta dos sistemas operacionais, especialmente se for subescalonado para lidar com as consultas imprevistas do usuário ou não ajustado no início.
  • Não impõe um modelo de dados heterogêneo, o que significa que o usuário tem que interpretar os dados, a menos que combinado com Federação de Dados e entendimento comercial dos dados
  • Requer uma abordagem de governança definida para evitar problemas de orçamento com os serviços compartilhados
  • Não é adequado para gravar instantâneos históricos de dados. Um data warehouse é melhor para isso
  • O gerenciamento de mudanças "é uma grande sobrecarga, pois qualquer mudança precisa ser aceita por todos os aplicativos e usuários que compartilham o mesmo kit de virtualização"
  • Os designers devem sempre manter as considerações de desempenho em mente

Evite o uso (consulte: https://www.denodo.com ):

  • Para acessar sistemas de dados operacionais (questões de desempenho e integridade operacional)
  • Para federar ou centralizar todos os dados da organização (questões de segurança e hacking)
  • Para construir um data warehouse virtual muito grande (problemas de desempenho)
  • Como um processo de ETL (questões de governança e desempenho)
  • Se você tiver apenas uma ou duas fontes de dados para virtualizar

História

Enterprise information integration (EII) (inicialmente cunhada pela Metamatrix), agora conhecida como Red Hat JBoss Data Virtualization, e sistemas de banco de dados federados são termos usados ​​por alguns fornecedores para descrever um elemento central da virtualização de dados: a capacidade de criar JOINs relacionais em um federado VISUALIZAR.

Veja também

Referências

Leitura adicional

  • Virtualização de dados: indo além da integração tradicional de dados para obter agilidade nos negócios, Judith R. Davis e Robert Eve
  • Virtualização de dados para sistemas de inteligência de negócios: revolucionando a integração de dados para armazéns de dados, Rick van der Lans
  • Projeto e modelagem de integração de dados: técnicas para uma arquitetura escalonável e sustentável, Anthony Giordano