Virtualização de dados - Data virtualization
A virtualização de dados é uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como a forma como são formatados na origem ou onde estão fisicamente localizados, e pode fornecer uma única visão do cliente (ou visão única de qualquer outra entidade) dos dados gerais.
Ao contrário do processo tradicional de extração, transformação e carregamento ("ETL"), os dados permanecem no local e o acesso em tempo real é fornecido ao sistema de origem para os dados. Isso reduz o risco de erros de dados, da carga de trabalho movendo dados que nunca podem ser usados e não tenta impor um único modelo de dados aos dados (um exemplo de dados heterogêneos é um sistema de banco de dados federado ). A tecnologia também suporta a gravação de atualizações de dados de transações de volta para os sistemas de origem. Para resolver as diferenças nos formatos de origem e consumidor e semântica, várias técnicas de abstração e transformação são usadas. Este conceito e software é um subconjunto de integração de dados e é comumente usado em inteligência de negócios , serviços de dados de arquitetura orientada a serviços, computação em nuvem , pesquisa corporativa e gerenciamento de dados mestre .
Virtualização de dados e armazenamento de dados
Alguns cenários corporativos são preenchidos com fontes de dados díspares, incluindo vários data warehouses , data marts e / ou data lakes , embora um Data Warehouse, se implementado corretamente, deva ser único e uma única fonte de verdade . A virtualização de dados pode fazer a ponte de dados de maneira eficiente entre data warehouses, data marts e data lakes sem ter que criar uma plataforma de dados física totalmente nova e integrada. A infraestrutura de dados existente pode continuar executando suas funções principais, enquanto a camada de virtualização de dados apenas aproveita os dados dessas fontes. Esse aspecto da virtualização de dados o torna complementar a todas as fontes de dados existentes e aumenta a disponibilidade e o uso de dados corporativos.
A virtualização de dados também pode ser considerada uma alternativa ao ETL e ao armazenamento de dados, mas, por questões de desempenho, não é realmente recomendada para um armazenamento de dados muito grande. A virtualização de dados é inerentemente destinada a produzir percepções rápidas e oportunas de várias fontes, sem ter que embarcar em um grande projeto de dados com extenso ETL e armazenamento de dados. No entanto, a virtualização de dados pode ser estendida e adaptada para atender aos requisitos de armazenamento de dados também. Isso exigirá uma compreensão dos requisitos de armazenamento e histórico de dados, juntamente com planejamento e design para incorporar o tipo certo de virtualização de dados, integração e estratégias de armazenamento e otimizações de infraestrutura / desempenho (por exemplo, streaming, em memória, armazenamento híbrido).
Exemplos
- The Phone House - o nome comercial das operações europeias da cadeia de varejo de telefonia móvel Carphone Warehouse - implementou a tecnologia de virtualização de dados da Denodo entre os sistemas transacionais de sua subsidiária espanhola e os sistemas baseados na Web das operadoras móveis.
- A Novartis implementou a ferramenta de virtualização de dados da TIBCO para permitir que seus pesquisadores combinem rapidamente dados de fontes internas e externas em um armazenamento de dados virtual pesquisável.
- Os dados primários agnósticos de armazenamento (extinto, reencarnado como Hammer.space) era uma plataforma de virtualização de dados que permitia que aplicativos, servidores e clientes acessassem de forma transparente os dados enquanto eram migrados entre armazenamento em nuvem direta, conectado à rede, privado e público .
- Os dados vinculados podem usar um único nome de fonte de dados ( DSN ) baseado em hiperlink para fornecer uma conexão a uma camada de banco de dados virtual que está internamente conectada a uma variedade de fontes de dados back-end usando ODBC , JDBC , OLE DB , ADO.NET , SOA serviços de estilo e / ou padrões REST .
- A virtualização de banco de dados pode usar um único DSN baseado em ODBC para fornecer uma conexão a uma camada de banco de dados virtual semelhante.
- Alluxio , um sistema de código aberto virtual de arquivos distribuídos (VDFS), iniciado na Universidade da Califórnia, Berkeley 's AMPLab . O sistema abstrai dados de vários sistemas de arquivos e armazenamentos de objetos.
Funcionalidade
O software de virtualização de dados fornece alguns ou todos os seguintes recursos:
- Abstração - abstrai os aspectos técnicos dos dados armazenados, como localização, estrutura de armazenamento, API, linguagem de acesso e tecnologia de armazenamento.
- Acesso virtualizado a dados - conecte-se a diferentes fontes de dados e torne-as acessíveis a partir de um ponto de acesso lógico comum.
- Transformação - Transforme, melhore a qualidade, reformate, agregue, etc., dados de origem para uso do consumidor.
- Federação de dados - Combine conjuntos de resultados de vários sistemas de origem.
- Entrega de dados - publica conjuntos de resultados como visualizações e / ou serviços de dados executados pelo aplicativo cliente ou usuários quando solicitado.
O software de virtualização de dados pode incluir funções para desenvolvimento, operação e / ou gerenciamento. Um mecanismo de metadados coleta, armazena e analisa informações sobre dados e metadados (dados sobre dados) em uso em um domínio.
Os benefícios incluem:
- Reduza o risco de erros de dados
- Reduza a carga de trabalho dos sistemas por meio da não movimentação de dados
- Aumente a velocidade de acesso aos dados em tempo real
- Permite o processamento de consultas empurrado para a fonte de dados em vez de na camada intermediária
- A maioria dos sistemas permite a criação de autoatendimento de bancos de dados virtuais por usuários finais com acesso aos sistemas de origem
- Aumentar a governança e reduzir o risco por meio do uso de políticas
- Reduza o armazenamento de dados necessário
As desvantagens incluem:
- Pode afetar o tempo de resposta dos sistemas operacionais, especialmente se for subescalonado para lidar com as consultas imprevistas do usuário ou não ajustado no início.
- Não impõe um modelo de dados heterogêneo, o que significa que o usuário tem que interpretar os dados, a menos que combinado com Federação de Dados e entendimento comercial dos dados
- Requer uma abordagem de governança definida para evitar problemas de orçamento com os serviços compartilhados
- Não é adequado para gravar instantâneos históricos de dados. Um data warehouse é melhor para isso
- O gerenciamento de mudanças "é uma grande sobrecarga, pois qualquer mudança precisa ser aceita por todos os aplicativos e usuários que compartilham o mesmo kit de virtualização"
- Os designers devem sempre manter as considerações de desempenho em mente
Evite o uso (consulte: https://www.denodo.com ):
- Para acessar sistemas de dados operacionais (questões de desempenho e integridade operacional)
- Para federar ou centralizar todos os dados da organização (questões de segurança e hacking)
- Para construir um data warehouse virtual muito grande (problemas de desempenho)
- Como um processo de ETL (questões de governança e desempenho)
- Se você tiver apenas uma ou duas fontes de dados para virtualizar
História
Enterprise information integration (EII) (inicialmente cunhada pela Metamatrix), agora conhecida como Red Hat JBoss Data Virtualization, e sistemas de banco de dados federados são termos usados por alguns fornecedores para descrever um elemento central da virtualização de dados: a capacidade de criar JOINs relacionais em um federado VISUALIZAR.
Veja também
- Integração de dados
- Integração de informações empresariais (EII)
- Gerenciamento de dados mestre
- Federação de Dados
- Sistema discrepante
Referências
Leitura adicional
- Virtualização de dados: indo além da integração tradicional de dados para obter agilidade nos negócios, Judith R. Davis e Robert Eve
- Virtualização de dados para sistemas de inteligência de negócios: revolucionando a integração de dados para armazéns de dados, Rick van der Lans
- Projeto e modelagem de integração de dados: técnicas para uma arquitetura escalonável e sustentável, Anthony Giordano