Qualidade de vídeo - Video quality

A qualidade do vídeo é uma característica de um vídeo transmitido por um sistema de transmissão ou processamento de vídeo que descreve a degradação percebida do vídeo (normalmente, em comparação com o vídeo original). Os sistemas de processamento de vídeo podem introduzir alguma distorção ou artefatos no sinal de vídeo que impactam negativamente a percepção do usuário de um sistema. Para muitas partes interessadas na produção e distribuição de vídeo, a garantia da qualidade do vídeo é uma tarefa importante.

A avaliação da qualidade do vídeo é realizada para descrever a qualidade de um conjunto de sequências de vídeo em estudo. A qualidade do vídeo pode ser avaliada objetivamente (por modelos matemáticos) ou subjetivamente (perguntando aos usuários a sua classificação). Além disso, a qualidade de um sistema pode ser determinada offline (ou seja, em um ambiente de laboratório para desenvolver novos codecs ou serviços), ou em serviço (para monitorar e garantir um certo nível de qualidade).

Do vídeo analógico ao digital

Desde que a primeira sequência de vídeo do mundo foi gravada e transmitida, muitos sistemas de processamento de vídeo foram projetados. Esses sistemas codificam fluxos de vídeo e os transmitem por vários tipos de redes ou canais. Na era dos sistemas de vídeo analógico , era possível avaliar os aspectos de qualidade de um sistema de processamento de vídeo calculando a resposta de frequência do sistema usando sinais de teste (por exemplo, uma coleção de barras coloridas e círculos).

Os sistemas de vídeo digital substituíram quase totalmente os analógicos e os métodos de avaliação de qualidade mudaram. O desempenho de um sistema de processamento e transmissão de vídeo digital pode variar significativamente e depende de muitos fatores, incluindo as características do sinal de vídeo de entrada (por exemplo, quantidade de movimento ou detalhes espaciais), as configurações usadas para codificação e transmissão e a fidelidade do canal ou rede atuação.

Qualidade objetiva de vídeo

Modelos objetivos de qualidade de vídeo são modelos matemáticos que aproximam os resultados da avaliação subjetiva da qualidade , em que observadores humanos são solicitados a avaliar a qualidade de um vídeo. Nesse contexto, o termo modelo pode se referir a um modelo estatístico simples no qual várias variáveis ​​independentes (por exemplo, a taxa de perda de pacotes em uma rede e os parâmetros de codificação de vídeo) são ajustados aos resultados obtidos em um teste de avaliação de qualidade subjetiva usando técnicas de regressão . Um modelo também pode ser um algoritmo mais complicado implementado em software ou hardware.

Terminologia

Os termos modelo e métrica costumam ser usados ​​alternadamente no campo. No entanto, uma métrica tem certas propriedades matemáticas que, por definição estrita, não se aplicam a todos os modelos de qualidade de vídeo.

O termo “objetivo” refere-se ao fato de que, em geral, os modelos de qualidade são baseados em critérios que podem ser medidos objetivamente - ou seja, livres de interpretação humana. Eles podem ser avaliados automaticamente por um programa de computador. Ao contrário de um painel de observadores humanos, um modelo objetivo deve sempre produzir de forma determinística a mesma pontuação de qualidade para um determinado conjunto de parâmetros de entrada.

Os modelos objetivos de qualidade às vezes também são chamados de modelos instrumentais (de qualidade) , a fim de enfatizar sua aplicação como instrumentos de medição. Alguns autores sugerem que o termo “objetivo” é enganoso, pois “implica que as medidas instrumentais têm objetividade, o que só o fazem caso possam ser generalizadas”.

Classificação de modelos objetivos de qualidade de vídeo

Classificação dos modelos de qualidade de vídeo objetivo em Full-Reference, Reduced-Reference e No-Reference.
Métodos de avaliação de qualidade de imagem e vídeo sem referência.

Os modelos objetivos podem ser classificados pela quantidade de informações disponíveis sobre o sinal original, o sinal recebido ou se há algum sinal presente:

  • Métodos de referência completa (FR): os modelos de FR calculam a diferença de qualidade comparando o sinal de vídeo original com o sinal de vídeo recebido. Normalmente, cada pixel da fonte é comparado com o pixel correspondente no vídeo recebido, sem nenhum conhecimento sobre o processo de codificação ou transmissão entre eles. Algoritmos mais elaborados podem escolher combinar a estimativa baseada em pixels com outras abordagens, como descrito abaixo. Os modelos FR são geralmente os mais precisos à custa de um maior esforço computacional. Como eles exigem disponibilidade do vídeo original antes da transmissão ou codificação, eles não podem ser usados ​​em todas as situações (por exemplo, quando a qualidade é medida a partir de um dispositivo cliente).
  • Métodos de referência reduzida (RR): os modelos RR extraem alguns recursos de ambos os vídeos e os comparam para fornecer uma pontuação de qualidade. Eles são usados ​​quando todo o vídeo original não está disponível ou quando seria praticamente impossível fazê-lo, por exemplo, em uma transmissão com largura de banda limitada. Isso os torna mais eficientes do que os modelos FR em detrimento da menor precisão.
  • Métodos sem referência (NR): os modelos NR tentam avaliar a qualidade de um vídeo distorcido sem qualquer referência ao sinal original. Devido à ausência de um sinal original, eles podem ser menos precisos do que as abordagens FR ou RR, mas são mais eficientes para computar.
    • Métodos baseados em pixels (NR-P): os modelos baseados em pixels usam uma representação decodificada do sinal e analisam a qualidade com base nas informações dos pixels. Alguns deles avaliam apenas tipos de degradação específicos, como desfoque ou outros artefatos de codificação .
    • Métodos Paramétricos / Bitstream (NR-B): Esses modelos utilizam recursos extraídos do contêiner de transmissão e / ou fluxo de bits de vídeo, por exemplo , cabeçalhos de pacotes MPEG-TS , vetores de movimento e parâmetros de quantização. Eles não têm acesso ao sinal original e não requerem decodificação do vídeo, o que os torna mais eficientes. Em contraste com os modelos NR-P, eles não têm acesso ao sinal decodificado final. No entanto, as previsões de qualidade de imagem que eles fornecem não são muito precisas.
    • Métodos híbridos (Hybrid NR-PB): os modelos híbridos combinam parâmetros extraídos do fluxo de bits com um sinal de vídeo decodificado. Eles são, portanto, uma mistura entre os modelos NR-P e NR-B.

Uso de modelos de qualidade de imagem para estimativa de qualidade de vídeo

Alguns modelos usados ​​para avaliação de qualidade de vídeo (como PSNR ou SSIM ) são simplesmente modelos de qualidade de imagem , cuja saída é calculada para cada quadro de uma sequência de vídeo. Essa medida de qualidade de cada quadro pode então ser gravada e agrupada ao longo do tempo para avaliar a qualidade de uma sequência de vídeo inteira. Embora esse método seja fácil de implementar, ele não leva em consideração certos tipos de degradação que se desenvolvem ao longo do tempo, como os artefatos móveis causados ​​pela perda de pacotes e sua ocultação . Um modelo de qualidade de vídeo que considera os aspectos temporais de degradação da qualidade, como VQM ou o Índice MOVIE , pode ser capaz de produzir previsões mais precisas da qualidade percebida pelo homem.

Exemplos

Métrica Uso Descrição
Referência Completa PSNR (relação sinal-ruído de pico) Imagem É calculado entre cada quadro do sinal de vídeo original e degradado. PSNR é a métrica de qualidade de imagem objetiva mais amplamente usada. No entanto, os valores de PSNR não se correlacionam bem com a qualidade de imagem percebida devido ao comportamento complexo e altamente não linear do sistema visual humano.
SSIM ( SIMilaridade estrutural) Imagem SSIM é um modelo baseado na percepção que considera a degradação da imagem como uma mudança percebida nas informações estruturais, ao mesmo tempo que incorpora fenômenos perceptivos importantes, incluindo mascaramento de luminância e termos de mascaramento de contraste.
Avaliação de integridade de vídeo baseada em MOVIE Index Vídeo O índice MOVIE é um modelo baseado em neurociência para prever a qualidade perceptual de um filme ou vídeo (possivelmente comprimido ou distorcido) em comparação com um vídeo de referência original.
VMAF Video Multimethod Assessment Fusion Vídeo O VMAF usa quatro recursos para prever a qualidade do vídeo VIF, DLM, MCPD, AN-SNR. Os recursos acima são combinados usando uma regressão baseada em SVM para fornecer uma única pontuação de saída. Essas pontuações são então agrupadas temporariamente ao longo de toda a sequência de vídeo usando a média aritmética para fornecer uma pontuação de opinião média diferencial geral (DMOS).
Referência Reduzida SRR (SSIM Reduced-Reference) Vídeo O valor SRR é calculado como a proporção do SSIM do sinal de vídeo recebido (alvo) com os valores SSIM do padrão de vídeo de referência.
ST-RRED Vídeo Calcula coeficientes de wavelet de diferenças de quadro entre os quadros adjacentes em uma sequência de vídeo (modelada por um GSM). É usado para avaliar as diferenças entrópicas RR que levam a RRED temporal. Em conjunto com os índices RRED espaciais avaliados pela aplicação do índice RRED em cada quadro do vídeo, produz o RRED espaço-temporal
Sem Referência Avaliador de qualidade de imagem do NIQE Naturalness Imagem Este modelo IQA é baseado em recursos de estatística de cena natural (NSS) de domínio espacial perceptualmente relevantes extraídos de manchas de imagens locais que capturam efetivamente as estatísticas essenciais de baixa ordem de imagens naturais.
Avaliador de qualidade espacial de imagens cegas / sem referência BRISQUE Imagem O método extrai as estatísticas pontuais de sinais de luminância normalizados locais e mede a naturalidade da imagem (ou a falta dela) com base nos desvios medidos de um modelo de imagem natural. Ele também modela a distribuição de estatísticas de pares de sinais de luminância normalizados adjacentes que fornecem informações de orientação de distorção.
Video-BLIINDS Vídeo Calcula modelos estatísticos em coeficientes DCT de diferenças de quadro e calcula a caracterização de movimento. Pontuação do Pedicts com base nesses recursos usando SVM

Além do que, além do mais

Uma visão geral dos modelos recentes de qualidade de imagem sem referência foi fornecida em um artigo publicado por Shahid et al. Conforme mencionado acima, eles também podem ser usados ​​para aplicativos de vídeo. O Video Quality Experts Group tem um grupo de trabalho dedicado no desenvolvimento de métricas sem referência (chamado NORM ).

Métricas baseadas em bitstream

Métricas de referência total ou reduzida ainda requerem acesso ao fluxo de bits de vídeo original antes da transmissão ou pelo menos parte dele. Na prática, um fluxo original pode nem sempre estar disponível para comparação, por exemplo, ao medir a qualidade do lado do usuário. Em outras situações, uma operadora de rede pode querer medir a qualidade dos fluxos de vídeo que passam por sua rede, sem decodificá-los totalmente. Para uma estimativa mais eficiente da qualidade do vídeo em tais casos, métricas paramétricas / bitstream também foram padronizadas:

Avaliação de treinamento e desempenho

Uma vez que se espera que os modelos objetivos de qualidade de vídeo prevejam os resultados fornecidos por observadores humanos, eles são desenvolvidos com a ajuda de resultados de testes subjetivos . Durante o desenvolvimento de um modelo objetivo, seus parâmetros devem ser treinados de forma a alcançar a melhor correlação entre os valores previstos objetivamente e os escores subjetivos, muitas vezes disponíveis como escores de opinião médios (MOS).

Os materiais de teste subjetivos mais amplamente usados ​​são de domínio público e incluem imagens estáticas, imagens em movimento, streaming de vídeo, alta definição, 3-D (estereoscópico) e conjuntos de dados relacionados à qualidade de imagem para fins especiais. Esses chamados bancos de dados são criados por vários laboratórios de pesquisa em todo o mundo. Alguns deles se tornaram padrões de fato, incluindo vários bancos de dados subjetivos de qualidade de imagem de domínio público criados e mantidos pelo Laboratório de Engenharia de Imagem e Vídeo (LIVE) , bem como o Tampere Image Database 2008 . Uma coleção de bancos de dados pode ser encontrada no repositório de bancos de dados QUALINET . A Consumer Digital Video Library (CDVL) hospeda sequências de teste de vídeo disponíveis gratuitamente para o desenvolvimento de modelos.

Em teoria, um modelo pode ser treinado em um conjunto de dados de forma que produza pontuações perfeitamente correspondentes nesse conjunto de dados. No entanto, esse modelo será super treinado e, portanto, não terá um bom desempenho em novos conjuntos de dados. Portanto, é aconselhável validar os modelos em relação a novos dados e usar o desempenho resultante como um indicador real da precisão da previsão do modelo.

Para medir o desempenho de um modelo, algumas métricas frequentemente usadas são o coeficiente de correlação linear , o coeficiente de correlação de classificação de Spearman e a raiz do erro quadrático médio (RMSE). Outras métricas são o coeficiente kappa e a razão de outliers . ITU-T Rec. P.1401 dá uma visão geral dos procedimentos estatísticos para avaliar e comparar modelos objetivos.

Usos e aplicação de modelos objetivos

Modelos objetivos de qualidade de vídeo podem ser usados ​​em várias áreas de aplicação. No desenvolvimento de codecs de vídeo , o desempenho de um codec é frequentemente avaliado em termos de PSNR ou SSIM. Para provedores de serviços, modelos objetivos podem ser usados ​​para monitorar um sistema. Por exemplo, um provedor de IPTV pode optar por monitorar a qualidade de seu serviço por meio de modelos objetivos, em vez de pedir a opinião dos usuários ou aguardar as reclamações dos clientes sobre a má qualidade do vídeo. Poucos desses padrões encontraram aplicações comerciais, incluindo PEVQ e VQuad-HD . O SSIM também faz parte de um conjunto de ferramentas de qualidade de vídeo disponível comercialmente (SSIMWAVE). O VMAF é usado pela Netflix para ajustar seus algoritmos de codificação e streaming e para controlar a qualidade de todo o conteúdo transmitido. Ele também está sendo usado por outras empresas de tecnologia, como a Bitmovin, e foi integrado a softwares como o FFmpeg .

Um modelo objetivo só deve ser usado no contexto para o qual foi desenvolvido. Por exemplo, um modelo que foi desenvolvido usando um codec de vídeo específico não tem garantia de precisão para outro codec de vídeo. Da mesma forma, um modelo treinado em testes realizados em uma grande tela de TV não deve ser usado para avaliar a qualidade de um vídeo assistido em um telefone celular.

Outras abordagens

Ao estimar a qualidade de um codec de vídeo, todos os métodos objetivos mencionados podem exigir a repetição de testes de pós-codificação, a fim de determinar os parâmetros de codificação que satisfaçam um nível necessário de qualidade visual, tornando-os demorados, complexos e impraticáveis ​​para implementação em aplicações comerciais reais . Há pesquisas em andamento para o desenvolvimento de novos métodos de avaliação objetivos que permitem a previsão do nível de qualidade percebido do vídeo codificado antes que a codificação real seja realizada.

Artefatos de qualidade de vídeo

Todos os artefatos visuais ainda são valiosos para a qualidade do vídeo. Os atributos únicos não mencionados incluem

Espacial

  • Desfoque - resultado da perda de detalhes da imagem de alta frequência espacial, geralmente em bordas nítidas.
  • Bloqueio - é causado por vários algoritmos por causa da representação interna de uma imagem com blocos de tamanho 8, 16 ou 32. Com parâmetros específicos, eles podem calcular a média de pixels dentro de um bloco tornando os blocos distintos
  • Toque , eco ou fantasma - assume a forma de um “halo”, faixa ou “fantasma” próximo a bordas afiadas.
  • Sangramento de cor - ocorre quando as bordas de uma cor na imagem sangram ou se sobrepõem acidentalmente em outra cor
  • Ruído de escada - é um caso especial de bloqueio ao longo de uma borda diagonal ou curva. Em vez de renderizar suavemente, assume a aparência de degraus de escada

Temporal

  • Cintilação - geralmente é o brilho frequente ou mudanças de cor ao longo da dimensão do tempo. Freqüentemente, aparece como cintilação de grãos finos e cintilação de grãos grossos.
  • Ruído de mosquito - uma variante da cintilação, é tipificado como nebulosidade e / ou tremeluzente em torno do conteúdo de alta frequência (transições nítidas entre entidades de primeiro plano e o fundo ou bordas rígidas).
  • Flutuante - refere-se ao movimento ilusório em certas regiões enquanto as áreas circundantes permanecem estáticas. Visualmente, essas regiões aparecem como se estivessem flutuando no topo do plano de fundo ao redor
  • Jerkiness ou trepidação - é o movimento irregular ou instável percebido devido à amostragem de quadros. Geralmente é causado pela conversão de filmes de 24 fps em um formato de vídeo de 30 ou 60 fps.

A maioria deles pode ser agrupada em artefatos de compressão

Qualidade subjetiva de vídeo

O principal objetivo das métricas de qualidade de vídeo de vários objetivos é estimar automaticamente a opinião do usuário médio (espectador) sobre a qualidade de um vídeo processado por um sistema. Os procedimentos para medições subjetivas de qualidade de vídeo são descritos na recomendação ITU-R BT.500 e na recomendação ITU-T P.910 . Nesses testes, as sequências de vídeo são mostradas a um grupo de espectadores. A opinião dos espectadores é registrada e calculada na média da pontuação de opinião para avaliar a qualidade de cada sequência de vídeo. No entanto, o procedimento de teste pode variar dependendo do tipo de sistema testado.

Ferramentas para avaliação de qualidade de vídeo

Ferramenta Disponibilidade Métricas incluídas
FFmpeg Sem custos PSNR, SSIM, VMAF
MSU VQMT Gratuito para métricas básicas

Pago por métricas HDR

PSNR, SSIM, MS-SSIM, 3SSIM, VMAF , NIQE, VQM, Delta, MSAD, MSE

MSU desenvolveu métricas: métrica de borrão, métrica de bloqueio, métrica de oscilação de brilho, métrica de quadro de queda, métrica de estimativa de ruído

EPFL VQMT Sem custos PSNR, PSNR-HVS, PSNR-HVS-M, SSIM, MS-SSIM, VIFp
OpenVQ Sem custos PSNR, SSIM, OPVQ - a métrica de qualidade de vídeo perceptual aberta
Elecard Versão de demonstração disponível PSNR, APSNR, MSAD, MSE, SSIM, Delta, VQM, NQI, VMAF и VMAF telefone, VIF
AviSynth Sem custos SSIM
VQ Probe Sem custos PSNR, SSIM, VMAF
  • FFmpeg - FFmpeg é o framework multimídia líder, capaz de decodificar, codificar, transcodificar, mux, demux, transmitir, filtrar e reproduzir quase tudo que humanos e máquinas criaram. Suporta os formatos antigos mais obscuros até a vanguarda. Não importa se eles foram projetados por algum comitê de padrões, a comunidade ou uma empresa. Também é altamente portátil: o FFmpeg compila, executa e passa em nossa infraestrutura de teste FATE em Linux, Mac OS X, Microsoft Windows, BSDs, Solaris, etc. em uma ampla variedade de ambientes de construção, arquiteturas de máquina e configurações.
  • MSU VQMT - A Ferramenta de Medição de Qualidade de Vídeo MSU (VQMT) é um programa para avaliação objetiva da qualidade de vídeo. Ele fornece funcionalidade para comparações de referência completa (dois vídeos são examinados) e de referência única (um vídeo é analisado).
  • EPFL VQMT - Este software fornece implementações rápidas das seguintes métricas objetivas: PSNR, SSIM, MS-SSIM, VIFp, PSNR-HVS, PSNR-HVS-M. Neste software, as métricas acima são implementadas em OpenCV (C ++) com base nas implementações originais do Matlab fornecidas por seus desenvolvedores.
  • OpenVQ - OpenVQ é um kit de ferramentas de avaliação de qualidade de vídeo. O objetivo deste projeto é fornecer a qualquer pessoa interessada em avaliação de qualidade de vídeo um kit de ferramentas que a) forneça implementações de métricas de qualidade de vídeo prontas para uso eb) facilite a implementação de outras métricas de qualidade de vídeo.
  • Elecard - ferramenta de medição de qualidade de vídeo projetada para comparar a qualidade de streams codificados com base em métricas objetivas, como PSNR, APSNR, SSIM, DELTA, MSE, MSAD, VQM, NQI, VMAF e VMAF phone, VIF.
  • AviSynth - AviSynth é uma ferramenta poderosa para pós-produção de vídeo. Ele fornece maneiras de editar e processar vídeos. AviSynth funciona como um servidor de quadros, proporcionando edição instantânea sem a necessidade de arquivos temporários. O AviSynth em si não fornece uma interface gráfica de usuário (GUI), mas, em vez disso, depende de um sistema de script que permite a edição não linear avançada.
  • VQ Probe - VQ Probe é um instrumento visual profissional para comparação objetiva e subjetiva da qualidade de vídeo. A ferramenta permite aos usuários comparar diferentes padrões de codec, construir curvas RD e calcular taxas de BD.

Previsão QoE para qualidade de vídeo

A previsão de QoE em vídeos é um grande desafio devido às múltiplas situações que podem surgir e ao caráter subjetivo da QoE. Por isso, para prever a QoE da forma mais precisa, temos que fazer uso de um bom classificador que possa detectar a maioria dos tipos de erros ou situações inesperadas que afetam a qualidade do vídeo. Alguns estudos têm demonstrado que um Classificador de Processo Gaussiano dá bons resultados para este tipo de classificação.

Veja também

Referências

Leitura adicional