Tendências da Gripe do Google - Google Flu Trends

Dados do Google Tendências da Gripe, África do Sul

O Google Flu Trends ( GFT ) é um serviço da web operado pelo Google . Ele forneceu estimativas da atividade da gripe para mais de 25 países. Ao agregar as consultas da Pesquisa Google , ele tentou fazer previsões precisas sobre a atividade da gripe. Este projeto foi lançado pela primeira vez em 2008 pelo Google.org para ajudar a prever surtos de gripe.

O Google Flu Trends parou de publicar estimativas atuais em 9 de agosto de 2015. As estimativas históricas ainda estão disponíveis para download e os dados atuais são oferecidos para fins de pesquisa declarados.

História

A ideia por trás do Google Flu Trends era que, monitorando milhões de comportamentos de rastreamento de saúde de usuários online, o grande número de consultas de pesquisa do Google reunidas podem ser analisadas para revelar se há a presença de doenças semelhantes à gripe em uma população. O Google Flu Trends comparou essas descobertas com um nível de linha de base histórico de atividade da gripe para sua região correspondente e, em seguida, relata o nível de atividade como mínimo, baixo, moderado, alto ou intenso. Essas estimativas têm sido geralmente consistentes com os dados convencionais de vigilância coletados por agências de saúde, tanto nacional quanto regionalmente.

Roni Zeiger ajudou a desenvolver o Google Tendências da Gripe.

Métodos

O Google Tendências da Gripe foi descrito como usando o método a seguir para reunir informações sobre as tendências da gripe.

Primeiro, uma série temporal é calculada para cerca de 50 milhões de consultas comuns inseridas semanalmente nos Estados Unidos de 2003 a 2008. A série temporal de uma consulta é calculada separadamente para cada estado e normalizada em uma fração, dividindo o número de cada consulta pelo número de todas as consultas nesse estado. Ao identificar o endereço IP associado a cada pesquisa, o estado em que essa consulta foi inserida pode ser determinado.

Um modelo linear é usado para calcular as chances de log de visita médica de doença semelhante à influenza (ILI) e as chances de log de consulta de pesquisa relacionada a ILI:

P é a porcentagem de consultas médicas do ILI e Q é a fração da consulta relacionada ao ILI calculada nas etapas anteriores. β 0 é o intercepto e β 1 é o coeficiente, enquanto ε é o termo de erro.

Cada uma das 50 milhões de consultas é testada como Q para ver se o resultado calculado a partir de uma única consulta pode corresponder aos dados reais do histórico de ILI obtidos dos Centros de Controle e Prevenção de Doenças dos Estados Unidos (CDC). Esse processo produz uma lista das principais consultas que fornece as previsões mais precisas dos dados ILI do CDC ao usar o modelo linear. Em seguida, as 45 principais consultas são escolhidas porque, quando agregadas, essas consultas se ajustam aos dados do histórico com mais precisão. Usando a soma das 45 principais consultas relacionadas ao ILI, o modelo linear é ajustado aos dados semanais do ILI entre 2003 e 2007 para que o coeficiente possa ser obtido. Por fim, o modelo treinado é usado para prever o surto de gripe em todas as regiões dos Estados Unidos.

Este algoritmo foi posteriormente revisado pelo Google, parcialmente em resposta a preocupações sobre a precisão, e as tentativas de replicar seus resultados sugeriram que os desenvolvedores do algoritmo "sentiram uma necessidade não articulada de ocultar os termos de pesquisa reais identificados".

Preocupações com a privacidade

O Google Flu Trends tenta evitar violações de privacidade agregando apenas milhões de consultas de pesquisa anônimas, sem identificar os indivíduos que realizaram a pesquisa. Seu log de pesquisa contém o endereço IP do usuário, que pode ser usado para rastrear a região onde a consulta de pesquisa foi enviada originalmente. O Google executa programas em computadores para acessar e calcular os dados, portanto, nenhum ser humano está envolvido no processo. O Google também implementou a política de tornar o endereço IP anônimo em seus registros de pesquisa após 9 meses.

No entanto, o Google Flu Trends levantou questões de privacidade entre alguns grupos de privacidade. O Centro de Informações de Privacidade Eletrônica e os Direitos de Privacidade do Paciente enviaram uma carta a Eric Schmidt em 2008, então CEO do Google. Eles admitiram que o uso de dados gerados pelo usuário poderia apoiar o esforço de saúde pública de maneiras significativas, mas expressaram sua preocupação de que "investigações específicas do usuário possam ser obrigadas, mesmo contra a objeção do Google, por ordem judicial ou autoridade presidencial".

Impacto

Uma motivação inicial para o GFT foi que ser capaz de identificar a atividade da doença precocemente e responder rapidamente poderia reduzir o impacto da influenza sazonal e pandêmica. Um relatório foi que o Google Flu Trends foi capaz de prever surtos regionais de gripe até 10 dias antes de serem relatados pelo CDC (Centros de Controle e Prevenção de Doenças).

Na pandemia de gripe de 2009, o Google Flu Trends rastreou informações sobre a gripe nos Estados Unidos. Em fevereiro de 2010, o CDC identificou casos de influenza com pico na região do meio-Atlântico dos Estados Unidos. No entanto, os dados do Google de consultas de pesquisa sobre os sintomas da gripe foram capazes de mostrar o mesmo aumento duas semanas antes do relatório do CDC ser lançado.

“Quanto mais cedo o aviso, mais cedo podem ser implementadas medidas de prevenção e controle, e isso pode prevenir casos de gripe”, disse o Dr. Lyn Finelli, chefe de vigilância na divisão de influenza do CDC. “De 5 a 20 por cento da população do país contrai a gripe todos os anos, levando a cerca de 36.000 mortes em média.”

O Google Flu Trends é um exemplo de inteligência coletiva que pode ser usado para identificar tendências e calcular previsões. Os dados acumulados pelos mecanismos de pesquisa são significativamente esclarecedores porque as consultas de pesquisa representam os desejos e necessidades não filtrados das pessoas. “Esta parece ser uma maneira realmente inteligente de usar dados criados involuntariamente pelos usuários do Google para ver padrões no mundo que de outra forma seriam invisíveis”, disse Thomas W. Malone, professor da Sloan School of Management do MIT. “Acho que estamos apenas arranhando a superfície do que é possível com a inteligência coletiva.”

Precisão

O artigo inicial do Google afirmou que as previsões do Google Tendências da Gripe eram 97% precisas em comparação com os dados do CDC. No entanto, relatórios subsequentes afirmaram que as previsões do Google Tendências da Gripe às vezes foram muito imprecisas, especialmente no intervalo de 2011-2013, quando superestimou consistentemente a incidência relativa de gripe, e em um intervalo na temporada de gripe de 2012-2013 previu o dobro de consultas médicas como o CDC gravado.

Uma fonte de problemas é que as pessoas que fazem pesquisas no Google relacionadas à gripe podem saber muito pouco sobre como diagnosticar a gripe; pesquisas por gripe ou sintomas de gripe podem muito bem pesquisar sintomas de doenças semelhantes aos da gripe, mas não são de fato gripe. Além disso, a análise de termos de busca supostamente rastreados pelo Google, como "febre" e "tosse", bem como os efeitos das mudanças em seu algoritmo de busca ao longo do tempo, levantaram preocupações sobre o significado de suas previsões. No outono de 2013, o Google começou a tentar compensar os aumentos nas pesquisas devido à proeminência da gripe nas notícias, que anteriormente apresentava resultados distorcidos. No entanto, uma análise concluiu que "combinando GFT e dados defasados ​​do CDC, bem como recalibrando GFT dinamicamente, podemos melhorar substancialmente o desempenho do GFT ou do CDC sozinho." Um estudo posterior também demonstra que os dados de pesquisa do Google podem, de fato, ser usados ​​para melhorar as estimativas, reduzindo os erros vistos em um modelo usando apenas os dados do CDC em até 52,7 por cento.

Ao reavaliar o modelo GFT original, os pesquisadores descobriram que o modelo estava agregando consultas sobre diferentes condições de saúde, algo que poderia levar a uma previsão excessiva das taxas de ILI; no mesmo trabalho, uma série de abordagens lineares e não lineares mais avançadas de melhor desempenho para modelagem de ILI foram propostas.

Sistemas relacionados

Projetos semelhantes, como o projeto de previsão da gripe do Instituto de Ciência Cognitiva de Osnabrück, levam a ideia básica adiante, combinando dados de mídia social , por exemplo, Twitter com dados do CDC , e modelos estruturais que inferem a propagação espacial e temporal da doença.

Referências

links externos