Teste A / B - A/B testing

Exemplo de teste A / B em um site. Ao servir aleatoriamente aos visitantes duas versões de um site que diferem apenas no design de um único elemento de botão, a eficácia relativa dos dois designs pode ser medida.

O teste A / B (também conhecido como teste de bucket ou teste de execução dividida ) é uma metodologia de pesquisa de experiência do usuário . Os testes A / B consistem em um experimento randomizado com duas variantes, A e B. Inclui a aplicação de teste de hipótese estatística ou " teste de hipótese de duas amostras ", conforme usado no campo da estatística . O teste A / B é uma maneira de comparar duas versões de uma única variável , normalmente testando a resposta de um sujeito à variante A contra a variante B e determinando qual das duas variantes é mais eficaz.

Visão geral

O teste A / B é uma abreviatura para um experimento controlado simples . em que duas amostras (A e B) de uma única variável vetorial são comparadas. Esses valores são semelhantes, exceto por uma variação que pode afetar o comportamento do usuário. Os testes A / B são amplamente considerados a forma mais simples de experimento controlado. No entanto, ao adicionar mais variantes ao teste, sua complexidade aumenta.

Os testes A / B são úteis para entender o envolvimento e a satisfação do usuário com os recursos online, como um novo recurso ou produto. Grandes sites de mídia social como LinkedIn , Facebook e Instagram usam testes A / B para tornar as experiências do usuário mais bem-sucedidas e como uma forma de otimizar seus serviços.

Hoje, os testes A / B estão sendo usados ​​também para conduzir experimentos complexos sobre assuntos como efeitos de rede quando os usuários estão offline, como os serviços online afetam as ações do usuário e como os usuários influenciam uns aos outros. Muitas profissões usam os dados dos testes A / B. Isso inclui engenheiros de dados, profissionais de marketing, designers, engenheiros de software e empreendedores. Muitas posições dependem dos dados dos testes A / B, pois permitem que as empresas entendam o crescimento, aumentem a receita e otimizem a satisfação do cliente.

A versão A pode ser uma versão usada atualmente (formando assim o grupo de controle), enquanto a versão B é modificada em algum aspecto vs. A (tratamento). Por exemplo, em um site de comércio eletrônico, o funil de compra é normalmente um bom candidato para o teste A / B, uma vez que mesmo diminuições marginais nas taxas de desistência podem representar um ganho significativo nas vendas. Melhorias significativas às vezes podem ser vistas através do teste de elementos como texto de cópia, layouts, imagens e cores, mas nem sempre. Nesses testes, os usuários veem apenas uma das duas versões, já que o objetivo é descobrir qual das duas versões é preferível.

O teste multivariado ou o teste multinomial é semelhante ao teste A / B, mas pode testar mais de duas versões ao mesmo tempo ou usar mais controles. Os testes A / B simples não são válidos para situações observacionais , quase experimentais ou outras situações não experimentais - lugar-comum com dados de pesquisa, dados off-line e outros fenômenos mais complexos.

Alguns afirmam que o teste A / B é uma mudança na filosofia e na estratégia de negócios em certos nichos, embora a abordagem seja idêntica a um projeto entre assuntos , que é comumente usado em uma variedade de tradições de pesquisa. O teste A / B como filosofia de desenvolvimento da web alinha o campo com um movimento mais amplo em direção à prática baseada em evidências . Os benefícios do teste A / B são considerados como sendo que ele pode ser executado continuamente em quase qualquer coisa, especialmente porque a maioria dos softwares de automação de marketing agora normalmente vem com a capacidade de executar testes A / B continuamente.

Estatísticas de teste comuns

"Testes de hipótese de duas amostras" são apropriados para comparar as duas amostras onde as amostras são divididas pelos dois casos de controle no experimento. Os testes Z são apropriados para comparar médias sob condições rigorosas em relação à normalidade e um desvio padrão conhecido. Os testes t de Student são apropriados para comparar médias em condições relaxadas quando menos é assumido. O teste t de Welch assume o mínimo e, portanto, é o teste mais comumente usado em um teste de hipótese de duas amostras em que a média de uma métrica deve ser otimizada. Enquanto a média da variável a ser otimizada é a escolha mais comum de estimador , outros são usados ​​regularmente.

Para uma comparação de duas distribuições binomiais , como uma taxa de cliques , usaríamos o teste exato de Fisher .

Distribuição Presumida Caso de Exemplo Teste Padrão Teste Alternativo
Gaussiana Receita média por usuário Teste t de Welch ( teste t não pareado) Teste t de Student
Binomial Taxa de cliques Teste exato de Fisher Teste de Barnard
Poisson Transações por usuário pagante E-test Teste C
Multinomial Número de cada produto comprado Teste qui-quadrado
Desconhecido Teste U de Mann-Whitney Amostragem de Gibbs

História

Como a maioria dos campos, definir uma data para o advento de um novo método é difícil. O primeiro ensaio duplo-cego randomizado, para avaliar a eficácia de um medicamento homeopático, ocorreu em 1835. A experimentação com campanhas publicitárias, que foi comparada aos testes A / B modernos, começou no início do século XX. O pioneiro da publicidade Claude Hopkins usou cupons promocionais para testar a eficácia de suas campanhas. No entanto, esse processo, que Hopkins descreveu em seu Scientific Advertising , não incorporou conceitos como significância estatística e a hipótese nula , que são usados ​​em testes de hipóteses estatísticas . Métodos estatísticos modernos para avaliar a significância dos dados da amostra foram desenvolvidos separadamente no mesmo período. Este trabalho foi feito em 1908 por William Sealy Gosset quando ele alterou o teste Z para criar o teste t de Student .

Com o crescimento da Internet, novas formas de amostrar populações tornaram-se disponíveis. Os engenheiros do Google realizaram seu primeiro teste A / B no ano 2000 na tentativa de determinar qual seria o número ideal de resultados a serem exibidos na página de resultados do mecanismo de pesquisa. O primeiro teste não teve êxito devido a falhas que resultaram de tempos de carregamento lentos. Mais tarde, a pesquisa de testes A / B seria mais avançada, mas a base e os princípios básicos geralmente permanecem os mesmos e, em 2011, 11 anos após o primeiro teste do Google, o Google executou mais de 7.000 testes A / B diferentes.

Em 2012, um funcionário da Microsoft que trabalhava no mecanismo de busca Microsoft Bing criou um experimento para testar diferentes maneiras de exibir manchetes de publicidade. Em poucas horas, o formato alternativo produziu um aumento de receita de 12%, sem impacto nas métricas de experiência do usuário. Hoje, empresas como a Microsoft e o Google conduzem cada uma mais de 10.000 testes A / B anualmente.

Muitas empresas agora usam a abordagem de "experimento projetado" para tomar decisões de marketing, com a expectativa de que resultados de amostra relevantes possam melhorar os resultados de conversão positivos. É uma prática cada vez mais comum à medida que as ferramentas e o conhecimento aumentam nessa área.

Exemplos

Marketing de email

Uma empresa com uma base de dados de clientes de 2.000 pessoas decide criar uma campanha de e-mail com um código de desconto para gerar vendas através de seu site. Ele cria duas versões do e-mail com apelo à ação diferente (a parte da cópia que incentiva os clientes a fazerem algo - no caso de uma campanha de vendas, fazer uma compra) e código promocional de identificação.

  • Para 1.000 pessoas envia o e-mail com a frase de chamariz informando: "A oferta termina neste sábado! Use o código A1",
  • e para outras 1.000 pessoas envia o e-mail com a frase de chamariz dizendo: "A oferta acaba em breve! Use o código B1".

Todos os outros elementos da cópia e do layout dos e-mails são idênticos. A empresa então monitora qual campanha tem a maior taxa de sucesso, analisando o uso dos códigos promocionais. O e-mail com o código A1 tem uma taxa de resposta de 5% (50 das 1.000 pessoas enviadas usaram o código para comprar um produto), e o e-mail com o código B1 tem uma taxa de resposta de 3% (30 dos destinatários usaram o código para comprar um produto). A empresa, portanto, determina que, neste caso, o primeiro apelo à ação é mais eficaz e irá utilizá-lo em vendas futuras. Uma abordagem mais sutil envolveria a aplicação de testes estatísticos para determinar se as diferenças nas taxas de resposta entre A1 e B1 eram estatisticamente significativas (ou seja, altamente provável que as diferenças sejam reais, repetíveis e não devidas ao acaso).

No exemplo acima, o objetivo do teste é determinar qual é a maneira mais eficaz de incentivar os clientes a fazer uma compra. Se, no entanto, o objetivo do teste fosse ver qual e-mail geraria a taxa de cliques mais alta  - ou seja, o número de pessoas que realmente clicam no site depois de receber o e-mail -, os resultados poderiam ter sido diferentes.

Por exemplo, embora mais clientes que recebem o código B1 acessem o site, porque a chamada para ação não indica a data de término da promoção, muitos deles podem não sentir urgência em fazer uma compra imediata. Consequentemente, se o objetivo do teste fosse simplesmente verificar qual e-mail traria mais tráfego para o site, o e-mail contendo o código B1 poderia ter sido mais bem-sucedido. Um teste A / B deve ter um resultado definido que seja mensurável, como número de vendas realizadas, conversão de taxa de cliques ou número de pessoas se inscrevendo / registrando.

Teste A / B para preços de produtos

O teste A / B pode ser usado para determinar o preço certo para o produto, pois essa talvez seja uma das tarefas mais difíceis quando um novo produto ou serviço é lançado.

O teste A / B (especialmente válido para produtos digitais) é uma excelente maneira de descobrir qual faixa de preço e oferta maximizam a receita total.

Teste A / B político

Os testes A / B são usados ​​para mais do que empresas, mas também impulsionam campanhas políticas . Em 2007, a campanha presidencial de Barack Obama usou o teste A / B como uma forma de angariar atração online e entender o que os eleitores queriam ver do candidato presidencial. Por exemplo, a equipe de Obama testou quatro botões distintos em seu site que levaram os usuários a se inscrever para receber boletins informativos. Além disso, a equipe usou seis imagens diferentes de acompanhamento para atrair os usuários. Por meio de testes A / B, os funcionários foram capazes de determinar como atrair eleitores de maneira eficaz e atrair mais interesse.

Roteamento HTTP e teste de recurso de API

Roteador HTTP com teste A / B

O teste A / B é muito comum ao implantar uma versão mais recente de uma API. Para teste de experiência do usuário em tempo real, um proxy reverso HTTP Layer-7 é configurado de forma que N % do tráfego HTTP vá para a versão mais recente da instância de back-end, enquanto os 100-N % restantes do tráfego HTTP acertam a versão mais antiga (estável) do serviço de aplicativo HTTP de back-end. Isso geralmente é feito para limitar a exposição dos clientes a uma instância de back-end mais recente de forma que, se houver um bug na versão mais recente, apenas N % do total de agentes de usuário ou clientes sejam afetados, enquanto outros são roteados para um back-end estável, que é um mecanismo de controle de ingresso comum.

Segmentação e direcionamento

Os testes A / B geralmente aplicam a mesma variante (por exemplo, elemento da interface do usuário) com igual probabilidade para todos os usuários. No entanto, em algumas circunstâncias, as respostas às variantes podem ser heterogêneas. Ou seja, enquanto uma variante A pode ter uma taxa de resposta geral mais alta, a variante B pode ter uma taxa de resposta ainda mais alta dentro de um segmento específico da base de clientes.

Por exemplo, no exemplo acima, a divisão das taxas de resposta por gênero poderia ter sido:

Gênero Geral Homens Mulheres
Total de envios 2.000 1.000 1.000
Respostas totais 80 35 45
Variante A 50/ 1.000 (5%) 10/ 500 (2%) 40/ 500 (8%)
Variante B 30/ 1.000 (3%) 25/ 500 (5%) 5/ 500 (1%)

Nesse caso, podemos ver que, enquanto a variante A teve uma taxa de resposta geral mais alta, a variante B, na verdade, teve uma taxa de resposta mais alta com os homens.

Como resultado, a empresa pode selecionar uma estratégia segmentada como resultado do teste A / B, enviando a variante B para homens e a variante A para mulheres no futuro. Neste exemplo, uma estratégia segmentada produziria um aumento nas taxas de resposta esperadas de a - constituindo um aumento de 30%.

Se resultados segmentados forem esperados do teste A / B, o teste deve ser projetado adequadamente no início para ser distribuído uniformemente entre os principais atributos do cliente, como gênero. Ou seja, o teste deve (a) conter uma amostra representativa de homens vs. mulheres e (b) atribuir homens e mulheres aleatoriamente a cada “variante” (variante A vs. variante B). Não fazer isso pode levar a um viés de experimento e conclusões imprecisas a serem tiradas do teste.

Essa abordagem de segmentação e direcionamento pode ser ainda mais generalizada para incluir vários atributos do cliente em vez de um único atributo do cliente - por exemplo, idade e sexo do cliente - para identificar padrões mais diferenciados que podem existir nos resultados do teste.

Veja também

Referências