Experimento fatorial - Factorial experiment

Experimentos projetados com planejamento fatorial completo (esquerda), superfície de resposta com polinômio de segundo grau (direita)

Em estatística , um experimento fatorial completo é um experimento cujo design consiste em dois ou mais fatores, cada um com valores possíveis discretos ou "níveis", e cujas unidades experimentais assumem todas as combinações possíveis desses níveis em todos esses fatores. Um experimento fatorial completo também pode ser chamado de experimento totalmente cruzado . Tal experimento permite ao investigador estudar o efeito de cada fator na variável de resposta , bem como os efeitos das interações entre os fatores na variável de resposta.

Para a grande maioria dos experimentos fatoriais, cada fator tem apenas dois níveis. Por exemplo, com dois fatores, cada um tomando dois níveis, um experimento fatorial teria quatro combinações de tratamento no total e é normalmente chamado de projeto fatorial 2 × 2 .

Se o número de combinações em um experimento fatorial completo for muito alto para ser logisticamente viável, um experimento fatorial fracionário pode ser feito, no qual algumas das combinações possíveis (geralmente pelo menos metade) são omitidas.

História

Os experimentos fatoriais foram usados ​​no século 19 por John Bennet Lawes e Joseph Henry Gilbert da Estação Experimental de Rothamsted .

Ronald Fisher argumentou em 1926 que projetos "complexos" (como projetos fatoriais) eram mais eficientes do que estudar um fator de cada vez. Fisher escreveu,

"Nenhum aforismo é repetido com mais frequência em conexão com os testes de campo do que devemos fazer poucas perguntas à Natureza, ou, idealmente, uma pergunta por vez. O escritor está convencido de que essa visão está totalmente equivocada."

A natureza, sugere ele, responderá melhor a "um questionário lógico e cuidadosamente elaborado". Um projeto fatorial permite que o efeito de vários fatores e mesmo as interações entre eles sejam determinados com o mesmo número de tentativas necessárias para determinar qualquer um dos efeitos por si mesmo com o mesmo grau de precisão.

Frank Yates fez contribuições significativas, particularmente na análise de projetos, pela análise de Yates .

O termo "fatorial" pode não ter sido usado na impressão antes de 1935, quando Fisher o usou em seu livro The Design of Experiments .

Vantagens dos experimentos fatoriais

Muitas pessoas examinam o efeito de apenas um único fator ou variável. Em comparação com esses experimentos de um fator de cada vez (OFAT), os experimentos fatoriais oferecem várias vantagens

  • Os experimentos fatoriais são mais eficientes do que os experimentos OFAT. Eles fornecem mais informações a um custo semelhante ou inferior. Eles podem encontrar as condições ideais mais rapidamente do que os experimentos OFAT.
  • Os projetos fatoriais permitem que fatores adicionais sejam examinados sem nenhum custo adicional.
  • Quando o efeito de um fator é diferente para diferentes níveis de outro fator, ele não pode ser detectado por um projeto de experimento OFAT. Projetos fatoriais são necessários para detectar tais interações . O uso de OFAT quando as interações estão presentes pode levar a sérios mal-entendidos de como a resposta muda com os fatores.
  • Os projetos fatoriais permitem que os efeitos de um fator sejam estimados em vários níveis dos outros fatores, produzindo conclusões que são válidas em uma variedade de condições experimentais.

Exemplo de vantagens de experimentos fatoriais

Em seu livro, Improving Almost Anything: Ideas and Essays , o estatístico George Box dá muitos exemplos dos benefícios dos experimentos fatoriais. Aqui está um. Os engenheiros do fabricante de rolamentos SKF queriam saber se a mudança para um projeto de "gaiola" mais barato afetaria a vida útil do rolamento. Os engenheiros pediram a Christer Hellstrand, um estatístico, ajuda no projeto do experimento.

Gráfico cúbico para a vida do rolamento.svg

Box relata o seguinte. "Os resultados foram avaliados por um teste de vida acelerado. ... As execuções eram caras porque precisavam ser feitas em uma linha de produção real e os experimentadores planejavam fazer quatro execuções com a gaiola padrão e quatro com a gaiola modificada. Christer perguntou se havia outros fatores que gostariam de testar. Eles disseram que sim, mas que fazer corridas adicionais excederia seu orçamento. Christer mostrou como eles poderiam testar dois fatores adicionais "gratuitamente" - sem aumentar o número de corridas e sem reduzir o precisão da estimativa do efeito da gaiola. Neste arranjo, chamado de projeto fatorial 2 × 2 × 2, cada um dos três fatores seria executado em dois níveis e todas as oito combinações possíveis incluídas. As várias combinações podem ser convenientemente mostradas como os vértices de um cubo ... "" Em cada caso, a condição padrão é indicada por um sinal de menos e a condição modificada por um sinal de mais. Os fatores alterados foram tratamento térmico, osculação do anel externo e projeto da gaiola. Os números mostram a duração relativa da vida útil dos rolamentos. Se você olhar [o gráfico do cubo], pode ver que a escolha do design da gaiola não fez muita diferença. … Mas, se você calcular a média dos pares de números para o design da gaiola, você obterá a [tabela abaixo], que mostra o que os outros dois fatores fizeram. … Isso levou à descoberta extraordinária de que, nesta aplicação específica, a vida útil de um rolamento pode ser aumentada em cinco vezes se os dois fatores de osculação do anel externo e os tratamentos térmicos do anel interno forem aumentados juntos. "

Vida útil do rolamento vs. calor e osculação
Osculação - Osculação +
Calor - 18 23
Calor + 21 106

"Lembrando que rolamentos como este são fabricados há décadas, a princípio é surpreendente que pudesse demorar tanto para descobrir uma melhoria tão importante. Uma explicação provável é que, porque a maioria dos engenheiros, até recentemente, empregou apenas um fator em uma experimentação de tempo, os efeitos de interação foram perdidos. "

Exemplo

O experimento fatorial mais simples contém dois níveis para cada um dos dois fatores. Suponha que um engenheiro deseje estudar a potência total usada por cada um dos dois motores diferentes, A e B, funcionando em duas velocidades diferentes, 2.000 ou 3.000 RPM. O experimento fatorial consistiria em quatro unidades experimentais: motor A a 2.000 RPM, motor B a 2.000 RPM, motor A a 3.000 RPM e motor B a 3.000 RPM. Cada combinação de um único nível selecionado de cada fator está presente uma vez.

Este experimento é um exemplo de experimento fatorial 2 2 (ou 2 × 2), assim chamado porque considera dois níveis (a base) para cada um dos dois fatores (a potência ou sobrescrito), ou # níveis #fatores , produzindo 2 2 = 4 pontos fatoriais.

Gráfico de cubo para design fatorial

Os projetos podem envolver muitas variáveis ​​independentes. Como outro exemplo, os efeitos de três variáveis ​​de entrada podem ser avaliados em oito condições experimentais mostradas como os cantos de um cubo.

Isso pode ser realizado com ou sem replicação, dependendo da finalidade pretendida e dos recursos disponíveis. Ele fornecerá os efeitos das três variáveis ​​independentes sobre a variável dependente e as possíveis interações.

Notação

Experiência fatorial 2 × 2
UMA B
(1) - -
uma + -
b - +
ab + +

A notação usada para denotar experimentos fatoriais veicula muitas informações. Quando um experimento é denotado um fatorial 2 3 , isso identifica o número de fatores (3); quantos níveis cada fator possui (2); e quantas condições experimentais existem no projeto (2 3  = 8). Da mesma forma, um projeto 2 5 tem cinco fatores, cada um com dois níveis, e 2 5  = 32 condições experimentais. Os experimentos fatoriais podem envolver fatores com diferentes números de níveis. Um projeto 2 4 3 tem cinco fatores, quatro com dois níveis e um com três níveis, e tem 16 × 3 = 48 condições experimentais.

Para economizar espaço, os pontos em um experimento fatorial de dois níveis são freqüentemente abreviados com cadeias de sinais de mais e menos. As strings têm tantos símbolos quanto fatores, e seus valores ditam o nível de cada fator: convencionalmente, para o primeiro nível (ou baixo) e para o segundo (ou alto) nível. Os pontos neste experimento pode assim ser representada como , , , e .

Os pontos fatoriais também podem ser abreviados por (1), a, b e ab, onde a presença de uma letra indica que o fator especificado está em seu nível alto (ou segundo) e a ausência de uma letra indica que o fator especificado está em seu nível baixo (ou primeiro) (por exemplo, "a" indica que o fator A está em sua configuração alta, enquanto todos os outros fatores estão em sua configuração baixa (ou primeira)). (1) é usado para indicar que todos os fatores estão em seus valores mais baixos (ou primeiros).

Implementação

Para mais de dois fatores, um experimento fatorial de 2 k pode geralmente ser projetado recursivamente a partir de um experimento fatorial de 2 k −1 replicando o experimento de 2 k −1 , atribuindo a primeira réplica ao primeiro (ou baixo) nível do novo fator, e a segunda replica para o segundo (ou alto) nível. Esta estrutura pode ser generalizada para, por exemplo , a concepção de três repetições para três factores de nível, etc .

Um experimento fatorial permite estimar o erro experimental de duas maneiras. O experimento pode ser replicado , ou o princípio da dispersão dos efeitos pode frequentemente ser explorado. A replicação é mais comum para pequenos experimentos e é uma maneira muito confiável de avaliar o erro experimental. Quando o número de fatores é grande (normalmente mais do que cerca de 5 fatores, mas isso varia de acordo com a aplicação), a replicação do projeto pode se tornar operacionalmente difícil. Nesses casos, é comum executar apenas uma única réplica do projeto e assumir que as interações de fator de mais de uma determinada ordem (digamos, entre três ou mais fatores) são insignificantes. Sob essa suposição, as estimativas de tais interações de alta ordem são estimativas de um zero exato, portanto, na verdade, uma estimativa de erro experimental.

Quando há muitos fatores, muitas execuções experimentais serão necessárias, mesmo sem replicação. Por exemplo, fazer experiências com 10 fatores em dois níveis, cada um produz 2 10 = 1024 combinações. Em algum ponto, isso se torna inviável devido ao alto custo ou recursos insuficientes. Nesse caso, experimentos fatoriais fracionários podem ser usados.

Como acontece com qualquer experimento estatístico, as execuções experimentais em um experimento fatorial devem ser randomizados para reduzir o impacto que o viés poderia ter nos resultados experimentais. Na prática, isso pode ser um grande desafio operacional.

Experimentos fatoriais podem ser usados ​​quando há mais de dois níveis de cada fator. No entanto, o número de execuções experimentais necessárias para experimentos fatoriais de três níveis (ou mais) será consideravelmente maior do que para suas contrapartes de dois níveis. Os desenhos fatoriais são, portanto, menos atraentes se um pesquisador deseja considerar mais de dois níveis.

Análise

Um experimento fatorial pode ser analisado usando ANOVA ou análise de regressão . Para calcular o efeito principal de um fator "A", subtraia a resposta média de todas as execuções experimentais para as quais A estava em seu nível baixo (ou primeiro) da resposta média de todas as execuções experimentais para as quais A estava em seu nível alto (ou segundo ) nível.

Outras ferramentas de análise exploratória úteis para experimentos fatoriais incluem gráficos de efeitos principais, gráficos de interação , gráficos de Pareto e um gráfico de probabilidade normal dos efeitos estimados.

Quando os fatores são contínuos, os experimentos fatoriais de dois níveis pressupõem que os efeitos são lineares . Se um efeito quadrático é esperado para um fator, um experimento mais complicado deve ser usado, como um projeto composto central . A otimização de fatores que podem ter efeitos quadráticos é o objetivo principal da metodologia de superfície de resposta .

Exemplo de análise

Montgomery dá o seguinte exemplo de análise de um experimento fatorial :.

Um engenheiro gostaria de aumentar a taxa de filtração (saída) de um processo para produzir um produto químico e reduzir a quantidade de formaldeído usada no processo. Tentativas anteriores de reduzir o formaldeído reduziram a taxa de filtração. A taxa de filtragem atual é de 75 galões por hora. Quatro fatores são considerados: temperatura (A), pressão (B), concentração de formaldeído (C) e taxa de agitação (D). Cada um dos quatro fatores será testado em dois níveis.

Em diante, os sinais de menos (-) e mais (+) indicarão se o fator é executado em um nível baixo ou alto, respectivamente.

Matriz de design e taxa de filtração resultante
UMA B C D Taxa de filtração
- - - - 45
+ - - - 71
- + - - 48
+ + - - 65
- - + - 68
+ - + - 60
- + + - 80
+ + + - 65
- - - + 43
+ - - + 100
- + - + 45
+ + - + 104
- - + + 75
+ - + + 86
- + + + 70
+ + + + 96

As linhas não paralelas no gráfico de interação A: C indicam que o efeito do fator A depende do nível do fator C. Resultados semelhantes são válidos para a interação A: D. Os gráficos indicam que o fator B tem pouco efeito na taxa de filtração. A análise de variância (ANOVA) incluindo todos os 4 fatores e todos os termos de interação possíveis entre eles produz as estimativas de coeficiente mostradas na tabela abaixo.

Resultados ANOVA
Coeficientes Estimativa
Interceptar 70.063
UMA 10,813
B 1.563
C 4,938
D 7.313
A: B 0,063
A: C -9,063
B: C 1,188
DE ANÚNCIOS 8,313
B: D -0,188
CD -0,563
ABC 0,938
A: B: D 2.063
A: C: D -0,813
B: C: D -1,313
A: B: C: D 0,688
Gráfico de Pareto mostrando a magnitude relativa dos coeficientes do fator.

Como existem 16 observações e 16 coeficientes (interceptação, efeitos principais e interações), os valores de p não podem ser calculados para este modelo. Os valores dos coeficientes e os gráficos sugerem que os fatores importantes são A, C e D, e os termos de interação A: C e A: D.

Os coeficientes para A, C e D são todos positivos na ANOVA, o que sugere a execução do processo com todas as três variáveis ​​definidas para o valor alto. No entanto, o principal efeito de cada variável é a média sobre os níveis das outras variáveis. O gráfico de interação A: C acima mostra que o efeito do fator A depende do nível do fator C e vice-versa. O fator A (temperatura) tem muito pouco efeito na taxa de filtração quando o fator C está no nível +. Mas o fator A tem um grande efeito na taxa de filtração quando o fator C (formaldeído) está no nível -. A combinação de A no nível + e C no nível - fornece a taxa de filtragem mais alta. Essa observação indica como as análises de um fator por vez podem perder interações importantes. Somente variando os fatores A e C ao mesmo tempo, o engenheiro poderia descobrir que o efeito do fator A depende do nível do fator C.

Gráfico de cubo para a ANOVA usando os fatores A, C e D e os termos de interação A: C e A: D. O gráfico auxilia na visualização do resultado e mostra que a melhor combinação é A +, D + e C−.

A melhor taxa de filtração é observada quando A e D estão no nível alto e C está no nível baixo. Esse resultado também atende ao objetivo de redução do formaldeído (fator C). Como B não parece ser importante, ele pode ser excluído do modelo. Realizar a ANOVA usando os fatores A, C e D e os termos de interação A: C e A: D, dá o resultado mostrado na tabela a seguir, em que todos os termos são significativos (p-valor <0,05).

Resultados ANOVA
Coeficiente Estimativa Erro padrão valor t valor p
Interceptar 70.062 1,104 63,444 2,3 × 10 −14
UMA 10,812 1,104 9,791 1,9 × 10 −6
C 4,938 1,104 4,471 1,2 × 10 −3
D 7.313 1,104 6,622 5,9 × 10 −5
A: C -9,063 1,104 -8.206 9,4 × 10 −6
DE ANÚNCIOS 8,312 1,104 7.527 2 × 10 −5

Veja também

Notas

Referências

links externos