Distribuição multinomial - Multinomial distribution

Multinomial
Parâmetros número de tentativas ( número inteiro ) de probabilidades de evento ( )
Apoiar
PMF
Mau
Variância
Entropia
MGF
CF Onde
PGF

Na teoria da probabilidade , a distribuição multinomial é uma generalização da distribuição binomial . Por exemplo, ele modela a probabilidade de contagens para cada lado de um dado do lado K rolado n vezes. Para n tentativas independentes , cada uma delas leva a um sucesso para exatamente uma das k categorias, com cada categoria tendo uma determinada probabilidade de sucesso fixa, a distribuição multinomial fornece a probabilidade de qualquer combinação particular de números de sucessos para as várias categorias.

Quando k é 2 e n é 1, a distribuição multinomial é a distribuição de Bernoulli . Quando k é 2 e n é maior que 1, é a distribuição binomial . Quando k é maior que 2 e n é 1, é a distribuição categórica .

A distribuição de Bernoulli modela o resultado de um único ensaio de Bernoulli . Em outras palavras, ele modela se jogar uma moeda (possivelmente enviesada ) uma vez resultará em sucesso (obtenção de cara) ou falha (obtenção de coroa). A distribuição binomial generaliza isso para o número de caras de n lançamentos independentes (tentativas de Bernoulli) da mesma moeda. A distribuição multinomial modela o resultado de n experimentos, em que o resultado de cada teste tem uma distribuição categórica , como rolar um dado do lado K n vezes.

Seja k um número finito fixo. Matematicamente, temos k possíveis resultados mutuamente exclusivos, com as probabilidades correspondentes p 1 , ..., p k e n tentativas independentes. Como os k resultados são mutuamente exclusivos e um deve ocorrer, temos p i  ≥ 0 para i  = 1, ...,  k e . Então, se as variáveis ​​aleatórias X i indicam o número de vezes que o resultado número i é observado ao longo das n tentativas, o vetor X  = ( X 1 , ...,  X k ) segue uma distribuição multinomial com os parâmetros n e p , onde p  = ( p 1 , ...,  p k ). Embora as tentativas sejam independentes, seus resultados X são dependentes porque devem ser somados a n.

Definições

Função de massa de probabilidade

Suponha que se faça um experimento para extrair n bolas de k cores diferentes de um saco, substituindo as bolas extraídas após cada sorteio. Bolas da mesma cor são equivalentes. Denote a variável que é o número de bolas extraídas da cor i ( i = 1, ..., k ) como X i , e denote como p i a probabilidade de que uma determinada extração seja da cor i . A função de massa de probabilidade desta distribuição multinomial é:

para inteiros não negativos x 1 , ..., x k .

A função de massa de probabilidade pode ser expressa usando a função gama como:

Esta forma mostra sua semelhança com a distribuição de Dirichlet , que é seu conjugado anterior .


Exemplo

Suponha que, em uma eleição tríplice para um grande país, o candidato A receba 20% dos votos, o candidato B receba 30% dos votos e o candidato C receba 50% dos votos. Se seis eleitores forem selecionados aleatoriamente, qual é a probabilidade de que haja exatamente um apoiador para o candidato A, dois apoiadores para o candidato B e três apoiadores para o candidato C na amostra?

Nota: Como estamos assumindo que a população eleitoral é grande, é razoável e permissível pensar nas probabilidades como imutáveis, uma vez que um eleitor é selecionado para a amostra. Tecnicamente falando, isso é amostragem sem reposição, então a distribuição correta é a distribuição hipergeométrica multivariada , mas as distribuições convergem conforme a população cresce.

Propriedades

Valor esperado e variação

O número esperado de vezes que o resultado i foi observado em n tentativas é

A matriz de covariância é a seguinte. Cada entrada diagonal é a variância de uma variável aleatória distribuída binomialmente e, portanto,

As entradas fora da diagonal são as covariâncias :

para i , j distinto.

Todas as covariâncias são negativas porque para n fixo , um aumento em um componente de um vetor multinomial requer uma diminuição em outro componente.

Quando estas expressões são combinados numa matriz com i, j elemento o resultado é um k x k positivo-semidefinido covariância matriz de posto k  - 1. No caso especial em que K  =  N e onde o p i são todos iguais, a covariância matriz é a matriz de centralização .

As entradas da matriz de correlação correspondente são

Observe que o tamanho da amostra é excluído dessa expressão.

Cada um dos k componentes separadamente tem uma distribuição binomial com os parâmetros n e p i , para o valor apropriado do subscrito i .

O suporte da distribuição multinomial é o conjunto

Seu número de elementos é

Notação de matriz

Em notação de matriz,

e

com p T = a transposta do vetor linha do vetor coluna p .


Visualização

Como fatias do triângulo de Pascal generalizado

Assim como se pode interpretar a distribuição binomial como fatias unidimensionais (1D) (normalizadas) do triângulo de Pascal , também se pode interpretar a distribuição multinomial como fatias 2D (triangulares) da pirâmide de Pascal , ou 3D / 4D / + (pirâmide- em forma) fatias de análogos de dimensões superiores do triângulo de Pascal. Isso revela uma interpretação do intervalo da distribuição: "pirâmides" equiláteras discretizadas em dimensão arbitrária - isto é, um simplex com uma grade.

Como coeficientes polinomiais

Da mesma forma, assim como se pode interpretar a distribuição binomial como os coeficientes polinomiais de quando expandida, pode-se interpretar a distribuição multinomial como os coeficientes de quando expandida. (Observe que, assim como a distribuição binomial, os coeficientes devem somar 1.) Esta é a origem do nome " distribuição multinomial ".

Distribuições relacionadas

Em alguns campos, como processamento de linguagem natural , as distribuições categóricas e multinomiais são sinônimos e é comum falar de uma distribuição multinomial quando uma distribuição categórica realmente se refere. Isso decorre do fato de que às vezes é conveniente expressar o resultado de uma distribuição categórica como um vetor "1 de K" (um vetor com um elemento contendo 1 e todos os outros elementos contendo 0) em vez de um inteiro no intervalo ; dessa forma, uma distribuição categórica é equivalente a uma distribuição multinomial em um único ensaio.


Inferência estatística

Testes de equivalência para distribuições multinomiais

O objetivo do teste de equivalência é estabelecer a concordância entre uma distribuição multinomial teórica e as frequências de contagem observadas. A distribuição teórica pode ser uma distribuição multinomial totalmente especificada ou uma família paramétrica de distribuições multinomiais.

Deixe denotar uma distribuição multinomial teórica e deixe ser uma distribuição subjacente verdadeira. As distribuições e são consideradas equivalentes se para uma distância e um parâmetro de tolerância . O problema do teste de equivalência é versus . A verdadeira distribuição subjacente é desconhecida. Em vez disso, as frequências de contagem são observadas, onde é um tamanho de amostra. Um teste de equivalência usa para rejeitar . Se pode ser rejeitado, a equivalência entre e é mostrada em um determinado nível de significância. O teste de equivalência para distância euclidiana pode ser encontrado no livro texto de Wellek (2010). O teste de equivalência para a distância de variação total é desenvolvido em Ostrovski (2017). O teste de equivalência exata para a distância cumulativa específica é proposto em Frey (2009).

A distância entre a distribuição subjacente verdadeira e uma família de distribuições multinomiais é definida por . Então, o problema do teste de equivalência é dado por e . A distância geralmente é calculada usando a otimização numérica. Os testes para este caso são desenvolvidos recentemente em Ostrovski (2018).


Métodos computacionais

Amostragem de uma distribuição multinomial

Primeiro, reordene os parâmetros de forma que sejam classificados em ordem decrescente (isso é apenas para acelerar o cálculo e não é estritamente necessário). Agora, para cada tentativa, extraia uma variável auxiliar X de uma distribuição uniforme (0, 1). O resultado resultante é o componente

{ X J = 1, X k = 0 para k  ≠  j } é uma observação a partir da distribuição multinominal com e n  = 1. A soma das repetições independentes desta experiência é uma observação a partir de uma distribuição multinominal com n igual ao número de tais repetições.

Para simular a partir de uma distribuição multinomial

Vários métodos podem ser usados ​​para simular a partir de uma distribuição multinomial. Uma solução muito simples é usar um gerador de números pseudo-aleatórios uniforme em (0,1). Primeiro, dividimos o intervalo (0,1) em  k subintervalos de comprimento igual às probabilidades das k categorias. Em seguida, geramos n números pseudo-aleatórios independentes para determinar em qual dos k intervalos eles ocorrem e contamos o número de ocorrências em cada intervalo.

Exemplo

Se tiver-mos:

Categorias 1 2 3 4 5 6
Probabilidades 0,15 0,20 0,30 0,16 0,12 0,07
Limites superiores de subintervalos 0,15 0,35 0,65 0,81 0,93 1,00

Então, com softwares como o Excel, podemos usar a seguinte receita:

Células: Ai Bi Ci ... Gi
Fórmulas: Rand () = If ($ Ai <0,15; 1; 0) = If (E ($ Ai> = 0,15; $ Ai <0,35); 1; 0) ... = If ($ Ai> = 0,93; 1; 0)

Depois disso, usaremos funções como SumIf para acumular os resultados observados por categoria e calcular a matriz de covariância estimada para cada amostra simulada.

Outra maneira é usar um gerador de números aleatórios discreto. Nesse caso, as categorias devem ser rotuladas ou renomeadas com valores numéricos.

Nos dois casos, o resultado é uma distribuição multinomial com k categorias. Isso é equivalente, com uma distribuição aleatória contínua, para simular k distribuições normais padronizadas independentes, ou uma distribuição multinormal N (0, I) tendo k componentes distribuídos de forma idêntica e estatisticamente independentes.

Uma vez que as contagens de todas as categorias têm que somar ao número de tentativas, as contagens das categorias são sempre negativamente correlacionadas.

Referências

Citações

Origens