Convergência de variáveis ​​aleatórias - Convergence of random variables

Na teoria da probabilidade , existem várias noções diferentes de convergência de variáveis ​​aleatórias . A convergência de sequências de variáveis ​​aleatórias para alguma variável aleatória limite é um conceito importante na teoria da probabilidade e em suas aplicações a estatísticas e processos estocásticos . Os mesmos conceitos são conhecidos na matemática mais geral como convergência estocástica e formalizam a ideia de que uma sequência de eventos essencialmente aleatórios ou imprevisíveis pode às vezes se estabelecer em um comportamento que é essencialmente imutável quando itens distantes o suficiente na sequência são estudados. As diferentes noções possíveis de convergência se relacionam a como tal comportamento pode ser caracterizado: dois comportamentos prontamente compreendidos são que a sequência eventualmente assume um valor constante e que os valores na sequência continuam a mudar, mas podem ser descritos por uma distribuição de probabilidade imutável.

Fundo

A "convergência estocástica" formaliza a ideia de que uma sequência de eventos essencialmente aleatórios ou imprevisíveis pode às vezes se estabelecer em um padrão. O padrão pode ser, por exemplo,

  • Convergência no sentido clássico para um valor fixo, talvez ela própria proveniente de um evento aleatório
  • Uma crescente semelhança de resultados com o que uma função puramente determinística produziria
  • Uma preferência crescente por um determinado resultado
  • Uma crescente "aversão" contra se afastar muito de um determinado resultado
  • Que a distribuição de probabilidade que descreve o próximo resultado pode crescer cada vez mais semelhante a uma certa distribuição

Alguns padrões menos óbvios e mais teóricos podem ser

  • Que a série formada pelo cálculo do valor esperado da distância do resultado de um determinado valor pode convergir para 0
  • Que a variância da variável aleatória que descreve o próximo evento fica cada vez menor.

Esses outros tipos de padrões que podem surgir são refletidos nos diferentes tipos de convergência estocástica que foram estudados.

Embora a discussão acima esteja relacionada à convergência de uma única série a um valor limite, a noção da convergência de duas séries uma em relação à outra também é importante, mas isso é facilmente resolvido estudando a sequência definida como a diferença ou a razão das duas séries.

Por exemplo, se a média de n variáveis ​​aleatórias independentes Y i , i = 1, ..., n , todas tendo a mesma média finita e variância , é dada por

então, como n tende para o infinito, X n converge em probabilidade (veja abaixo) para a média comum , μ, das variáveis ​​aleatórias Y i . Esse resultado é conhecido como a lei fraca dos grandes números . Outras formas de convergência são importantes em outros teoremas úteis, incluindo o teorema do limite central .

Ao longo do que se segue, assumimos que ( X n ) é uma sequência de variáveis ​​aleatórias e X é uma variável aleatória, e todas elas são definidas no mesmo espaço de probabilidade .

Convergência na distribuição

Exemplos de convergência na distribuição
Fábrica de dados
Suponha que uma nova fábrica de dados tenha acabado de ser construída. Os primeiros dados saem bastante enviesados, devido a imperfeições no processo de produção. O resultado do lançamento de qualquer um deles seguirá uma distribuição marcadamente diferente da distribuição uniforme desejada .

À medida que a fábrica é aprimorada, os dados ficam cada vez menos carregados e os resultados do lançamento de um dado recém-produzido seguem a distribuição uniforme cada vez mais de perto.
Jogando moedas
Seja X n a fração de caras depois de lançar uma moeda imparcial n vezes. Então, X 1 tem a distribuição de Bernoulli com valor esperado μ = 0,5 e variância σ 2 = 0,25 . As variáveis ​​aleatórias subsequentes X 2 , X 3 , ... serão todas distribuídas binomialmente .

À medida que n se torna maior, essa distribuição gradualmente começa a tomar forma cada vez mais semelhante à curva em sino da distribuição normal. Se mudarmos e redimensionarmos X n apropriadamente, então estaremos convergindo na distribuição para o normal padrão, o resultado que segue do famoso teorema do limite central .
Exemplo gráfico
Suponha que { X i } seja uma sequência iid de variáveis ​​aleatórias uniformes U (−1, 1) . Sejam suas somas (normalizadas). Então, de acordo com o teorema do limite central , a distribuição de Z n se aproxima do N normal (0, 1/3) distribuição. Essa convergência é mostrada na imagem: conforme n fica maior, a forma da função de densidade de probabilidade se aproxima cada vez mais da curva gaussiana.
Convergência na distribuição (soma de rvs uniformes) .gif

Com esse modo de convergência, esperamos cada vez mais ver o próximo resultado em uma sequência de experimentos aleatórios se tornando cada vez melhor modelado por uma determinada distribuição de probabilidade .

A convergência na distribuição é a forma mais fraca de convergência tipicamente discutida, uma vez que está implícita em todos os outros tipos de convergência mencionados neste artigo. No entanto, a convergência na distribuição é muito frequentemente usada na prática; na maioria das vezes, surge da aplicação do teorema do limite central .

Definição

Uma sequência X 1 , X 2 , ... de variáveis ​​aleatórias de valor real é dita convergir na distribuição , ou convergir fracamente , ou convergir na lei para uma variável aleatória X se

para cada número em que F é contínuo . Aqui, F n e F são as funções de distribuição cumulativa das variáveis ​​aleatórias X n e X , respectivamente.

A exigência de que apenas os pontos de continuidade de F sejam considerados é essencial. Por exemplo, se X n são distribuídos uniformemente em intervalos (0,1/n) , então essa sequência converge na distribuição para uma variável aleatória degenerada X = 0 . De fato, F n ( x ) = 0 para todo n quando x ≤ 0 , e F n ( x ) = 1 para todo x1/nquando n > 0 . No entanto, para essa variável aleatória limitante, F (0) = 1 , embora F n (0) = 0 para todos os n . Assim, a convergência dos cdfs falha no ponto x = 0 onde F é descontínuo.

A convergência na distribuição pode ser denotada como

 

 

 

 

( 1 )

onde é a lei (distribuição de probabilidade) de X . Por exemplo, se X for normal padrão, podemos escrever .

Para vetores aleatórios { X 1 , X 2 , ...} ⊂ R k a convergência na distribuição é definida de forma semelhante. Dizemos que esta sequência converge na distribuição para um k- vetor X aleatório se

para cada umR k , que é um conjunto de continuidade de X .

A definição de convergência na distribuição pode ser estendida de vetores aleatórios a elementos aleatórios mais gerais em espaços métricos arbitrários , e mesmo às “variáveis ​​aleatórias” que não são mensuráveis ​​- situação que ocorre, por exemplo, no estudo de processos empíricos . Esta é a “convergência fraca de leis sem leis sendo definidas” - exceto assintoticamente.

Neste caso, o termo convergência fraca é preferível (ver convergência fraca de medidas ), e dizemos que uma sequência de elementos aleatórios { X n } converge fracamente para X (denotado como X nX ) se

para todas as funções contínuas limitadas h . Aqui, E * denota a expectativa externa , que é a expectativa de uma “menor função mensurável g que domina h ( X n ) ”.

Propriedades

  • Como F ( a ) = Pr ( Xa ) , a convergência na distribuição significa que a probabilidade de X n estar em um determinado intervalo é aproximadamente igual à probabilidade de que o valor de X esteja nesse intervalo, desde que n seja suficientemente grande .
  • Em geral, a convergência na distribuição não implica que a sequência de funções de densidade de probabilidade correspondentes também convergirá. Como exemplo, pode-se considerar variáveis ​​aleatórias com densidades f n ( x ) = (1 - cos (2 πnx )) 1 (0,1) . Essas variáveis ​​aleatórias convergem em distribuição para um U uniforme (0, 1), enquanto suas densidades não convergem de forma alguma.
  • O lema portmanteau fornece várias definições equivalentes de convergência na distribuição. Embora essas definições sejam menos intuitivas, elas são usadas para provar uma série de teoremas estatísticos. O lema afirma que { X n } converge na distribuição para X se e somente se alguma das seguintes afirmações for verdadeira:
    • para todos os pontos de continuidade de ;
    • para todas as funções limitadas e contínuas (onde denota o operador de valor esperado );
    • para todas as funções limitadas de Lipschitz ;
    • para todas as funções contínuas não negativas ;
    • para cada conjunto aberto ;
    • para cada conjunto fechado ;
    • para todos os conjuntos de continuidade de variáveis ​​aleatórias ;
    • para cada função semicontínua superior limitada acima;
    • para cada função semicontínua inferior limitada abaixo.
  • O teorema do mapeamento contínuo afirma que, para uma função contínua g , se a seqüência { X n } converge na distribuição para X , então { g ( X n )} converge na distribuição para g ( X ) .
    • Observe, no entanto, que a convergência na distribuição de { X n } para X e { Y n } para Y , em geral, não implica convergência na distribuição de { X n + Y n } para X + Y ou de { X n Y n } para XY .
  • Lévy de continuidade teorema : A sequência { X n } converge em distribuição para X , se e apenas se a sequência de correspondentes funções características { φ n } converge pontual para a função característica φ de X .
  • A convergência na distribuição é metrizável pela métrica Lévy – Prokhorov .
  • Um elo natural para a convergência na distribuição é o teorema da representação de Skorokhod .

Convergência em probabilidade

Exemplos de convergência em probabilidade
Altura de uma pessoa
Considere o seguinte experimento. Primeiro, escolha uma pessoa aleatória na rua. Seja X sua altura, que é ex ante uma variável aleatória. Em seguida, peça a outras pessoas para estimarem essa altura a olho. Seja X n a média das primeiras n respostas. Em seguida, (desde que não haja erro sistemático ) pela lei dos grandes números , a sequência X n irão convergir na probabilidade para a variável aleatória X .
Previsão de geração de número aleatório
Suponha que um gerador de números aleatórios gere um número de ponto flutuante pseudo-aleatório entre 0 e 1. Deixe a variável aleatória X representar a distribuição de possíveis saídas pelo algoritmo. Como o número pseudoaleatório é gerado deterministicamente, seu próximo valor não é verdadeiramente aleatório. Suponha que, ao observar uma sequência de números gerados aleatoriamente, você possa deduzir um padrão e fazer previsões cada vez mais precisas sobre qual será o próximo número gerado aleatoriamente. Seja X n sua estimativa do valor do próximo número aleatório depois de observar os primeiros n números aleatórios. Como você aprender o padrão e suas suposições se tornar mais preciso, não só a distribuição de X n converge para a distribuição de X , mas os resultados do X n converge com os resultados da X .

A ideia básica por trás desse tipo de convergência é que a probabilidade de um resultado “incomum” torna-se cada vez menor conforme a sequência avança.

O conceito de convergência em probabilidade é usado muito freqüentemente em estatísticas. Por exemplo, um estimador é chamado de consistente se ele converge em probabilidade para a quantidade sendo estimada. A convergência em probabilidade também é o tipo de convergência estabelecida pela lei fraca dos grandes números .

Definição

Uma sequência { X n } de variáveis ​​aleatórias converge em probabilidade para a variável aleatória X se para todos ε > 0

Mais explicitamente, deixar P n (ε) ser a probabilidade de que X n estiver fora da esfera de raio ε centrado em X . Então X n é dito convergir em probabilidade para X se para qualquer ε > 0 e qualquer δ > 0 existe um número N (que pode depender de ε e δ ) tal que para todo nN , P n (ε) < δ (a definição de limite).

Observe que, para que a condição seja satisfeita, não é possível que para cada n as variáveis ​​aleatórias X e X n sejam independentes (e, portanto, a convergência na probabilidade é uma condição nos cdfs conjuntos, em oposição à convergência na distribuição, que é um nos cdf's individuais), a menos que X seja determinístico como para a lei dos grandes números. Ao mesmo tempo, o caso de um X determinístico não pode, sempre que o valor determinístico for um ponto de descontinuidade (não isolado), ser tratado pela convergência na distribuição, onde os pontos de descontinuidade devem ser explicitamente excluídos.

A convergência em probabilidade é denotada adicionando-se a letra p sobre uma seta indicando convergência ou usando o operador de limite de probabilidade "plim":

 

 

 

 

( 2 )

Para elementos aleatórios { X n } em um espaço métrico separável ( S , d ) , a convergência na probabilidade é definida de forma semelhante por

Propriedades

  • Convergência em probabilidade implica convergência em distribuição. [prova]
  • Na direção oposta, convergência na distribuição implica convergência na probabilidade quando a variável aleatória limitante X é uma constante. [prova]
  • A convergência em probabilidade não implica uma convergência quase certa. [prova]
  • O teorema do mapeamento contínuo afirma que, para cada função contínua g (·), se , então também  .
  • A convergência em probabilidade define uma topologia no espaço de variáveis ​​aleatórias em um espaço de probabilidade fixa. Esta topologia é medida pela métrica Ky Fan :
ou alternativamente por esta métrica
.

Convergência quase certa

Exemplos de convergência quase certa
Exemplo 1
Considere um animal de alguma espécie de vida curta. Registramos a quantidade de comida que esse animal consome por dia. Essa sequência de números será imprevisível, mas podemos estar certos de que um dia o número se tornará zero e permanecerá zero para sempre.
Exemplo 2
Considere um homem que joga sete moedas todas as manhãs. Todas as tardes, ele doa uma libra para uma instituição de caridade para cada cabeça que aparece. Na primeira vez, o resultado é só coroa, no entanto, ele irá parar permanentemente.

Sejam X 1 , X 2 ,… as quantias diárias que a caridade recebeu dele.

Podemos ter quase certeza de que um dia esse valor será zero, e permanecerá zero para sempre depois disso.

No entanto, quando consideramos qualquer número finito de dias, há uma probabilidade diferente de zero de que a condição final não ocorra.

Este é o tipo de convergência estocástica que é mais semelhante à convergência pontual conhecida da análise real elementar .

Definição

Dizer que a sequência X n converge quase certamente ou quase em todos os lugares ou com probabilidade 1 ou fortemente para X significa que

Isso significa que os valores de X n se aproximam do valor de X , no sentido (ver quase com certeza ) de que eventos para os quais X n não converge para X têm probabilidade 0. Usando o espaço de probabilidade e o conceito de variável aleatória como um função de Ω para R , isso é equivalente à declaração

Usando a noção do limite superior de uma sequência de conjuntos , a convergência quase certa também pode ser definida da seguinte forma:

A convergência quase certa é frequentemente denotada pela adição de letras como sobre uma seta indicando convergência:

 

 

 

 

( 3 )

Para elementos aleatórios genéricos { X n } em um espaço métrico , a convergência quase certamente é definida de forma semelhante:


Propriedades

  • Convergência quase certa implica convergência em probabilidade (pelo lema de Fatou ) e, portanto, implica convergência em distribuição. É a noção de convergência usada na lei forte dos grandes números .
  • O conceito de convergência quase certa não vem de uma topologia no espaço de variáveis ​​aleatórias. Isso significa que não há topologia no espaço de variáveis ​​aleatórias de forma que as sequências convergentes quase seguras sejam exatamente as sequências convergentes com relação a essa topologia. Em particular, não existe uma métrica de convergência quase certa.

Convergência certa ou convergência pontual

Dizer que a sequência de variáveis ​​aleatórias ( X n ) definidas sobre o mesmo espaço de probabilidade (ou seja, um processo aleatório ) converge seguramente ou em todos os lugares ou pontualmente para X significa

onde Ω é o espaço amostral do espaço de probabilidade subjacente sobre o qual as variáveis ​​aleatórias são definidas.

Esta é a noção de convergência pontual de uma sequência de funções estendida a uma sequência de variáveis ​​aleatórias . (Observe que as próprias variáveis ​​aleatórias são funções).

A convergência certa de uma variável aleatória implica todos os outros tipos de convergência declarados acima, mas não há recompensa na teoria da probabilidade usando convergência certa em comparação com o uso de convergência quase certa. A diferença entre os dois só existe em conjuntos com probabilidade zero. É por isso que o conceito de convergência segura de variáveis ​​aleatórias é muito raramente usado.

Convergência na média

Dado um número real r ≥ 1 , dizemos que a sequência X n converge na r- ésima média (ou na norma L r ) para a variável aleatória X , se os r- ésimos momentos absolutos E (| X n | r ) e E (| X | r ) de X n e X existem, e

onde o operador E denota o valor esperado . A convergência em r- ésima média nos diz que a expectativa da r- ésima potência da diferença entre e converge para zero.

Este tipo de convergência é frequentemente denotado pela adição da letra L r sobre uma seta indicando convergência:

 

 

 

 

( 4 )

Os casos mais importantes de convergência na r- ésima média são:

  • Quando X n converge na r -ésima média para X para r = 1, dizemos que X n converge em média a X .
  • Quando X n converge em r -ésimo significativo para X para r = 2, dizemos que X n converge em quadrado médio (ou em média quadrática ) para X .

Convergência na r- ésima média, para r ≥ 1, implica convergência em probabilidade (pela desigualdade de Markov ). Além disso, se r > s ≥ 1, a convergência na r- ésima média implica a convergência na s- ésima média. Portanto, a convergência no quadrado médio implica a convergência na média.

Também é importante notar que se

,

 

 

 

 

( 4 )

então

Propriedades

Desde que o espaço de probabilidade esteja completo :

  • Se e , então quase com certeza .
  • Se e , então quase com certeza.
  • Se e , então quase com certeza.
  • Se e , em seguida, (para quaisquer números reais um e b ) e .
  • Se e , em seguida, (para quaisquer números reais um e b ) e .
  • Se e , em seguida, (para quaisquer números reais um e b ).
  • Nenhuma das afirmações acima é verdadeira para a convergência na distribuição.

A cadeia de implicações entre as várias noções de convergência são anotadas em suas respectivas seções. Eles são, usando a notação de seta:

Essas propriedades, junto com uma série de outros casos especiais, são resumidas na lista a seguir:

  • Convergência quase certa implica convergência em probabilidade: [prova]
  • A convergência em probabilidade implica que existe uma subseqüência que quase certamente converge:
  • Convergência em probabilidade implica convergência em distribuição: [prova]
  • A convergência na média de ordem r implica convergência na probabilidade:
  • A convergência na média de ordem r implica a convergência na média de ordem inferior, assumindo que ambas as ordens são maiores ou iguais a um:
    fornecido rs ≥ 1.
  • Se X n converge em distribuição para uma constante c , então X n converge em probabilidade para c : [prova]
    desde que c seja uma constante.
  • Se X n converge na distribuição para X e a diferença entre X n e Y n converge na probabilidade para zero, então Y n também converge na distribuição para X : [prova]
  • Se X n converge na distribuição para X e Y n converge na distribuição para uma constante c , então o vetor conjunto ( X nY n ) converge na distribuição para : [prova]
    desde que c seja uma constante.
    Observe que a condição de que Y n converge para uma constante é importante, se ela convergisse para uma variável aleatória Y, então não seríamos capazes de concluir que ( X nY n ) converge para .
  • Se X n converge em probabilidade para X e Y n converge em probabilidade para Y , então o vetor conjunto ( X nY n ) converge em probabilidade para ( XY ) : [prova]
  • Se X n converge em probabilidade para X , e se P (| X n | ≤ b ) = 1 para todo n e algum b , então X n converge em r ésima média para X para todo r ≥ 1 . Em outras palavras, se X n converge em probabilidade para X e todas as variáveis ​​aleatórias X n são quase certamente limitadas acima e abaixo, então X n converge para X também em qualquer r ésima média.
  • Representação quase certa . Normalmente, a convergência na distribuição não implica convergência quase que certamente. No entanto, para uma dada sequência { X n } que converge em distribuição para X 0 , é sempre possível encontrar um novo espaço de probabilidade (Ω, F , P) e variáveis ​​aleatórias { Y n , n = 0, 1, ... } definido nele de tal forma que Y n é igual em distribuição a X n para cada n ≥ 0 , e Y n converge para Y 0 quase que certamente.
  • Se para todos ε > 0,
    então dizemos que X n converge quase completamente , ou quase na probabilidade direção X . Quando X n converge quase completamente em direção X , então ele também converge quase certamente para X . Em outras palavras, se X n converge em probabilidade para X suficientemente rapidamente (ou seja, a sequência anterior de probabilidades cauda é somável para todos ε > 0 ), então X n também converge quase certamente para X . Esta é uma implicação direta do lema Borel – Cantelli .
  • Se S n é uma soma de n variáveis ​​aleatórias independentes reais:
    então S n converge quase certamente se e somente se S n converge em probabilidade.
  • O teorema da convergência dominada fornece condições suficientes para uma convergência quase certa para implicar a convergência L 1 :

 

 

 

 

( 5 )

  • Uma condição necessária e suficiente para a convergência L 1 é e a sequência ( X n ) é uniformemente integrável .

Veja também

Notas

Referências

  • Bickel, Peter J .; Klaassen, Chris AJ; Ritov, Ya'acov; Wellner, Jon A. (1998). Estimativa eficiente e adaptativa para modelos semiparamétricos . Nova York: Springer-Verlag. ISBN 978-0-387-98473-5.
  • Billingsley, Patrick (1986). Probabilidade e medida . Wiley Series in Probability and Mathematical Statistics (2ª ed.). Wiley.
  • Billingsley, Patrick (1999). Convergência de medidas de probabilidade (2ª ed.). John Wiley & Sons. pp.  1-28 . ISBN 978-0-471-19745-4.
  • Dudley, RM (2002). Análise real e probabilidade . Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-80972-6.
  • Fristedt, Bert; Gray, Lawrence (1997). Uma abordagem moderna da teoria das probabilidades . Nova York: Springer Science + Business Media. doi : 10.1007 / 978-1-4899-2837-5 . ISBN 978-1-4899-2837-5.
  • Grimmett, GR; Stirzaker, DR (1992). Probabilidade e processos aleatórios (2ª ed.). Clarendon Press, Oxford. pp. 271–285. ISBN 978-0-19-853665-9.
  • Jacobsen, M. (1992). Videregående Sandsynlighedsregning (Teoria de Probabilidade Avançada) (3ª ed.). HCØ-tryk, Copenhague. pp. 18–20. ISBN 978-87-91180-71-2.
  • Ledoux, Michel; Talagrand, Michel (1991). Probabilidade em espaços de Banach . Berlim: Springer-Verlag. pp. xii + 480. ISBN 978-3-540-52013-9. MR  1102015 .
  • Romano, Joseph P .; Siegel, Andrew F. (1985). Contra-exemplos em probabilidade e estatística . Grã-Bretanha: Chapman & Hall. ISBN 978-0-412-98901-8.
  • Grimmett, Geoffrey R .; Stirzaker, David R. (2020). Probability and Random Processes (4ª ed.). Imprensa da Universidade de Oxford. ISBN 978-0-198-84760-1.
  • van der Vaart, Aad W .; Wellner, Jon A. (1996). Convergência fraca e processos empíricos . Nova York: Springer-Verlag. ISBN 978-0-387-94640-5.
  • van der Vaart, Aad W. (1998). Estatísticas assintóticas . Nova York: Cambridge University Press. ISBN 978-0-521-49603-2.
  • Williams, D. (1991). Probabilidade com Martingales . Cambridge University Press. ISBN 978-0-521-40605-5.
  • Wong, E .; Hájek, B. (1985). Processos Estocásticos em Sistemas de Engenharia . Nova York: Springer – Verlag.

Este artigo incorpora material do artigo do Citizendium " Convergência estocástica ", licenciado pela Creative Commons Attribution-ShareAlike 3.0 Unported License, mas não pela GFDL .