Teoria da probabilidade - Probability theory

A teoria da probabilidade é o ramo da matemática preocupado com a probabilidade . Embora existam várias interpretações de probabilidade diferentes , a teoria da probabilidade trata o conceito de uma maneira matemática rigorosa, expressando-o por meio de um conjunto de axiomas . Normalmente, esses axiomas formalizam a probabilidade em termos de um espaço de probabilidade , que atribui uma medida tomando valores entre 0 e 1, denominada medida de probabilidade , para um conjunto de resultados denominado espaço amostral . Qualquer subconjunto especificado do espaço de amostra é chamado de evento . Assuntos centrais na teoria da probabilidade incluem variáveis ​​aleatórias discretas e contínuas , distribuições de probabilidade e processos estocásticos , que fornecem abstrações matemáticas de processos não determinísticos ou incertos ou quantidades medidas que podem ser ocorrências únicas ou evoluir ao longo do tempo de forma aleatória. Embora não seja possível prever perfeitamente eventos aleatórios, muito pode ser dito sobre seu comportamento. Dois resultados principais na teoria da probabilidade que descrevem tal comportamento são a lei dos grandes números e o teorema do limite central .

Como uma base matemática para estatística , a teoria da probabilidade é essencial para muitas atividades humanas que envolvem análise quantitativa de dados. Os métodos da teoria da probabilidade também se aplicam a descrições de sistemas complexos com conhecimento apenas parcial de seu estado, como na mecânica estatística ou estimativa sequencial . Uma grande descoberta da física do século XX foi a natureza probabilística dos fenômenos físicos em escalas atômicas, descritos na mecânica quântica .

História de probabilidade

A moderna teoria matemática da probabilidade tem suas raízes nas tentativas de analisar jogos de azar por Gerolamo Cardano no século XVI e por Pierre de Fermat e Blaise Pascal no século XVII (por exemplo, o " problema dos pontos "). Christiaan Huygens publicou um livro sobre o assunto em 1657 e, no século 19, Pierre Laplace completou o que hoje é considerada a interpretação clássica.

Inicialmente, a teoria da probabilidade considerava principalmente eventos discretos , e seus métodos eram principalmente combinatórios . Eventualmente, as considerações analíticas obrigaram a incorporação de variáveis contínuas na teoria.

Isso culminou na moderna teoria da probabilidade, sobre os fundamentos lançados por Andrey Nikolaevich Kolmogorov . Kolmogorov combinou a noção de espaço amostral , introduzida por Richard von Mises , com a teoria da medida e apresentou seu sistema de axiomas para a teoria da probabilidade em 1933. Essa se tornou a base axiomática mais incontestável da teoria da probabilidade moderna; mas existem alternativas, como a adoção da aditividade finita em vez da contável por Bruno de Finetti .

Tratamento

A maioria das introduções à teoria da probabilidade trata distribuições de probabilidade discretas e distribuições de probabilidade contínuas separadamente. O tratamento da probabilidade baseado na teoria da medida cobre o discreto, o contínuo, uma mistura dos dois e muito mais.

Motivação

Considere um experimento que pode produzir vários resultados. O conjunto de todos os resultados é chamado de espaço amostral do experimento. O conjunto de potência do espaço amostral (ou equivalentemente, o espaço do evento) é formado considerando todas as diferentes coleções de resultados possíveis. Por exemplo, lançar um dado honesto produz um dos seis resultados possíveis. Uma coleção de resultados possíveis corresponde a obter um número ímpar. Assim, o subconjunto {1,3,5} é um elemento do conjunto de potência do espaço de amostra dos rolos de dados. Essas coleções são chamadas de eventos . Nesse caso, {1,3,5} é o evento em que o dado cai em algum número ímpar. Se os resultados que realmente ocorrem caem em um determinado evento, esse evento é considerado como tendo ocorrido.

Probabilidade é uma forma de atribuir a cada "evento" um valor entre zero e um, com a exigência de que o evento seja composto por todos os resultados possíveis (em nosso exemplo, o evento {1,2,3,4,5,6}) receber um valor de um. Para se qualificar como uma distribuição de probabilidade , a atribuição de valores deve satisfazer o requisito de que, se você olhar para uma coleção de eventos mutuamente exclusivos (eventos que não contêm resultados comuns, por exemplo, os eventos {1,6}, {3} e { 2,4} são todos mutuamente exclusivos), a probabilidade de que qualquer um desses eventos ocorra é dada pela soma das probabilidades dos eventos.

A probabilidade de que qualquer um dos eventos {1,6}, {3} ou {2,4} ocorra é 5/6. Isso é o mesmo que dizer que a probabilidade do evento {1,2,3,4,6} é 5/6. Este evento inclui a possibilidade de qualquer número, exceto cinco, ser lançado. O evento mutuamente exclusivo {5} tem uma probabilidade de 1/6, e o evento {1,2,3,4,5,6} tem uma probabilidade de 1, ou seja, certeza absoluta.

Ao fazer cálculos usando os resultados de um experimento, é necessário que todos esses eventos elementares tenham um número atribuído a eles. Isso é feito usando uma variável aleatória . Uma variável aleatória é uma função que atribui a cada evento elementar no espaço amostral um número real . Essa função geralmente é indicada por uma letra maiúscula. No caso de um dado, a atribuição de um número a certos eventos elementares pode ser feita usando a função de identidade . Isso nem sempre funciona. Por exemplo, ao jogar uma moeda, os dois resultados possíveis são "cara" e "coroa". Neste exemplo, a variável aleatória X poderia atribuir ao resultado "cabeça" o número "0" ( ) e ao resultado "coroa" o número "1" ( ).

Distribuições discretas de probabilidade

A distribuição de Poisson , uma distribuição de probabilidade discreta.

A teoria da probabilidade discreta lida com eventos que ocorrem em espaços de amostra contáveis .

Exemplos: lançamento de dados , experimentos com baralhos de cartas , passeio aleatório e lançamento de moedas

Definição clássica : Inicialmente, a probabilidade de um evento ocorrer foi definida como o número de casos favoráveis ​​para o evento, sobre o número de resultados totais possíveis em um espaço amostral equiprovável: ver definição clássica de probabilidade .

Por exemplo, se o evento é "ocorrência de um número par quando um dado é lançado", a probabilidade é dada por , uma vez que 3 faces das 6 têm números pares e cada face tem a mesma probabilidade de aparecer.

Definição moderna : a definição moderna começa com um conjunto finito ou contável denominado espaço amostral , que se relaciona com o conjunto de todos os resultados possíveis no sentido clássico, denotado por . Em seguida, assume-se que para cada elemento , um valor intrínseco de "probabilidade" é anexado, que satisfaz as seguintes propriedades:

Ou seja, a função de probabilidade f ( x ) fica entre zero e um para cada valor de x no espaço amostral Ω , e a soma de f ( x ) sobre todos os valores x no espaço amostral Ω é igual a 1. Um evento é definido como qualquer subconjunto do espaço amostral . A probabilidade do evento é definida como

Portanto, a probabilidade de todo o espaço amostral é 1 e a probabilidade do evento nulo é 0.

A função que mapeia um ponto no espaço amostral para o valor de "probabilidade" é chamada de função de massa de probabilidade abreviada como pmf . A definição moderna não tenta responder como as funções de massa de probabilidade são obtidas; em vez disso, ele constrói uma teoria que assume sua existência.

Distribuições de probabilidade contínua

A distribuição normal , uma distribuição de probabilidade contínua.

A teoria da probabilidade contínua lida com eventos que ocorrem em um espaço amostral contínuo.

Definição clássica : A definição clássica quebra quando confrontada com o caso contínuo. Veja o paradoxo de Bertrand .

Definição moderna : se o espaço de resultado de uma variável aleatória X for o conjunto de números reais ( ) ou um subconjunto deles, então existe uma função chamada função de distribuição cumulativa (ou cdf ) , definida por . Ou seja, F ( x ) retorna a probabilidade de que X seja menor ou igual a x .

O cdf necessariamente satisfaz as seguintes propriedades.

  1. é um não-decrescente monotonicamente , direita-contínuo função;

Se for absolutamente contínuo , ou seja, sua derivada existe e a integração da derivada nos dá o cdf de volta, então a variável aleatória X é dita ter uma função de densidade de probabilidade ou pdf ou simplesmente densidade

Para um conjunto , a probabilidade da variável aleatória X estar é

Caso a função de densidade de probabilidade exista, isso pode ser escrito como

Considerando que o pdf existe apenas para variáveis ​​aleatórias contínuas, o cdf existe para todas as variáveis ​​aleatórias (incluindo variáveis ​​aleatórias discretas) que assumem valores em

Esses conceitos podem ser generalizados para casos multidimensionais em e outros espaços de amostra contínuos.

Teoria da probabilidade teórica da medida

A razão de ser do tratamento teórico da probabilidade da medida é que ele unifica os casos discretos e contínuos, e faz a diferença uma questão de qual medida é usada. Além disso, abrange distribuições que não são discretas nem contínuas, nem misturas dos dois.

Um exemplo de tais distribuições poderia ser uma mistura de distribuições discretas e contínuas - por exemplo, uma variável aleatória que é 0 com probabilidade 1/2 e obtém um valor aleatório de uma distribuição normal com probabilidade 1/2. Ela ainda pode ser estudada até certo ponto considerando que ela tem uma fdp de , onde está a função delta de Dirac .

Outras distribuições podem nem ser uma mistura, por exemplo, a distribuição de Cantor não tem probabilidade positiva para nenhum ponto único, nem tem densidade. A abordagem moderna da teoria da probabilidade resolve esses problemas usando a teoria da medida para definir o espaço de probabilidade :

Dado qualquer conjunto (também chamado de espaço amostral ) e uma σ-álgebra nele, uma medida definida em é chamada de medida de probabilidade se

Se for a σ-álgebra de Borel no conjunto de números reais, então há uma medida de probabilidade única para qualquer cdf e vice-versa. Diz-se que a medida correspondente a um cdf é induzida pelo cdf. Esta medida coincide com o pmf para variáveis ​​discretas e pdf para variáveis ​​contínuas, tornando a abordagem teórica da medida livre de falácias.

A probabilidade de um conjunto na σ-álgebra é definida como

onde a integração é em relação à medida induzida por

Além de fornecer uma melhor compreensão e unificação das probabilidades discretas e contínuas, o tratamento teórico da medida também nos permite trabalhar com probabilidades externas , como na teoria dos processos estocásticos . Por exemplo, para estudar o movimento browniano , a probabilidade é definida em um espaço de funções.

Quando for conveniente trabalhar com uma medida dominante, o teorema Radon-Nikodym é usado para definir uma densidade como a derivada Radon-Nikodym da distribuição de probabilidade de interesse com relação a essa medida dominante. As densidades discretas são geralmente definidas como esta derivada em relação a uma medida de contagem sobre o conjunto de todos os resultados possíveis. As densidades para distribuições absolutamente contínuas são geralmente definidas como esta derivada em relação à medida de Lebesgue . Se um teorema pode ser provado neste cenário geral, ele vale para distribuições discretas e contínuas, bem como para outras; provas separadas não são necessárias para distribuições discretas e contínuas.

Distribuições clássicas de probabilidade

Certas variáveis ​​aleatórias ocorrem com muita frequência na teoria da probabilidade porque descrevem bem muitos processos naturais ou físicos. Suas distribuições, portanto, ganharam importância especial na teoria da probabilidade. Algumas distribuições discretas fundamentais são o uniforme discreto , Bernoulli , binomial , binomial negativo , Poisson e distribuições geométricas . Distribuições contínuas importantes incluem as distribuições uniforme contínua , normal , exponencial , gama e beta .

Convergência de variáveis ​​aleatórias

Na teoria da probabilidade, existem várias noções de convergência para variáveis ​​aleatórias . Eles são listados abaixo em ordem de intensidade, ou seja, qualquer noção subsequente de convergência na lista implica convergência de acordo com todas as noções anteriores.

Convergência fraca
Uma sequência de variáveis ​​aleatórias converge fracamente para a variável aleatória se suas respectivas funções de distribuição cumulativa convergirem para a função de distribuição cumulativa de , onde quer que seja contínua . A convergência fraca também é chamada de convergência na distribuição .
Notação abreviada mais comum:
Convergência em probabilidade
Diz-se que a sequência de variáveis ​​aleatórias converge para a variável aleatória em probabilidade se para cada ε> 0.
Notação abreviada mais comum:
Convergência forte
Diz-se que a sequência de variáveis ​​aleatórias converge fortemente para a variável aleatória se . A convergência forte também é conhecida como convergência quase certa .
Notação abreviada mais comum:

Como os nomes indicam, a convergência fraca é mais fraca do que a convergência forte. De fato, convergência forte implica convergência em probabilidade, e convergência em probabilidade implica convergência fraca. As afirmações reversas nem sempre são verdadeiras.

Lei dos grandes números

A intuição comum sugere que, se uma moeda justa for jogada muitas vezes, aproximadamente metade das vezes dará cara e na outra metade dará coroa . Além disso, quanto mais freqüentemente a moeda é lançada, mais provável será que a razão entre o número de caras e o número de coroas se aproxime da unidade. A teoria da probabilidade moderna fornece uma versão formal dessa ideia intuitiva, conhecida como a lei dos grandes números . Essa lei é notável porque não é assumida nos fundamentos da teoria da probabilidade, mas em vez disso emerge desses fundamentos como um teorema. Uma vez que vincula as probabilidades derivadas teoricamente à sua frequência real de ocorrência no mundo real, a lei dos grandes números é considerada um pilar na história da teoria estatística e tem ampla influência.

A lei dos grandes números (LLN) afirma que a média da amostra

de uma sequência de variáveis ​​aleatórias independentes e distribuídas de forma idêntica converge para sua expectativa comum , desde que a expectativa de seja finita.

É nas diferentes formas de convergência de variáveis ​​aleatórias que separa a lei dos grandes números fraca e forte

Lei fraca: para
Lei forte: para

Segue do LLN que se um evento de probabilidade p é observado repetidamente durante experimentos independentes, a razão da frequência observada desse evento para o número total de repetições converge para p .

Por exemplo, se forem variáveis ​​aleatórias de Bernoulli independentes tomando valores 1 com probabilidade p e 0 com probabilidade 1- p , então para todo i , de modo que converta para p quase com certeza .

Teorema do limite central

"O teorema do limite central (CLT) é um dos grandes resultados da matemática." (Capítulo 18) Explica a ocorrência onipresente da distribuição normal na natureza.

O teorema afirma que a média de muitas variáveis ​​aleatórias independentes e distribuídas de forma idêntica com variância finita tende a uma distribuição normal, independentemente da distribuição seguida pelas variáveis ​​aleatórias originais. Formalmente, vamos ser variáveis ​​aleatórias independentes com média e variância Então a sequência de variáveis ​​aleatórias

converge na distribuição para uma variável aleatória normal padrão .

Para algumas classes de variáveis ​​aleatórias, o teorema do limite central clássico funciona bem rápido (ver teorema de Berry-Esseen ), por exemplo, as distribuições com primeiro, segundo e terceiro momento finitos da família exponencial ; por outro lado, para algumas variáveis ​​aleatórias da variedade cauda pesada e cauda gorda , funciona muito lentamente ou pode não funcionar: em tais casos, pode-se usar o Teorema do Limite Central Generalizado (GCLT).

Veja também

Notas

Referências

O primeiro grande tratado que mistura cálculo com teoria da probabilidade, originalmente em francês: Théorie Analytique des Probabilités .
Uma tradução em inglês de Nathan Morrison apareceu sob o título Foundations of the Theory of Probability (Chelsea, Nova York) em 1950, com uma segunda edição em 1956.
  • Patrick Billingsley (1979). Probabilidade e medida . Nova York, Toronto, Londres: John Wiley and Sons.
  • Olav Kallenberg ; Foundations of Modern Probability, 2ª ed. Springer Series in Statistics. (2002). 650 pp. ISBN  0-387-95313-2
  • Henk Tijms (2004). Probabilidade de compreensão . Cambridge Univ. Pressione.
Uma introdução animada à teoria da probabilidade para o iniciante.
  • Olav Kallenberg; Simetrias probabilísticas e princípios de invariância . Springer -Verlag, Nova York (2005). 510 pp. ISBN  0-387-25115-4
  • Gut, Allan (2005). Probabilidade: um curso de graduação . Springer-Verlag. ISBN 0-387-22833-0.