Dados binários - Binary data

Dados binários são dados cuja unidade pode assumir apenas dois estados possíveis, tradicionalmente rotulados como 0 e 1 de acordo com o sistema numérico binário e a álgebra booleana .

Os dados binários ocorrem em muitos campos técnicos e científicos diferentes, onde podem ser chamados por nomes diferentes, incluindo bit (dígito binário) em ciência da computação , valor de verdade em lógica matemática e domínios relacionados e variável binária em estatística.

Fundamentos matemáticos e combinatórios

Uma variável discreta que pode assumir apenas um estado contém zero informação , e 2 é o próximo número natural após 1. É por isso que o bit , uma variável com apenas dois valores possíveis, é uma unidade primária padrão de informação .

Uma coleção de n bits pode ter 2 n estados: consulte o número binário para obter detalhes. O número de estados de uma coleção de variáveis ​​discretas depende exponencialmente do número de variáveis ​​e apenas como uma lei de potência do número de estados de cada variável. Dez bits têm mais ( 1024 ) estados do que três dígitos decimais ( 1000 ). 10 k bits são mais do que suficientes para representar uma informação (um número ou qualquer outra coisa) que requer 3 k dígitos decimais, então as informações contidas em variáveis ​​discretas com 3 , 4, 5, 6, 7, 8, 9, 10 ... estados podem ser sempre substituído pela alocação de duas, três ou quatro vezes mais bits. Portanto, o uso de qualquer outro número menor que 2 não oferece uma vantagem.

Um diagrama de Hasse : representação de uma álgebra booleana como um gráfico direcionado

Além disso, a álgebra booleana fornece uma estrutura matemática conveniente para coleção de bits, com uma semântica de uma coleção de variáveis ​​proposicionais . As operações de álgebra booleana são conhecidas como " operações bit a bit " na ciência da computação. As funções booleanas também são bem estudadas teoricamente e facilmente implementáveis, seja com programas de computador ou pelas chamadas portas lógicas na eletrônica digital . Isso contribui para o uso de bits para representar dados diferentes, mesmo aqueles originalmente não binários.

Nas estatísticas

Em estatísticas , os dados binários são um tipo de dados estatísticos que consiste em dados categóricos que podem assumir exatamente dois valores possíveis, como "A" e "B" ou "cara" e "coroa". Como uma forma de dados categóricos, os dados binários são dados nominais , o que significa que eles representam valores qualitativamente diferentes que não podem ser comparados numericamente. No entanto, os dados binários são frequentemente convertidos em dados de contagem considerando um dos dois valores como "sucesso" e representando os resultados como 1 ou 0, o que corresponde à contagem do número de sucessos em uma única tentativa: 1 (sucesso) ou 0 ( fracasso); consulte § Contagem .

Freqüentemente, os dados binários são usados ​​para representar um de dois valores conceitualmente opostos, por exemplo:

  • o resultado de um experimento ("sucesso" ou "falha")
  • a resposta a uma pergunta sim-não ("sim" ou "não")
  • presença ou ausência de algum recurso ("está presente" ou "não está presente")
  • a verdade ou falsidade de uma proposição ("verdadeiro" ou "falso", "correto" ou "incorreto")

No entanto, também pode ser usado para dados que se presume ter apenas dois valores possíveis, mesmo que eles não sejam conceitualmente opostos ou representem conceitualmente todos os valores possíveis no espaço. Por exemplo, dados binários são freqüentemente usados ​​para representar as escolhas partidárias dos eleitores nas eleições nos Estados Unidos , ou seja, republicano ou democrata . Nesse caso, não há nenhuma razão inerente para que apenas dois partidos políticos devam existir e, de fato, outros partidos existem nos Estados Unidos, mas eles são tão pequenos que geralmente são simplesmente ignorados. A modelagem de dados contínuos (ou dados categóricos de mais de 2 categorias) como uma variável binária para fins de análise é chamada de dicotomização (criando uma dicotomia ). Como toda discretização , envolve erro de discretização , mas o objetivo é aprender algo valioso apesar do erro: tratá-lo como desprezível para o propósito em questão, mas lembrando que não pode ser assumido como desprezível em geral.

Variáveis ​​binárias

Uma variável binária é uma variável aleatória do tipo binário, ou seja, com dois valores possíveis. Variáveis ​​binárias independentes e identicamente distribuídas (iid) seguem uma distribuição de Bernoulli , mas em geral os dados binários não precisam vir de variáveis ​​iid. As contagens totais de variáveis ​​binárias iid (equivalentemente, somas de variáveis ​​binárias iid codificadas como 1 ou 0) seguem uma distribuição binomial , mas quando as variáveis ​​binárias não são iid, a distribuição não precisa ser binomial.

Contando

Como os dados categóricos, os dados binários podem ser convertidos em um vetor de dados de contagem , escrevendo uma coordenada para cada valor possível e contando 1 para o valor que ocorre e 0 para o valor que não ocorre. Por exemplo, se os valores são A e B, então o conjunto de dados A, A, B pode ser representado em contagens como (1, 0), (1, 0), (0, 1). Depois de convertidos em contagens, os dados binários podem ser agrupados e as contagens adicionadas. Por exemplo, se o conjunto A, A, B é agrupado, as contagens totais são (2, 1): 2 A's e 1 B (em 3 tentativas).

Uma vez que existem apenas dois valores possíveis, isso pode ser simplificado para uma única contagem (um valor escalar), considerando um valor como "sucesso" e o outro como "falha", codificando um valor de sucesso como 1 e da falha como 0. Por exemplo, se o valor A é considerado "sucesso" (e, portanto, B é considerado "falha"), o conjunto de dados A, A, B seria representado como 1, 1, 0. Quando este é agrupado, os valores são adicionados, enquanto o número de tentativas geralmente é rastreado implicitamente. Por exemplo, A, A, B seriam agrupados como 1 + 1 + 0 = 2 sucessos (em }} tentativas). Indo na direção oposta, os dados de contagem são dados binários, com as duas classes sendo 0 (falha) ou 1 (sucesso).

As contagens de variáveis ​​binárias iid seguem uma distribuição binomial , com o número total de tentativas (pontos nos dados agrupados).

Regressão

A análise de regressão em resultados previstos que são variáveis ​​binárias é conhecida como regressão binária ; quando os dados binários são convertidos em dados de contagem e modelados como variáveis ​​iid (para que tenham uma distribuição binomial), a regressão binomial pode ser usada. Os métodos de regressão mais comuns para dados binários são regressão logística , regressão probit ou tipos relacionados de modelos de escolha binária .

Da mesma forma, contagens de variáveis ​​categóricas iid com mais de duas categorias podem ser modeladas com uma regressão multinomial . As contagens de dados binários não iid podem ser modeladas por distribuições mais complicadas, como a distribuição beta-binomial (uma distribuição composta ). Alternativamente, o relacionamento pode ser modelado sem a necessidade de modelar explicitamente a distribuição da variável de saída usando técnicas de modelos lineares generalizados (GLM), como quase-verossimilhança e um modelo quase- simbinomial ; veja Superdispersão § Binomial .

Em ciência da computação

Uma imagem binária de um código QR , representando 1 bit por pixel, em oposição a uma imagem true color típica de 24 bits .

Em computadores modernos , os dados binários referem-se a quaisquer dados representados na forma binária, em vez de interpretados em um nível superior ou convertidos em alguma outra forma. No nível mais baixo, os bits são armazenados em um dispositivo biestável , como um flip-flop . Embora a maioria dos dados binários tenha significado simbólico (exceto para não importa ), nem todos os dados binários são numéricos. Alguns dados binários correspondem a instruções de computador , como os dados dentro de registros de processador decodificados pela unidade de controle ao longo do ciclo de busca-decodificação-execução . Os computadores raramente modificam bits individuais por motivos de desempenho. Em vez disso, os dados são alinhados em grupos de um número fixo de bits, geralmente 1 byte (8 bits). Conseqüentemente, "dados binários" em computadores são, na verdade, sequências de bytes. Em um nível superior, os dados são acessados ​​em grupos de 1 palavra (4 bytes) para sistemas de 32 bits e 2 palavras para sistemas de 64 bits .

Na ciência da computação aplicada e no campo da tecnologia da informação , o termo dados binários muitas vezes se opõe especificamente aos dados baseados em texto , referindo-se a qualquer tipo de dado que não pode ser interpretado como texto. A distinção "texto" vs. "binário" às vezes pode se referir ao conteúdo semântico de um arquivo (por exemplo, um documento escrito x uma imagem digital ). No entanto, muitas vezes se refere especificamente a se os bytes individuais de um arquivo são interpretáveis ​​como texto (consulte a codificação de caracteres ) ou não podem ser interpretados. Quando este último significado é pretendido, os termos mais específicos formato binário e formato de texto (ual) são usados ​​às vezes. Os dados textuais semânticos podem ser representados em formato binário (por exemplo, quando compactados ou em certos formatos que misturam vários tipos de códigos de formatação, como no formato DOC usado pelo Microsoft Word ); ao contrário, os dados da imagem às vezes são representados em formato textual (por exemplo, o formato de imagem X PixMap usado no X Window System ).

Veja também

Referências