A Aldeia Numaboa ancestral ainda está disponível para visitação. É a versão mais antiga da Aldeia que eu não quis simplesmente descartar depois de mais de 10 milhões de pageviews. Como diz a Sirley, nossa cozinheira e filósofa de plantão: "Misericórdia, ai que dó!"

Se você tiver curiosidade, o endereço é numaboa.net.br.

Leia mais...

Estatística - Conceitos básicos

Dom

3

Abr

2005


04:56

(141 votos, média 3.55 de 5) 


Na Criptologia, assim como em outras ciências, são realizados estudos experimentais ou observacionais que resultam numa coleção de dados numéricos. O propósito da investigação é responder uma questão científica onde o padrão de variação nos dados faz com que a resposta não seja óbvia. É aí que entra a estatística: padroniza os métodos para coleta e descrição dos dados e permite estabelecer evidências pró ou contra as questões que estejam sendo analisadas.

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

Tipos de Dados

Os dados podem ser classificados em dois grandes grupos: os dados qualitativos ou categóricos e os dados quantitativos ou numéricos. Os dados qualitativos, como diz o nome, referem-se a qualidades do objeto estudado (por exemplo, frequente ou raro). Os dados quantitativos podem ser discretos ou contínuos. Os dados quantitativos discretos são contagens ou números inteiros e os dados quantitativos contínuos representam valores numa escala contínua (por exemplo, altura, peso, volume, etc).

Na criptologia (tanto na criptografia quanto na criptoanálise), os dados, na grande maioria das vezes, são dados quantitativos discretos (contagem de letras, de bytes, de bits, etc).

Resumo numérico

Para resumir numericamente dados qualitativos (por exemplo, se as letras forem classificadas em "mais frequentes", de "frequência média" e "raras"), pode-se usar a moda. A moda é dada pela categoria que possui o maior percentual de dados. No Português, a categoria da letra A é a moda porque é a letra mais frequente neste idioma (A = 14.63%, E = 12.57% e O = 10.73%). O gráfico de barras e o gráfico de setores (também conhecido como pizza) são os mais utilizados para representar o resumo numérico de dados qualitativos.

Para resumir numericamente dados quantitativos é preciso escolher medidas de locação ("qual é o tamanho dos números envolvidos?") e de dispersão ("quanta variação existe?") adequadas. Existem três escolhas principais para a medida de locação, os chamados "3 Ms". Estas medidas de locação estão ligadas a certas medidas de dispersão:

Medida de LocaçãoDispersão
Média (o valor 'médio')Desvio Padrão
Mediana (o valor 'do meio')IQR
Moda (o valor 'mais comum')Proporção

O histograma é um dos gráfico mais utilizado para representar o resumo numérico de dados quantitativos.

A Variação Amostral

Quando se coleta dados, estes devem ser classificados em categorias e contados. Se a população (coleção de unidades individuais) pesquisada for muito grande, podemos retirar uma amostra de dados, analisá-la e, eventualmente, tirar conclusões acerca da população usando a informação da amostra (este processo é chamado de inferência estatística).

Vamos tomar como exemplo a análise da frequência de ocorrência das letras no Português. Não será preciso contar todas as letras de todos os textos que já tenham sido escritos - basta analisar uma amostra suficientemente grande para que as contagens reflitam a proporção "global". Geralmente considera-se que cerca de 100 objetos seja uma amostra confiável.

Se forem contadas apenas as letras A, E, O, S e R de várias amostras de texto com 500 letras, poderemos realizar uma série de cálculos importantes. Veja a tabela abaixo:

Texto 1Texto 2Texto 3Texto 4Total
A 68816783299
E 60557052237
O 53534567218
S 52364038166
R 31314727136
Total 2642562692671056

Apesar dos dados estarem "bem arrumadinhos" numa tabela, a primeira impressão que se tem é que as letras contadas nos quatro textos possuem uma distribuição muito diferente. Para testar se esta variação é significativa ou não, o que nos permite manter ou excluir determinados resultados, existem várias medidas mostradas a seguir.

Informações adicionais