A Aldeia Numaboa ancestral ainda está disponível para visitação. É a versão mais antiga da Aldeia que eu não quis simplesmente descartar depois de mais de 10 milhões de pageviews. Como diz a Sirley, nossa cozinheira e filósofa de plantão: "Misericórdia, ai que dó!"

Se você tiver curiosidade, o endereço é numaboa.net.br.

Leia mais...

Criptografia Numaboa

Frequência de ocorrência de letras no Português

Dom

28

Ago

2005


00:56

(31 votos, média 4.45 de 5) 


Para variar, por mais que eu procurasse, não encontrei referências na web sobre a frequência de ocorrência de letras no Português do Brasil. Encontra-se análises de frequência para o Inglês, o Alemão, o Francês, o Espanhol e até para o Latim. Mas para o Português... sad

Se não tem (ou não acho), então mãos à obra: fiz um pequeno programa em Delphi (estava com preguiça e com pressa...) que faz a análise de textos em ASCII puro. O programa usa a tecnologia de streaming de memória, o que permite a leitura e a análise de textos muito longos (acima da limitação de 32 Kb do memo do Delphi). Este programa, chamado Frequência NumaBoa, está disponível para download na Seção de Downloads - categoria Criptologia - Criptoanálise.

Os resultados que obtive utilizando a "tecnologia de ponta" da Aldeia são apresentados a seguir.

Ensaio de Frequências

Como ensaio estatístico, usei 6 textos de autores conhecidos e de épocas diferentes. Todos os textos são de domínio público (sem © copyright) e podem ser encontrados com facilidade na Internet para download.

Os textos foram analisados transformado-se vogais acentuadas (á, ã, ô,...) em vogais normais e o C cedilha em C.

  1. A Profissão de Jacques Pedreira, de João do Rio, com 49.958 palavras e 232.882 letras.
  2. Memórias Póstumas de Brás Cubas (50 primeiros capítulos), de Machado de Assis, com 26.326 palavras e 115.580 letras.
  3. Contos Gauchescos, de João Simões Lopes Neto, com 33.013 palavras e 143.520 letras.
  4. Obras Selecionadas de Rui Barbosa, com os textos "A Emancipação Progride" e "Pelos Escravos! Às Senhoras Baianas", com 4.781 palavras e 23.121 letras.
  5. Os Bruzundangas, de Lima Barreto, com 41.633 palavras e 200.581 letras.
  6. Texto lido na cerimônia de encerramento do Fórum Social Mundial 2002, de Saramago, com 2.053 palavras e 9.827 letras. Este, o único autor português, para por um pouco de tempero na análise.

No total, foram analisadas 157.764 palavras com 725.511 letras - uma amostra significante para dar consistência aos resultados.

Frequência das letras

Ordem alfabética
Histograma por
Ordem Alfabética
Letra Freq.% Letra Freq.%
A 14.63 N 5.05
B 1.04 O 10.73
C 3.88 P 2.52
D 4.99 Q 1.20
E 12.57 R 6.53
F 1.02 S 7.81
G 1.30 T 4.34
H 1.28 U 4.63
I 6.18 V 1.67
J 0.40 W 0.01
K 0.02 X 0.21
L 2.78 Y 0.01
M 4.74 Z 0.47
Ordem de frequência
Histograma por
Ordem de Frequência

Características do Português do Brasil

  • O comprimento médio das palavras em Português do Brasil é de 4.53 letras.
  • Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
    1. A, E, O
    2. S, R, I
    3. N, D, M, U, T, C
    4. L, P, V, G, H, Q, B, F
    5. Z, J, X, K, W, Y
Letras Freq.
6 vogais: A, E, I, O, U, (Y) 48.75 %
20 consoantes
   5 de frequência alta: S, R, N, D, M 49.12 %
   10 de frequência média: T, C, L, P, V, G, H, Q, B, F 21.03 %
   6 de frequência baixa: Z, J, X, K, W 1.10 %
100.00 %
  • As vogais A, E, I, O, U e as consoantes S, R, N, D, M formam mais de 3/4 dos textos em Português.
  • A média de vogais a cada 10 letras é de 4.88

Informações adicionais