FREQUÊNCIA DA OCORRÊNCIA DE LETRAS NO PORTUGUÊS 
Para variar, por mais que eu procurasse, não encontrei referências na web sobre a frequência de ocorrência de letras no Português do Brasil
. Encontra-se análises de frequência para o Inglês, o Alemão, o Francês, o Espanhol e até para o Latim. Mas para o Português...
Se não tem (ou não acho), então mãos à obra: fiz um pequeno programa em Delphi (estava com preguiça e com pressa...) que faz a análise de textos em ASCII puro. O programa usa a tecnologia de streaming de memória, o que permite a leitura e análise de textos muito longos (acima da limitação de 32 Kb do memo do Delphi). Este programa, chamado Frequência NumaBoa, está disponível para download na Biblioteca - Seção de Software.
Veja abaixo os resultados obtidos.
ENSAIO DE FREQUÊNCIAS
Como ensaio estatístico, usei 6 textos de autores conhecidos e épocas diferentes. Todos os textos são de domínio público (sem © copyright) e podem ser encontrados com facilidade na Internet para download.
Os textos foram analisados transformado-se vogais acentuadas (á, ã, ô,...) em vogais normais e o C cedilha em C.
- A Profissão de Jacques Pedreira, de João do Rio, com 49.958 palavras e 232.882 letras.
- Memórias Póstumas de Brás Cubas (50 primeiros capítulos), de Machado de Assis, com 26.326 palavras e 115.580 letras.
- Contos Gauchescos, de João Simões Lopes Neto, com 33.013 palavras e 143.520 letras.
- Obras Selecionadas de Rui Barbosa, com os textos "A Emancipação Progride" e "Pelos Escravos! Às Senhoras Baianas", com 4.781 palavras e 23.121 letras.
- Os Bruzundangas, de Lima Barreto, com 41.633 palavras e 200.581 letras.
- Texto lido na cerimônia de encerramento do Fórum Social Mundial 2002, de Saramago, com 2.053 palavras e 9.827 letras. Este, o único autor português, para por um pouco de tempero na análise.
No total, foram analisadas 157.764 palavras com 725.511 letras - uma amostra significante para dar consistência aos resultados.
FREQUÊNCIA DAS LETRAS

Histograma por
Ordem Alfabética

Histograma por
Ordem de Frequência
| Letra | Freq.% | Letra | Freq.% |
| A | 14.63 | N | 5.05 |
| B | 1.04 | O | 10.73 |
| C | 3.88 | P | 2.52 |
| D | 4.99 | Q | 1.20 |
| E | 12.57 | R | 6.53 |
| F | 1.02 | S | 7.81 |
| G | 1.30 | T | 4.34 |
| H | 1.28 | U | 4.63 |
| I | 6.18 | V | 1.67 |
| J | 0.40 | W | 0.01 |
| K | 0.02 | X | 0.21 |
| L | 2.78 | Y | 0.01 |
| M | 4.74 | Z | 0.47 |
CARACTERÍSTICAS DO PORTUGUÊS DO BRASIL
- O comprimento médio das palavras em Português do Brasil é de 4.53 letras.
- Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
- A, E, O
- S, R, I
- N, D, M, U, T, C
- L, P, V, G, H, Q, B, F
- Z, J, X, K, W, Y
| Letras | Freq. |
| 6 vogais: A, E, I, O, U, (Y) | 48.75 % |
| 20 consoantes | |
| 5 de frequência alta: S, R, N, D, M | 49.12 % |
| 10 de frequência média: T, C, L, P, V, G, H, Q, B, F | 21.03 % |
| 6 de frequência baixa: Z, J, X, K, W | 1.10 % |
| 100.00 % |
- As vogais A, E, I, O, U e as consoantes S, R, N, D, M formam mais de 3/4 dos textos em Português.
- A média de vogais a cada 10 letras é de 4.88
DISTRIBUIÇÃO DE FREQUÊNCIA UNILITERAL - DFU
| f: | 15 | 13 | 11 | 8 | 7 | 6 | 5 | 5 | 5 | 5 | 4 | 4 | 3 | 3 | 2 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
| Letra | A | E | O | S | R | I | N | D | M | U | T | C | L | P | V | G | H | Q | B | F | Z | J | X | H | Y | W |
DIGRAMAS E TRIGRAMAS MAIS FREQUENTES
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
20 Digramas mais frequentes |
20 Trigramas mais frequentes |
LETRAS INICIAIS E FINAIS
| Letras | D | A | E | C | P | S | O | M | N | Q | T | F | U | V | L | R | B | I | G | J | H | Z | K | X | W | Y |
| Iniciais | 12 | 11 | 11 | 8 | 7 | 6 | 6 | 6 | 5 | 4 | 4 | 3 | 3 | 3 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | - | - | - | - | - |
| Letras | A | O | E | S | M | R | U | I | L | Z | D | T | H | N | C | Y | B | X | V | K | G | F | P | W | Q | J |
| Finais | 70 | 65 | 60 | 48 | 21 | 14 | 10 | 5 | 4 | 2 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
PALAVRAS CURTAS MAIS FREQUENTES
|
|
|
OBSERVAÇÕES
O textos para esta análise foram obtidos dos sites abaixo:
A Biblioteca Virtual do Estudante Brasileiro
IMN - Instituto Moreira Necho - O Site Brasileiro da Comunicação
Vitual Books Online - Sua Biblioteca de Livros Eletrônicos
Esta página
Notice: Undefined variable: fecha in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 49
Notice: Undefined variable: indica in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 175
FREQUÊNCIA DA OCORRÊNCIA DE LETRAS NO PORTUGUÊS
Notice: Undefined variable: imgR in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 179
Créditos: Instituto de Linguística Língua de Trapo NumaBoa... hehehe
| Indique aos amigos | Fale com a mestre da teia | Voltar
Notice: Undefined variable: fecha in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 196
| Sobre a autora |
sobMedida by vickiSoft - /criptologia/matematica/estatistica/freqPortBrasil.php Versão 1.2 de 03.09.02 - Atualizada em 28.09.04
Licença Creative Commons 1998-2006 Aldeia NumaBoa
Exceto onde especificamente declarado, todo material deste site é disponibilizado de acordo com a
Licença Creative Commons.