FREQUÊNCIA DA OCORRÊNCIA DE LETRAS NO PORTUGUÊS

Para variar, por mais que eu procurasse, não encontrei referências na web sobre a frequência de ocorrência de letras no Português do Brasil . Encontra-se análises de frequência para o Inglês, o Alemão, o Francês, o Espanhol e até para o Latim. Mas para o Português...

Se não tem (ou não acho), então mãos à obra: fiz um pequeno programa em Delphi (estava com preguiça e com pressa...) que faz a análise de textos em ASCII puro. O programa usa a tecnologia de streaming de memória, o que permite a leitura e análise de textos muito longos (acima da limitação de 32 Kb do memo do Delphi). Este programa, chamado Frequência NumaBoa, está disponível para download na Biblioteca - Seção de Software.

Veja abaixo os resultados obtidos.

ENSAIO DE FREQUÊNCIAS

Como ensaio estatístico, usei 6 textos de autores conhecidos e épocas diferentes. Todos os textos são de domínio público (sem © copyright) e podem ser encontrados com facilidade na Internet para download.

Os textos foram analisados transformado-se vogais acentuadas (á, ã, ô,...) em vogais normais e o C cedilha em C.

  1. A Profissão de Jacques Pedreira, de João do Rio, com 49.958 palavras e 232.882 letras.
  2. Memórias Póstumas de Brás Cubas (50 primeiros capítulos), de Machado de Assis, com 26.326 palavras e 115.580 letras.
  3. Contos Gauchescos, de João Simões Lopes Neto, com 33.013 palavras e 143.520 letras.
  4. Obras Selecionadas de Rui Barbosa, com os textos "A Emancipação Progride" e "Pelos Escravos! Às Senhoras Baianas", com 4.781 palavras e 23.121 letras.
  5. Os Bruzundangas, de Lima Barreto, com 41.633 palavras e 200.581 letras.
  6. Texto lido na cerimônia de encerramento do Fórum Social Mundial 2002, de Saramago, com 2.053 palavras e 9.827 letras. Este, o único autor português, para por um pouco de tempero na análise.

No total, foram analisadas 157.764 palavras com 725.511 letras - uma amostra significante para dar consistência aos resultados.

FREQUÊNCIA DAS LETRAS


Histograma por
Ordem Alfabética

Histograma por
Ordem de Frequência




Letra Freq.% Letra Freq.%
A 14.63 N 5.05
B 1.04 O 10.73
C 3.88 P 2.52
D 4.99 Q 1.20
E 12.57 R 6.53
F 1.02 S 7.81
G 1.30 T 4.34
H 1.28 U 4.63
I 6.18 V 1.67
J 0.40 W 0.01
K 0.02 X 0.21
L 2.78 Y 0.01
M 4.74 Z 0.47





CARACTERÍSTICAS DO PORTUGUÊS DO BRASIL

Letras Freq.
6 vogais: A, E, I, O, U, (Y) 48.75 %
20 consoantes
   5 de frequência alta: S, R, N, D, M 49.12 %
   10 de frequência média: T, C, L, P, V, G, H, Q, B, F 21.03 %
   6 de frequência baixa: Z, J, X, K, W 1.10 %
100.00 %

DISTRIBUIÇÃO DE FREQUÊNCIA UNILITERAL - DFU

f: 15 13 11 8 7 6 5 5 5 5 4 4 3 3 2 1 1 1 1 1 0 0 0 0 0 0
Letra A E O S R I N D M U T C L P V G H Q B F Z J X H Y W

DIGRAMAS E TRIGRAMAS MAIS FREQUENTES

DE 1.76
RA 1.67
ES 1.65
OS 1.51
AS 1.49
DO 1.41
AR 1.33
CO 1.31
EN 1.23
QU 1.20
ER 1.18
DA 1.17
RE 1.14
CA 1.11
TA 1.10
SE 1.08
NT 1.08
MA 1.06
UE 1.05
TE 1.05
QUE 0.96
ENT 0.56
COM 0.47
NTE 0.44
EST 0.34
AVA 0.34
ARA 0.33
ADO 0.33
PAR 0.30
NDO 0.30
NAO 0.30
ERA 0.30
AND 0.30
UMA 0.28
STA 0.28
RES 0.27
MEN 0.27
CON 0.27
DOS 0.25
ANT 0.25

20 Digramas mais frequentes
(em 100 letras)

20 Trigramas mais frequentes
(em 100 letras)

LETRAS INICIAIS E FINAIS

Letras D A E C P S O M N Q T F U V L R B I G J H Z K X W Y
Iniciais 12 11 11 8 7 6 6 6 5 4 4 3 3 3 2 2 2 2 2 1 1 - - - - -

Letras A O E S M R U I L Z D T H N C Y B X V K G F P W Q J
Finais 70 65 60 48 21 14 10 5 4 2 - - - - - - - - - - - - - - - -

PALAVRAS CURTAS MAIS FREQUENTES

1 letra em 100 letras
E 0.88
A 0.84
O 0.71
2 letras em 100 letras
DE 0.82
UM 0.31
SE 0.30
DA 0.27
OS 0.25
DO 0.25
AS 0.19
EM 0.17
NO 0.14
NA 0.12
ME 0.11
AO 0.10
EU 0.07
SO 0.05
LA 0.05
JA 0.05
HA 0.04
3 letras em 100 letras
QUE 0.63
NAO 0.29
UMA 0.21
COM 0.21
ERA 0.14
POR 0.12
MAS 0.11
DOS 0.11
LHE 0.09
FOI 0.07
ELE 0.07
DAS 0.07
SUA 0.06
SEU 0.06
SEM 0.05
SER 0.04
NEM 0.04
MEU 0.04
ELA 0.04
ATE 0.04

OBSERVAÇÕES

O textos para esta análise foram obtidos dos sites abaixo:

A Biblioteca Virtual do Estudante Brasileiro

Falares Literários

IMN - Instituto Moreira Necho - O Site Brasileiro da Comunicação

Vitual Books Online - Sua Biblioteca de Livros Eletrônicos

Livro Gratuito

Esta página


Notice: Undefined variable: fecha in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 49
Voltar Criptologia Matemática
Notice: Undefined variable: indica in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 175
FREQUÊNCIA DA OCORRÊNCIA DE LETRAS NO PORTUGUÊS
Notice: Undefined variable: imgR in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 179

Créditos: Instituto de Linguística Língua de Trapo NumaBoa... hehehe
| Indique aos amigos | Fale com a mestre da teia | Voltar
Notice: Undefined variable: fecha in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 196
| Sobre a autora |

sobMedida by vickiSoft - /criptologia/matematica/estatistica/freqPortBrasil.php Versão 1.2 de 03.09.02 - Atualizada em 28.09.04
Licença Creative Commons 1998-2006 Aldeia NumaBoa
Exceto onde especificamente declarado, todo material deste site é disponibilizado de acordo com a Licença Creative Commons.