Notice: Undefined index: pto in /home/numaboa.com.br/public_html/criptologia/lab/entropia.php on line 14
Notice: Undefined index: frase in /home/numaboa.com.br/public_html/criptologia/lab/entropia.php on line 15
Notice: Undefined index: entro in /home/numaboa.com.br/public_html/criptologia/lab/entropia.php on line 16
ENTROPIA DAS LETRAS NUM TEXTO
Minha dúvida é: QUAL É A ENTROPIA DAS LETRAS NO PORTUGUÊS?
Não tenho a mínima idéia e também não encontrei dados a respeito. Talvez, com a participação de muitos visitantes da Aldeia, consigamos determiná-la. A pesquisa se baseia na Teoria da Informação de Shannon. Participe!
Basta tentar descobrir a frase escondida - é uma espécie de jogo da forca gigante. Suas tentativas serão analisadas e, no final, você obterá a entropia do texto. Todos os valores são arquivados para que possamos obter uma entropia média, que também é mostrada no final. Assim, você pode comparar seu resultado com a média obtida até o momento.
DETERMINANDO A ENTROPIA
Clique no botão [Novo Texto] para escolher um dos quatro textos disponíveis. Uma série de traços aparecerão na área de texto superior. Clique numa letra do alfabeto. Se ela estiver correta, será mostrada na área de texto superior. Se estiver errada, ela é eliminada do alfabeto. Após várias tentativas, quando a letra correta for encontrada, também será mostrado na área de texto inferior o número de tentativas para encontrá-la.
Se você achar que uma palavra tiver terminado, clique em espaço, pois este também vale como um caracter do texto. Não são usadas letras acentuadas.
Após desvendar o texto ou quando assim o desejar, clique no botão [Entropia] para conhecer o resultado. Bom divertimento!
UM POUCO SOBRE A ENTROPIA
Claude Shannon, autor da Teoria da Informação, idealizou um método para determinar a entropia de letras no Inglês e que pode ser aplicado a qualquer idioma. A entropia é o quanto existe de imprevisível num texto. Ela pode ser comparada ao caos, à bagunça completa. Acontece que qualquer língua possui regras e a função destas regras é por ordem nas palavras e nas letras - elas diminuem a entropia porque põem ordem no caos. Quanto maior for a entropia de um idioma, maior será a anarquia e maior será a liberdade que ela oferece. A recíproca é verdadeira: quanto menor for a entropia de um idioma, menor será a anarquia e menor será a liberdade que ela oferece porque depende de mais regras. A entropia também pode ser medida indiretamente através da quantidade de informação (que é medida em bits) que se obtém em média quando tomamos conhecimento de cada uma das letras de um texto.
A título de exemplo, imagine o seguinte texto: C _ _ _. Com grande probabilidade você não tem a mínima idéia do que se trata - a entropia é alta e a quantidade de informação trazida pelo C é baixa. Se o texto fornecido for CO _ _ a informação trazida por 2 letras é maior e a entropia diminuíu sensivelmente.
Para perceber como a entropia de cada letra num texto é diferente, basta observar COP _ e CO _ O. No primeiro caso, a entropia diminuíu muito ao passo que, no segundo caso, ficou apenas um pouco mais baixa. COP _ pode ser apenas COPO ou COPA, mas CO _ O pode ser COCO, COIÓ, COLO, COMO, COPO, CORO, COTO, COXO, etc. No segundo caso o grau de incerteza é muito maior porque a informação carregada pelas três letras CO _ O foi menor do que a carregada pelas três letras COP _.
Foi Shannon quem fez os estudos iniciais para determinar a entropia do Inglês. Para isto, usou amostras de texto de tamanho significante (estatisticamente válido) e tabelas de frequência de ocorrência de letras no Inglês. Considerou um alfabeto de 27 caracteres (26 letras e um espaço) e chamou a unidade de medida de bit (binary digit). Para letras isoladas, encontrou uma entropia de 4.03 bits por caracter; para dígrafos, encontrou uma entropia de 3.32 bits por caracter e, para trígrafos, uma entropia de 3.1 bits por caracter.
Shannon estimou que a entropia de um texto de 100 letras em Inglês é de aproximadamente 1.2 bits por caracter e que, após o 32o. caracter, a entropia praticamente não se altera. Isto significa que as primeiras 32 letras e espaços são as responsáveis pela queda da entropia e são as que trazem praticamente toda a ordem que um texto pode ter. A influência que as letras do texto exercem sobre as seguintes é chamada de coesão. O que torna um texto numa língua estruturada diferente de um texto composto por letras tiradas aleatoriamente de um alfabeto qualquer, ou seja, letras ao acaso versus letras regidas por regras, é a redundância.
A redundância é o complemento da entropia. Ambas podem ser expressas em bits/caracter ou em porcentagem. Usando uma simples regra de três e considerando os resultados obtidos por Shannon para o Inglês, 4.03 bits correspondem a 100% de entropia. Neste caso, 1.2 bits correspondem a 1.2 x 100 / 4.03, ou seja, a quase 30%. Um alfabeto de 27 caracteres fornece textos em Inglês com 30% de entropia (incerteza) e 70% de redundância (ordem). Outra forma de indicar a redundância é expressá-la em bits por caracter. Neste caso, se 4.03 bits/caracter são a incerteza máxima e 1.2 bits/caracter são a incerteza do texto, então a redundância de cada uma das letras é 4.03 - 1.2 = 2.83 bits/caracter.
Será que o resultado obtido com esta nossa pesquisa se aproxima do encontrado para o Inglês? Ajude a descobrir se o Português é mais ou menos caótico.
Esta página
Notice: Undefined variable: fecha in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 49
Notice: Undefined variable: indica in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 175
ENTROPIA NO PORTUGUÊS
Notice: Undefined variable: imgR in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 179
Notice: Undefined variable: credits in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 187
Créditos: vovó Vicki
| Indique aos amigos | Fale com a mestre da teia | Voltar
Notice: Undefined variable: fecha in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 196
| Sobre a autora |
sobMedida by vickiSoft - /criptologia/lab/entropia.php Versão
Notice: Undefined variable: ver in /home/numaboa.com.br/public_html/criptologia/footCript.php on line 206
1.2 de 09.09.03 - Atualizada em 26.11.04
Licença Creative Commons 1998-2006 Aldeia NumaBoa
Exceto onde especificamente declarado, todo material deste site é disponibilizado de acordo com a
Licença Creative Commons.