A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais na língua inglesa. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq. Ideias semelhantes são utilizadas em modernas técnicas de compressão de dados, tais como a Codificação de Huffman.
Análises mais recentes mostram que as frequências de letras, da mesma forma que as frequências de palavras, tendem a variar, tanto pelo escritor quanto pelo assunto. Não se pode escrever um ensaio sobre raios-x sem uso frequente de letras Xs, e a redação terá uma frequência de letras especialmente estranha se o ensaio é sobre o uso frequente de raios-x para o tratamento de zebras no Qatar. Diferentes autores têm hábitos que podem ser refletidos no uso das letras. O estilo de escrita de Hemingway, por exemplo, é visivelmente diferente do estilo de Faulkner. Letras, bigramas, trigramas, as frequências de palavras, o comprimento das palavras, e o comprimento das sentenças podem ser calculados por autor específico, e usados para provar ou negar a autoria dos textos, mesmo para os autores cujos estilos não são tão divergentes.
Uma média precisa de frequências de letras só pode ser adquirida através da análise de uma grande quantidade de textos representativos. Com a disponibilidade da computação moderna e coleções de grandes corpora de texto, esses cálculos são feitos facilmente.
Herbert S. Zim, em seu clássico texto introdutório de criptografia
"Codes and Secret Writing", dá a sequência da frequência de letras em Inglês como sendo "ETAON RISHD LFCMU GYPWB VKXJQ Z", os pares de letras mais comuns como sendo "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI
AS TO", e as letras dobradas mais comuns como sendo "LL EE SS OO TT
FF RR NN PP CC".[1]
As doze letras mais frequentes incluem cerca de 80% do uso total.
As oito letras mais frequentes incluem cerca de 65% do uso total.
Um espião com a cifra VIC ou alguma outra cifra baseada em um tabuleiro de xadrez straddling normalmente utiliza um mnemônico, como "a sin to err" (deixando de lado o segundo "r") para lembrar as 8 letras (a,s,i,n,t,o,e,r) mais frequentes (neste exemplo, em inglês).
Frequências de letras tem um forte impacto no projeto de alguns teclados.
As letras mais frequentes ficam na linha superior do teclado AZERTY.
As letras mais frequentes ficam na linha inferior do teclado Blickensderfer.
As letras mais frequentes ficam na linha central do teclado Simplificado Dvorak.
Frequências relativas das letras em português
A frequência das letras na língua portuguesa estão listadas abaixo[2]
Letra
Frequência
a
14.63%
b
1.04%
c
3.88%
d
4.99%
e
12.57%
f
1.02%
g
1.30%
h
1.28%
i
6.18%
j
0.40%
k
0.02%
l
2.78%
m
4.74%
n
5.05%
o
10.73%
p
2.52%
q
1.20%
r
6.53%
s
7.81%
t
4.34%
u
4.63%
v
1.67%
w
0.01%
x
0.21%
y
0.01%
z
0.47%
Frequências relativas das letras na língua inglesa
A frequência das letras na língua inglesa estão listadas abaixo.[3][4][5]
No entanto, esta tabela é um pouco diferente de outras, como a do Projeto da Universidade de Cornell Math Explorer[6] que avaliou mais de 40 000 palavras.
Letra
Frequência
a
8.167%
b
1.492%
c
2.782%
d
4.253%
e
12.702%
f
2.228%
g
2.015%
h
6.094%
i
6.966%
j
0.153%
k
0.772%
l
4.025%
m
2.406%
n
6.749%
o
7.507%
p
1.929%
q
0.095%
r
5.987%
s
6.327%
t
9.056%
u
2.758%
v
0.978%
w
2.360%
x
0.150%
y
1.974%
z
0.074%
Em Inglês, o espaço é ligeiramente mais frequente do que a letra com mais frequência (7% mais frequentes do que, ou 107% mais frequente em relação à letra, e), e os caracteres não alfabéticos (dígitos, pontuação, etc) ocupam a quarta posição, entre t e a.[7]
Frequências relativas das primeiras letras de uma palavra no idioma inglês e português
Frequências de aparecimento como primeira letra de uma palavra:[8]
Letra
Frequência
a
11.602%
b
4.702%
c
3.511%
d
2.670%
e
2.000%
f
3.779%
g
1.950%
h
7.232%
i
6.286%
j
0.631%
k
0.690%
l
2.705%
m
4.374%
n
2.365%
o
6.264%
p
2.545%
q
0.173%
r
1.653%
s
7.755%
t
16.671%
u
1.487%
v
0.619%
w
6.661%
x
0.005%
y
1.620%
z
0.050%
Frequências relativas das letras em outros idiomas
↑Zim, Herbert Spencer. Codes and secret writing(abridged edition). Scholastic Book Services, fourth printing, 1962.Copyright 1948 Herbert S. Zim. Originally published by William Morrow.
↑«Decifrando Textos em Português». Universidade Federal do Rio de Janeiro. Consultado em 30 de abril de 2021|nome1= sem |sobrenome1= em Authors list (ajuda)
↑
Beker, Henry; Piper, Fred (1982). Cipher Systems: The Protection of Communications. [S.l.]: Wiley-Interscience. 397 páginas !CS1 manut: Nomes múltiplos: lista de autores (link)