La frecuencia de las letras del alfabeto es la cantidad de veces que aparecen en un texto promedio. Su cálculo está sujeto a interpretación ya que influyen varios parámetros:
El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, £, etcétera), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, estos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes.
La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes, etc.) pueden o no tenerse en cuenta. La coma y el punto, por ejemplo, son más frecuentes que más de la mitad de las letras.
1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.
2. La letra a es algo más abundante que la letra e.
3. Los signos de puntuación “,” y “.” son más abundantes que la letra q y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el punto y coma supera a la ñ y los dos puntos a la k.
Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la a, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la e, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.
Otros idiomas
El alineamiento de las letras en una máquina linotipia es ETAOIN SHRDLU, que corresponde aproximadamente a las doce letras más frecuentes en inglés.