Normalisation audio

La normalisation audio est un processus qui consiste à augmenter ou diminuer l'amplitude (volume) d'un enregistrement audio dans un rapport constant sur toute la durée afin que l'amplitude de crête ou la valeur efficace de crête ou le volume perçu (sonie) atteigne un niveau défini à l'avance, la norme. Si le signal a plusieurs pistes, elles subissent toutes la même correction.

Exemple — Normalisation de crête à -3 dB :
  • Une collection d'enregistrements numériques est créée avec une norme de modulation crête de -3dB FS.
  • Un nouvel enregistrement stéréo est mesuré. Le niveau de crête le plus élevé est à -5,5 dB FS sur la piste gauche, -5,7 dB FS sur la piste droite.
  • La normalisation consiste à appliquer un gain constant de 5,5 - 3 = 2,5 dB.

La normalisation nécessite deux passages. Le premier détermine le niveau maximal, le second applique la correction à l'enregistrement entier.

Normalisation de crête

La normalisation de crête applique un gain constant à un enregistrement entier pour apporter la plus haute crête à un niveau cible, en audio professionnel 89 % (-1 dB FS crête vraie (True Peak))[1].

La dynamique sonore de l'enregistrement est à peu près conservée, à ceci près que le maintien d'un bas niveau de distorsion après la multiplication de tous les échantillons peut impliquer l'application d'un bruit de décorrélation d'erreur de quantification connu sous le nom de redithering (fourmillement du bit de faible poids)[2], qui augmente très légèrement le niveau de bruit de fond.

Normalisation de volume

L'objectif d'une normalisation de volume est d'amener tous les éléments sonores d'une collection au même niveau de volume sonore, de façon à pouvoir les écouter sans avoir à retoucher le volume. En effet, la normalisation du niveau de crête ne garantit nullement une homogénéité de volume sonore perçu (Sonie).

Une approche simple de la normalisation de volume, fournie par plusieurs logiciels, consiste à normaliser la valeur efficace (niveau RMS) du signal intégrée sur quelques dixièmes de seconde. Des machines plus perfectionnées utilisent des algorithmes élaborés pour une évaluation plus précise du niveau sonore ressenti. L'Union européenne de radio-télévision a publié en 2011 une recommandation[1] donnant une méthode relativement simple pour cette évaluation.

Si la norme n'est pas assez basse, la normalisation de volume implique une compression pour les enregistrements dont la dynamique sonore serait supérieure à ce qui a été implicitement prévu en fixant la norme par rapport au niveau maximal. Si ce n'était pas le cas, les crêtes du signal dépasseraient les limites de la quantification.

Dans son implémentation la plus simple, la normalisation de volume collecte les données de volume pendant la première passe, détermine le gain ou l'atténuation nécessaire pour que le volume maximal atteigne la norme, et applique cette correction dans la deuxième passe. Si les éléments de la collection partagent les mêmes caractéristiques de facteur de forme, de facteur de crête et de dynamique, comme c'est le cas pour des collections de musique populaire ou de parole enregistrée, cette approche donne des résultats satisfaisants.

Les implémentations élaborées utilisent une norme qui inclut non seulement un volume sonore, mais aussi des valeurs de crête maximales et une dynamique sonore. Elles collectent les niveaux de sonie et les valeurs de crête dans la première passe, et effectuent, dans la seconde passe, les corrections dynamiques nécessaires pour parvenir aux valeurs prévues par la norme.

Notes et compléments

  1. a et b recommandation pour l'échange des programmes audiovisuels, émise par l'Union internationale des télécommunications ITU BS. 1770-2 reprise par l'Union européenne de radio-télévision UER/EBU (en) recommandation EBU R 128.
  2. voir Tramage (informatique).

Articles connexes