L'interface numérique série ou serial digital interface (SDI), est un protocole de transport ou de diffusion de différents formats de vidéo numérique. Il fut introduit en 1989 par la norme SMPTE ST 259 pour la transmission de la vidéo SD entre équipements de studios audiovisuels. Par la suite, plusieurs normes se succédèrent – HD-SDI (1,485 Gbit/s), 3G-SDI (2,970 Gbit/s), UHD-SDI – pour définir des protocoles adaptés à des débits binaires plus importants pour les transmissions de vidéos haute définition (HDTV), ultra haute définition (UHDTV1 et UHDTV2) ou pour le cinéma numérique (2K, 4K, 8K). Les données du signal vidéo ne sont pas compressées. La quantification est effectuée sur 8, 10 ou 12 bits, et la structure de sous-échantillonnage utilisée est souvent de type 4:2:2, bien que les normes les plus récentes autorisent une structure 4:4:4 ou 4:4:4:4. Le signal peut être transmis sous forme électrique, via un ou plusieurs câbles coaxiaux d'impédance caractéristique 75 Ω muni de connecteurs BNC, ou par fibre optique.
Normes
Les progrès techniques successifs ont donné naissance à une multitude de formats vidéo aussi bien dans le domaine de la télévision numérique que du cinéma numérique (2K, 4K, 8K). La définition de l'image (SD, HD, UHD, 2K, 4K, 8K) ou la fréquence image (25, 50, 100, etc. images par seconde en Europe) sont en augmentation ce qui impose des images occupant un volume de stockage et des débits de transmission plus importants. Les rapports d'image peuvent également différer selon les applications (anciennement 4/3 et actuellement 16/9 en télévision, 1,89 ≈ 17/9 en cinéma numérique). C'est pourquoi, la Society of Motion Picture and Television Engineers (SMPTE), l'Union européenne de radio-télévision (UER ou EBU en anglais), l'Union internationale des télécommunications (UTI ou ITU en anglais) ou encore le Digital Cinema Initiatives (DCI) ont publié plusieurs documents permettant de normaliser les formats vidéo et/ou les protocoles de transport afin de faciliter les échanges.
Quelques normes d'interfaces SDI accompagnées des qualités optimales qui peuvent être transmises
(*) La division de la fréquence par 1,001 est également spécifiée pour assurer une compatibilité[6] avec les systèmes NTSC.
La structure 4:4:4 peut aussi bien s'adapter aux composantes Y'CbCr qu'aux composantes R'G'B'. La structure 4:2:2 ne s'adapte qu'aux composantes Y'CbCr.
Les formats d'image UHDTV1 et UHDTV2 sont définis par les normes SMTPE ST 2036-1 et ITU-R BT 2020.
(*) Ces systèmes ont un système associé présentant des cadences d'image divisée par 1,001 (23,98 Hz, 29,97 Hz, 59,94 Hz, 119,88 Hz) pour assurer une compatibilité[5] avec les systèmes NTSC. Le débit est également divisé par 1,001.
Génération du signal
Plusieurs étapes sont nécessaires[7] pour générer le signal à partir d'une source fournissant les 3 composantes Y', Cb et Cr (après matriçage des composantes R', G' et B'). Un sous-échantillonnage de la chrominance 4:2:2 est fréquemment effectué, ce qui veut dire qu'il y a deux fois plus de points d'information de luminance que de points d'information de chrominance. Chaque échantillon est défini par un mot binaire constitué de 8, 10 ou 12 bits selon la norme : ce mot est souvent présenté sous forme hexadécimale dans les publications.
D'abord la partie des signaux composantes Y', Cb et Cr reservée à la suppression trame (verticalblanking) et à la suppression ligne (horizontalblanking) est partiellement ou totalement remplacée.
Avant tout, il faut introduire les informations permettant la synchronisation (TRS : timing reference signal) : début de ligne active (SAV : start of active video) et fin de ligne active (EAV : end of active video). Quatre mots binaires dont certains sont réservés à cet usage : le premier étant la valeur maximale (FF pour 255 sur 8 bits, 3FF pour 1023 sur 10 bits, FFF pour 4095 sur 12 bits), les deux suivants la valeur minimale (00 ou 000). Le dernier mot XY ou XYZ indique s'il s'agit d'une ligne de la suppression trame, d'une ligne de la trame paire ou impaire selon le type de balayage (entrelacé, progressif ou progressive segmented frame), etc.
Il faut également indiquer le numéro de ligne occupant 2 mots notés LN0 et LN1.
Ces éléments sont accompagnés d'un code de correction d'erreur CRC (Cyclic Redundancy Code) constituant un paquet de quatre mots.
Le reste de la partie réservée aux suppressions trame et ligne peuvent être occupées par des données auxiliaires (HANC & VANC : horizontal & vertical ancillary data) telles que le timecode[8],[9] (ATC : Ancillary TimeCode), plusieurs canaux de son audionumérique[10] suivant la norme AES3 (AES/EBU), des données informatiques, etc.
Ensuite, les trois composantes sont mises en série : dans le cas de la structure 4:2:2, la plus fréquente, un mot pour Cb, puis Y', puis Cr, puis Y', etc. Pour chaque mot, le bit de poids faible (LSB : low significant bit) est transmis en premier.
Illustration pour un signal HD-SDI 1080p25
Enfin, les données sont embrouillées (scrambling), puis un codage NRZI est finalement utilisé afin d'éviter au maximum la composante continue et permettre facilement la récupération la fréquence de d'horloge.
Le signal peut être transmis à une distance qui dépend du câble coaxial utilisé, typiquement moins de 300 m. Pour de plus grandes distances, il est nécessaire d'utiliser une fibre optique et éventuellement des répétiteurs.
Les normes plus récentes autorisent le transfert de vidéos moins définies et permettent parfois de transmettre plusieurs flux vidéo simultanément.
Fréquences d'échantillonnages et débits binaires
SD-SDI
La seule interface encore utilisée est celle qui correspond à la ITU-R BT 601. Les premières interfaces PAL et NTSC 4fsc sont désormais obsolètes.
L'image est échantillonnée à 13,5 MHz pour la luminance et 6,75 MHz pour chacun des signaux de chrominance ce qui correspond à une structure 4:2:2 ce qui signifie qu'il y a moitié moins d'informations de chrominance. Le balayage est de type entrelacé. En ce qui concerne les standards utilisés en Europe, la trame est constituée de 864 × 625 pixels pour une partie utile de 720 × 576 pixels : pour une quantification sur 10 bits, le débit binaire est de 270 Mbit/s.
Calcul des débits brut et net : SDTV 576i25 :
Le débit brut peut se calculer de la manière suivante :
Le débit net correspondant à la partie consacrée uniquement à l'image vaut :
576 × 720 × 25 × 10 × 2 = 207 Mbit/s.
HD-SDI
Le signal HD-SDI est généré en respectant les normes SMPTE ST 292.
La fréquence d'échantillonnage est celle préconisé par la recommandation ITU-R BT 709. Le signal de luminance échantillonné à 74,25 MHz, tandis que les signaux de chrominance, après avoir subi un sous-échantillonnage de la chrominance selon une structure 4:2:2, sont échantillonnés à 37,125 MHz. Le débit est de 1,485 Gbit/s, identique pour plusieurs formats : HDTV 1920 × 1080 à 24, 25 ou 30 images par seconde et 1280 × 720 à 60 images par seconde ou cinéma 2K 2048 × 1080 à 24, 25 ou 30 images par seconde.
Exemple de calcul des débits brut et net : HDTV 1080/25 :
Dans le cas d'une video 1080/25, la trame est formée de 1125 × 2640 pixels tandis que l'image active est constituée de 1920 × 1080 pixels.
Jacques Gaudin, Jean-Noël Gouyet et Francis Mahieu, « TVHD Formats natifs, paramètres, normes, conversion », Techniques de l'ingénieur, no TE 5680, (lire en ligne)
Jean-Noël Gouyet et Francis Mahieu, « TVHD Formats de compression. Formats-conteneurs », Techniques de l'ingénieur, no TE 5681, (lire en ligne)
↑En SD : SMPTE ST 272 : « Television – Formatting AES/EBU Audio and Auxiliary Data into Digital Video Ancillary Data Space ». En HD : SMPTE ST 299-1 : « 24-Bit Digital Audio Format for SMPTE 292 Bit-Serial Interface ». Cinéma numérique : SMPTE 428-2 : « D-Cinema Distribution Master - Audio Characteristics ».