La qualité de la téléphonie via Internet

La voix sur IP, ou « VoIP » pour Voice over IP, est une technique qui permet transmettre la voix sur les réseaux et notamment Internet. Transporter la voix sur un réseau nécessite dans un premier temps de la coder en numérique pour ensuite la décoder. Comment cela fonctionne-t-il pour assurer aux utilisateur la meilleure qualité possible ?...

Le transport de la voix
Le transport de la voix sur IP est relativement complexe. La première étape est la numérisation du signal analogique capté par le microphone.

Le codage de la voix
La voix est ce qui permet aux humains d'échanger de l'information, de communiquer, et de faire passer des émotions. Il s'agit d'un phénomène physique complexe. Lorsque l'on parle, nous produisons un ensemble de sons possédant des niveaux de fréquences différents (grave, médium, aigüe…).

Un son « pur » (diapason) possède une fréquence stable, et se représente par le biais d'une sinusoïde. La voix, quant à elle, produit une multitude de fréquences à des vitesses très variées. Si on affichait la discussion d'une personne grâce à un oscilloscope, cela produirait non pas une sinusoïde mais un signal complexe, composé de plusieurs sinusoïdes de fréquences, d'amplitudes et de phases différentes, formant ce que l'on nomme un spectre complexe.

La voix captée par le microphone du combiné fournit un signal analogique. Pour l'envoyer sur un réseau TCP/IP (numérique), il va falloir convertir ce signal analogique en un signal numérique en format PCM (Pulse Code Modulation), par exemple à 64 kb/s.

Une fois convertie, la voix, ainsi numérisée, doit être compressée grâce à un codec (Codeur/Décodeur) pour l'insérer dans un paquet IP. Le codage doit offrir la meilleure qualité de voix possible, pour un débit le plus faible possible et un temps de compression le plus court possible.

Il existe plusieurs techniques de codage, chacune étant mesurée de façon totalement subjective par une masse de population prise au hasard. Elle doit noter chaque codage par un chiffre de 1 à 5 (1 = Insuffisant - 5 = Excellent). Cette technique s'appelle le MOS.

Il existe un très grand nombre de codecs audio différents, basés sur des algorithmes de compression radicalement distincts.

La méthode du score MOS a été développée de façon à évaluer la qualité "perçue" d'un codec.

Méthodologie
Le principe de calcul du MOS est basé sur un sondage d'un échantillon supposé représentatif de la population des utilisateurs. Les personnes constituant l'échantillon sont invitées à écouter un signal (souvent de la voix), puis son équivalent codé-décodé. Après chaque écoute, l'auditeur donne une note sanctionnant la qualité qu'il a perçue. La moyenne des notes fournies par la population constitue le MOS. Le tableau ci-dessous montre les résultats obtenus par quelques codecs courants.

Avantages de la méthode
Le score MOS quantifie la qualité effectivement perçue par une certaine population. En particulier, il prend en compte les effets psycho-acoustiques. Dans le cas des vocodeurs, le score MOS fait aussi apparaître les différences de qualité liées à la langue du locuteur et de l'auditeur. Un vocodeur peut être noté 3,9 en anglais et 1,9 en chinois mandarin.

Enfin, le MOS est un outil indispensable lors de la mise au point d'un nouveau type de codec. Les algorithmes complexes auxquels un codec moderne fait appel sont souvent assortis d'un certain nombre de paramètres qui le rendent plus ou moins propre à tel ou tel type d'application. Le choix de la valeur des paramètres est très difficile (parfois impossible) à faire de façon rationnelle.

Dans ce cas, le MOS vient au secours des chercheurs en apportant une réponse quantitative basée sur une expérience perceptuelle réelle.

Inconvénients de la méthode
La mise en œuvre d'une évaluation MOS est chère en coût et en énergie. Elle suppose de convoquer un nombre relativement grand d'auditeurs, de mettre à leur disposition un équipement audio adapté, de les former à la bonne façon d'attribuer une note qui soit exploitable, et de collecter et consolider les résultats.

Une autre difficulté est la nature subjective du résultat. Des corrections statistiques permettent de réduire l'aléa, mais pas de l'annuler. Cependant, l'expérience montre que lorsque plusieurs sessions sont effectuées dans les mêmes conditions, et avec des échantillons différents mais représentatifs de la même population, les résultats obtenus ne varient pas sensiblement. Le principal inconvénient du MOS réside dans le fait qu'il n'est pas complètement standardisé.

En dehors de toute norme méthodologique, beaucoup de chiffres sont produits dans de mauvaises conditions expérimentales. Par exemple, on trouve des sites Internet proposant à l'utilisateur de participer au vote. Dans ce cas la note prend en compte la qualité du codec mais aussi celle de l'équipement audio de l'internaute et de son environnement acoustique au moment du test.

Texte sous licence CC BY-SA 3.0. Contributeurs, ici. Photo : Liv Friis-larsen - Fotolia.com.

Un spécialiste de la téléphonie sur IP pour les entreprises :

78960 - NEXACOM http://www.standard-telephonique-yvelines-78.com


Voir toutes les newsletters :
www.haoui.com
Pour les professionnels : HaOui.fr