Jump to content

Mozilla publie une solution d'apprentissage profond pour la reconnaissance vocale


curieuxdino
 Share

Recommended Posts

Une implémentation TensorFlow de l'architecture Deep Speech

Les systèmes de reconnaissance vocale sont déjà bien intégrés dans le quotidien des utilisateurs d’ordinateurs et autres appareils dits « intelligents ». Le temps d’une escapade avec un smartphone Apple ou Samsung et l’on peut échanger avec une application informatique dotée d’aptitudes à la reconnaissance vocale et à la parole ; ce qu’on nomme assistant personnel intelligent. Mozilla apporte sa contribution au développement d’applications de reconnaissance vocale avec une solution d’apprentissage profond dédiée.

Le projet Deep Speech est une implémentation TensorFlow de l’architecture de réseaux de neurones du même nom dont elle s’inspire. D’après ce que rapporte Mozilla, le modèle peut permettre d’effectuer une transcription audio – texte avec un taux d’erreur inférieur à 10 %. L’expérimentation peut être menée à l’aide de packages Python et Node.JS disponibles au sein du dépôt GitHub du projet. À noter également que dans le cadre d’utilisations plus poussées comme l’entrainement de ce dernier, une vaste base de données de près de 400 000 enregistrements audio (publiés dans le cadre du projet Common Voice) est disponible.
 

Clique sur l'image pour l'agrandir
Image



« Nous avons fait de gros progrès : notre taux d’erreurs de transcription avec le jeu de données LibriSpeech est de 6,5 %, ce qui non seulement marque l’atteinte de notre objectif initial, mais nous rapproche du niveau de performances d’un humain », écrit Mozilla. Les systèmes de reconnaissance vocale sont désormais dans l’air du temps avec l’exploitation des techniques d’intelligence artificielle. Au-delà, il y a cette quête constante de performances qui s’exprime aussi en termes de réactivité du système. Et à ce propos, il faut distinguer ceux qui s’appuient sur des ressources matérielles accessibles via le cloud et ceux qui opèrent localement.

Intel serait le pionnier de la deuxième catégorie avec son système dénommé Jarvis, conçu en tandem avec Nuance, une entreprise spécialisée dans le développement d’applications de commande vocale. Jarvis « vit » au sein des processeurs mobiles assez performants pour prendre des commandes vocales en charge de façon locale et assez petits pour être intégrés à divers dispositifs. Avec ce dernier, pas d’envoi de commandes vocales via le cloud pour traitement par un serveur externe. Résultat, contrairement à des offres comme Siri ou Google assistant, la rapidité est considérablement accrue. Avec l’annonce de la disponibilité de Deep Speech, Mozilla vient augmenter les possibilités qui s’offrent aux développeurs désireux de tirer profit d’une architecture matérielle locale.

Avoir beaucoup d'amis sur Facebook c'est comme être riche au Monopoly mouton1.gif

 

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

By using this site, you agree to our Terms of Use.