curieuxdino Posted December 4, 2017 Share Posted December 4, 2017 Une implémentation TensorFlow de l'architecture Deep Speech Les systèmes de reconnaissance vocale sont déjà bien intégrés dans le quotidien des utilisateurs d’ordinateurs et autres appareils dits « intelligents ». Le temps d’une escapade avec un smartphone Apple ou Samsung et l’on peut échanger avec une application informatique dotée d’aptitudes à la reconnaissance vocale et à la parole ; ce qu’on nomme assistant personnel intelligent. Mozilla apporte sa contribution au développement d’applications de reconnaissance vocale avec une solution d’apprentissage profond dédiée. Le projet Deep Speech est une implémentation TensorFlow de l’architecture de réseaux de neurones du même nom dont elle s’inspire. D’après ce que rapporte Mozilla, le modèle peut permettre d’effectuer une transcription audio – texte avec un taux d’erreur inférieur à 10 %. L’expérimentation peut être menée à l’aide de packages Python et Node.JS disponibles au sein du dépôt GitHub du projet. À noter également que dans le cadre d’utilisations plus poussées comme l’entrainement de ce dernier, une vaste base de données de près de 400 000 enregistrements audio (publiés dans le cadre du projet Common Voice) est disponible. Clique sur l'image pour l'agrandir « Nous avons fait de gros progrès : notre taux d’erreurs de transcription avec le jeu de données LibriSpeech est de 6,5 %, ce qui non seulement marque l’atteinte de notre objectif initial, mais nous rapproche du niveau de performances d’un humain », écrit Mozilla. Les systèmes de reconnaissance vocale sont désormais dans l’air du temps avec l’exploitation des techniques d’intelligence artificielle. Au-delà, il y a cette quête constante de performances qui s’exprime aussi en termes de réactivité du système. Et à ce propos, il faut distinguer ceux qui s’appuient sur des ressources matérielles accessibles via le cloud et ceux qui opèrent localement. Intel serait le pionnier de la deuxième catégorie avec son système dénommé Jarvis, conçu en tandem avec Nuance, une entreprise spécialisée dans le développement d’applications de commande vocale. Jarvis « vit » au sein des processeurs mobiles assez performants pour prendre des commandes vocales en charge de façon locale et assez petits pour être intégrés à divers dispositifs. Avec ce dernier, pas d’envoi de commandes vocales via le cloud pour traitement par un serveur externe. Résultat, contrairement à des offres comme Siri ou Google assistant, la rapidité est considérablement accrue. Avec l’annonce de la disponibilité de Deep Speech, Mozilla vient augmenter les possibilités qui s’offrent aux développeurs désireux de tirer profit d’une architecture matérielle locale. Quote Avoir beaucoup d'amis sur Facebook c'est comme être riche au Monopoly Link to comment Share on other sites More sharing options...
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.