Histoires de la reconnaissance vocale

10 ans d'innovation technologique

Les technologies de reconnaissance et de synthèse vocales ont longtemps inspiré les oeuvres de science fiction mais aussi des séries télévisées telles que Star Trek et des films comme 2001 : l’odyssée de l’espace. Si le petit écran et le cinéma les ont faites connaître du grand public, ils les ont également bien souvent décrédibilisées. Beaucoup pensaient qu’il s’agissait plus du fruit de l’imagination des écrivains et des réalisateurs que d’une science exacte.

Force est de constater l’existence bien réelle de ces technologies, aujourd’hui à la disposition des particuliers comme des professionnels, depuis l’avènement des ordinateurs, d’Internet, des téléphones portables, des lecteurs MP3, des consoles de jeu, des réseaux sans fil, etc.

Ces dix dernières années, des sociétés comme Nuance (anciennement ScanSoft) se sont spécialisées dans le développement de technologies de reconnaissance et de synthèse vocales.

De nouveaux standards ont vu le jour pour faciliter leur adoption par le plus grand nombre et favoriser leur développement à plus grande échelle.

A l’aube du dixième anniversaire de Dragon NaturallySpeaking, le logiciel de dictée vocale le plus vendu au monde, Nuance retrace ici les 50 ans de la reconnaissance et de synthèse vocales, depuis leur heure de gloire sur le petit écran jusqu’à leur conquête massive du grand public.

1939–1978 : les prémices de la reconnaissance et de la synthèse vocales

the Voder

1939: Les laboratoires Bell présentent le « Voder », un système de synthèse vocale développé par H.W. Dudley, à l’occasion de l’exposition universelle de 1939. Le New York Times titre « Mon Dieu, ça parle ! » (My God, it talks!).

1962: Cette année, restée dans les annales des laboratoires Bell, voit la création par John L. Kelly d’un système de synthèse vocale basé sur un ordinateur IBM 704. Ce synthétiseur vocodeur parvient à reproduire la chanson « Bicycle Built for Two ». Arthur C. Clarke, qui rendait alors visite à un collègue dans les laboratoires Bell à Murray Hill, assista à cette démonstration remarquable. Il rendra quelques années plus tard cette chanson célèbre à travers l’une des scènes mythiques de son roman 2001 : l’odyssée de l’espace, dans laquelle l’ordinateur HAL9000 « chante » ce morceau alors que l’astronaute Dave Bowman le démonte.

HAL9000

1968: L’ordinateur HAL-9000 du film 2001 : l’odyssée de l’espace introduit pour la première fois l’idée qu’une conversation entre un humain et un ordinateur serait possible...

1969: ...toutefois, John Pierce des laboratoires Bell précise que la reconnaissance automatique de la parole nécessite des technologies d’intelligence artificielle et ne sera donc réellement exploitable que dans plusieurs dizaines d’années. La DARPA (Defence Advanced Research Projects Agency) met en place le programme Speech Understanding Research en vue de développer un système informatique capable d’interpréter la parole continue. Lawrence Roberts, commanditaire de ce programme, investit chaque année 3 millions de dollars de fonds gouvernementaux, et ce durant cinq ans, pour y parvenir, faisant de ce projet le programme de recherche sur les technologies de reconnaissance et de synthèse vocales le plus ambitieux jamais entrepris.

1976: Jim Baker d’IBM conçoit un système de reconnaissance de la parole continue basé sur les modèles de Markov cachés (MMC) et un vocabulaire de 1 000 mots. Les MMC sont à l’origine d’une stratégie de recoupement de modèles mathématiques complexes dont se servent aujourd’hui tous les grands développeurs de solutions de reconnaissance et de synthèse vocales comme Dragon Systems, IBM, Philips et AT&T.

Texas Instruments

1978: Texas Instruments lance le très populaire jeu éducatif « Speak & Spell ». Sa puce de synthèse vocale marque un véritable tournant pour le marché des technologies vocales qui voit les systèmes numériques de synthèse du son s’humaniser progressivement.

1980–1988 : les premiers pas de la reconnaissance et de la synthèse vocales

1982: Covox voit le jour. Cette société intègre un système audio numérique aux ordinateurs Commodore 64, Atari 400/800 et IBM au milieu des années 1980. Jim et Janet Baker, pionniers de la reconnaissance vocale, fondent Dragon Systems.

1983: Le constructeur automobile Austin Rover lance sa gamme « Maestro ». Ces véhicules de luxe intègrent un ordinateur de bord doté de synthèse vocale qui avertit les conducteurs d’attacher leur ceinture et de remédier à divers problèmes (niveau d’huile trop faible, portière mal fermée, etc.).

Austin Rover

1984: Fondation de SpeechWorks qui deviendra l’un des leaders de solutions de reconnaissance automatique de la parole téléphonique.

Lernout &Hauspie

1987: Lernout & Hauspie (L&H) est créé. Ce fournisseur de technologies matérielles et logicielles évoluées offre un avant-goût plus qu’alléchant des futures technologies de reconnaissance et de synthèse vocales embarquées.

1988: Dragon Systems présente pour la première fois au grand public un système de reconnaissance vocale sur PC faisant appel à un vocabulaire de 8 000 mots.

1990–1998 : les solutions de reconnaissance et de synthèse vocales se multiplient

1990: Dragon présente un système de reconnaissance de la parole continue pour PC doté d’un vocabulaire de 5 000 mots et lance DragonDictate 30K, le premier système de reconnaissance vocale à faire appel à un vocabulaire aussi complet pour permettre la dictée de textes en tous genres. S’il permet aux utilisateurs de contrôler leur PC au moyen de commandes vocales, ceux-ci doivent toutefois marquer une pause entre chaque mot prononcé.

1994: Dragon Systems lance DragonDictate, le tout premier logiciel de dictée pour PC.

1996: Charles Schwab, l’une des plus grandes sociétés de services financiers des Etats-Unis, est la première entreprise à soutenir Nuance dans le développement d’un système IVR de reconnaissance vocale. Ce programme, Voice Broker, est capable d’informer simultanément jusqu’à 360 clients de la société sur le cours de la bourse et les options. Il gère ainsi jusqu’à 50 000 requêtes chaque jour. Offrant un taux de précision de 95 %, il finit par séduire davantage d’entreprises, parmi lesquelles Sears, Roebuck and Co., United Parcel Service of America Inc. et E*Trade Securities..

1997: IBM lance ViaVoice, son logiciel de reconnaissance vocale pour PC. Bill Gates, PDG de Microsoft, voit en la reconnaissance vocale une avancée technologique majeure.

Dragon NaturallySpeaking 1.0

3 avril 1997: Le jour de la présentation officielle de Dragon NaturallySpeaking 1.0, New York fut balayée durant plusieurs nuits par un blizzard qui la recouvrit d’un manteau de près de 50 centimètres de neige. Le temps ne s’améliorant pas, tout l’Etat fut placé en état d’urgence. Les aéroports, rues, autoroutes furent bloqués ou fermés, tandis que le réseau ferroviaire fournissait des services limités, sans garantie aucune. Le retard de la plupart des intervenants de la présentation, y compris les fondateurs de Dragon, Janet et Jim Baker, et l’invité d’honneur Richard Dreyfus, faillit provoquer l’annulation de la toute première cérémonie de lancement organisée par Dragon. Peu après la cérémonie de lancement, Dragon commercialise NaturallySpeaking, le premier produit grand public de reconnaissance de la parole continue à permettre aux utilisateurs de dicter leur texte sans nécessiter de pause entre chaque mot.

Lamp;&H lance VoiceXpress

1998: Lamp;&H lance VoiceXpress, son logiciel de reconnaissance vocale pour PC. Confiante en la précision de son logiciel de reconnaissance vocale, l’entreprise défie le dactylo le plus rapide du monde de battre son système à une course contre la montre. Bien que le logiciel et le dactylo soient au coude à coude, la démonstration réussi à convaincre le grand public..

2000–2008 : les technologies de reconnaissance et de synthèse vocales au 21ème siècle

Avril 2000: Lernout & Hauspie rachète Dragon Systems pour un montant approximatif de 460 millions de dollars.

Octobre 2000: Malgré le succès et l’adoption massive de sa technologie, l’entreprise est liquidée suite à des irrégularités comptables. Ses ressources technologiques sont ainsi bradées. L’heure de la fin sonne pour l’un des plus grands fournisseurs de solutions de reconnaissance et de synthèse vocales.

ScanSoft rachète les technologies de reconnaissance et de synthèse vocales de L&H

Decembre 2001: ScanSoft rachète les technologies de reconnaissance et de synthèse vocales de L&H, parmi lesquelles : Dragon NaturallySpeaking, AudioMining, RealSpeak et le moteur de reconnaissance automatique de la parole, ASR1600.

Août 2003: ScanSoft rachète SpeechWorks, un fournisseur de solutions de reconnaissance vocale, de synthèse vocale et de vérification vocale pour les réseaux et environnements embarqués, y compris les nouveaux périphériques multimodes dotés d’une interface audio et d’un affichage visuel.

Novembre 2004: ScanSoft devient partenaire du RNIB (Royal National Institute for the Blind) pour intégrer son logiciel TALKS aux terminaux mobiles dotés de la plateforme Symbian et les distribuer aux non-voyants. Cette solution permet notamment aux aveugles et malvoyants d’écrire et d’écouter des SMS par commandes vocales

Nuance rachète Dictaphone Corporation

Mai 2005: ScanSoft et Nuance fusionnent, formant ainsi l’entreprise de solutions de reconnaissance et de synthèse vocales la plus grande et florissante du globe, à savoir Nuance Communications Ltd (www.nuance.co.uk). Les technologies vocales équipent à présent les PC, les centres d’appels, les terminaux mobiles, les consoles de jeu et les systèmes de navigation par satellite (GPS).

Mars 2006: Nuance rachète Dictaphone Corporation, le plus grand fournisseur de solutions de dictée et de reconnaissance vocale destinées au secteur de la santé, donnant ainsi un nouvel essor à sa stratégie d’automatisation de la transcription manuelle appliquée à ce secteur.

The Financial Times

Juin 2006: Le très respecté Financial Times titre : « La reconnaissance vocale commence à faire parler d’elle » (Voice Recognition Starts to Make a Big Noise), un article qui témoigne en détail de toutes les entreprises ayant su tirer parti de Dragon NaturallySpeaking pour accélérer leur croissance.

Nuance lance la version 9 de Dragon NaturallySpeaking

Juillet 2006: Nuance lance la version 9 de Dragon NaturallySpeaking, le logiciel de reconnaissance vocale le plus vendu au monde. Cette nouvelle version affiche un taux de précision de 99 % et, pour la première fois, dispense les utilisateurs d’apprentissage.

Octobre 2006: Confiant en la rapidité et en la précision de sa technologie de reconnaissance vocale pour terminaux mobiles, Nuance défie Ben Cook, le rédacteur de SMS le plus rapide du globe, de taper la phrase « The razor toothed piranhas of the genera Serrasalmus and Pygocentrus are the most ferocious freshwater fish in the world. In reality they seldom attack a human » (Les piranhas Serrasalmus et Pygocentrus aux dents acérées sont les poissons d’eau douce les plus féroces du monde. Il est toutefois rare qu’ils s’attaquent aux hommes) plus rapidement que s’il l’avait dictée à un terminal mobile. Les résultats sont sans appel : Cook rédige cette phrase complexe en seulement 42,22 secondes… tandis que Nuance Mobile Dictation le bat à plate couture avec un temps record de 16,32 secondes. Ce défi marque un réel tournant pour la reconnaissance vocale, et démontre son évolution indéniable ainsi que son utilité pour les terminaux mobiles.

Mars 2007: La Classe C de Mercedes-Benz, la FIAT Bravo et la Ford Mondeo s’illustrent au salon international de l’automobile de Genève en 2007. Toutes trois embarquent des technologies dernier cri, parmi lesquelles la technologie de reconnaissance vocale de Nuance, qui fait office d’interface pour leurs systèmes d’info-divertissement, plus pratique et sécurisée pour les conducteurs automobiles. Lloyds TSB célèbrent les dix ans de PhoneBank Express, la technologie de reconnaissance vocale de leur centre d’appel. Selon les études réalisées, les clients apprécient tout particulièrement la rapidité et la fiabilité de ce système. Ils s’avouent également séduits par l’environnement éprouvé et sécurisé qui leur est offert pour gérer leurs transactions financières.

Dragon NaturallySpeaking souffle ses 10 bougies

Avril 2007: Dragon NaturallySpeaking souffle ses 10 bougies. Des millions de personnes à travers le monde utilisent ce logiciel et sont chaque année plus nombreuses à apprécier la rapidité et la précision de cette fameuse solution de reconnaissance vocale.

Dragon NaturallySpeaking Professional 10

Août 2008: Dragon NaturallySpeaking 10 Professional est la solution idéale pour les professionnels qui souhaitent utiliser leur voix pour créer des documents et des e-mails, remplir des formulaires électroniques et gérer leurs flux de travail. Grâce à son exceptionnelle précision de reconnaissance, vous pouvez rédiger tous vos documents trois fois plus vite qu'avec un clavier. Et pour une totale liberté de mouvement, dictez vos documents sur un enregistreur portatif, ou utilisez une oreillette Bluetooth.

Telechargez - Histoires de la reconnaissance vocale

PDF (1.14 MB)