Google Home au service des médecins enregistrement et retranscription documentation par Rodolphe Degandt [datedermaj]
Google Home au service de la documentation des médecins
Voila que les différents univers du blog se rencontrent, un objet connecté avec reconnaissance vocale au service de l’e-santé. De quoi me ravir et m’enthousiasmer.La technologie de reconnaissance vocale employée par Google Assistant pourrait bientôt devenir un outil de transcription pour documenter les conversations entre patients et médecins. La difficulté technique consiste à identifier les différents interlocuteurs lors de l’enregistrement de la conversation afin de réaliser une transcription textuelle fidèle. Mais imaginez Google Home ou la Google Home mini ou Google Max accompagner le médecin dans ses dialogues avec ses patients pour tout enregistrer, convertir en texte et classifier.
Sommaire
Une étude réalisée par les chercheurs de Google
Ainsi un groupe de chercheurs de chez Google ont présentés le 20 novembre, les résultats autour de deux méthodologies de reconnaissance vocale automatique (ASR) pour enregistrer les conversations médicales. Ils en ont conclu que ces deux modèles pourraient être utilisés pour faire gagner du temps aux praticiens.
Selon leur étude, les médecins consacrent maintenant en moyenne 6 des 11 heures de leur journée avec un environnement d’EHR1. Parmi ses 6 heures, 1h30 heures est spécifiquement consacrée à la documentation. Compte tenu de la pénurie croissante de médecins, des niveaux de stress et d’épuisement professionnel élevés, une technologie d’ASR2 qui pourrait accélérer la transcription de la visite clinique semblait imminente. C’est une technologie fondamentale que les technologies d’extraction et de résumé de l’information peuvent utiliser pour alléger le fardeau de la documentation. »
1 EHR ou electronic health record (enregistrement électronique de santé) ou enregistrement médical électronique (electronic medical record – EMR) est la collecte et le stockage des données de santé des patients dans un format numérique (dictaphone + retranscription manuelle).
2 ASR pour Automatic Speech Recognition ou reconnaissance automatique de la parole (on parle souvent, moi en tout cas de reconnaissance vocale).
Deux méthodes testées de reconnaissance vocale d’une conversation multi orateurs
Actuellement, la plupart des produits ASR conçus pour la transcription médicale sont limités aux dictées médicales. Cette technologie de reconnaissance vocale ne gère qu’un seul orateur. Les conversations entre les médecins et leurs patients ont présenté plus de difficultés en raison du chevauchement des dialogues, de la distance et des qualités de la voix, des différences dans les schémas d’élocution et dans le champ lexicale employé.
Pour étudier l’aide que pourrait apporter la transcription des conversations, les chercheurs ont élaboré et évalué deux techniques d’ASR.
- La première est le modèle CTC pour Classification Temporelle Contextuelle, la classe ce nom ! En réalité il s’agit d’une technique qui découpe le son en phonème dans un contexte donnée. Un système de décodeur le retranscrit ensuite pour l’affecter au bon orateur.
Le CTC a initialement été conçu pour faciliter la reconnaissance vocale multi langues. Ce qui est peut être le cas entre un chirurgien et son patient. - L’autre, connu sous le nom de modèle d’écoute, de présence et d’orthographe (LAS), est un réseau neuronal en plusieurs parties qui traduit la parole en caractères individuels du langage, puis sélectionne séquentiellement les entrées subséquentes en fonction des prédictions antérieures.
Chaque modèle a été testé avec plus de 14 000 heures d’enregistrement de conversations médicales (anonymes).
Résultats des tests
Si un travail important de nettoyage des enregistrements a été nécessaire, il a permis d’obtenir des résultats encourageants.
- Le modèle CTC a finalement atteint un taux d’erreur de mot de 20,1 %. L’analyse des erreurs effectuée par les chercheurs a montré que la plupart des erreurs se sont produites vers le début et la fin des dialogues, pendant les interventions de moins d’une seconde, et plus souvent pendant le discours des patients plus que pendant celui d’un médecin. Je continue donc de penser que les médecins parlent mieux qu’ils écrivent.
- Le système LAS ont mieux résisté aux erreurs d’alignement des données , ainsi qu’au bruit parasitaire. Ils ont atteint un taux d’erreur de 18,3 %.
A noter que les erreurs étaient rarement liées aux termes médicaux. La plupart d’entre elles se produisant parmi les expressions plus conversationnelles.
De plus, le modèle LAS a permis d’obtenir un taux de rappel de 98,2 % pour les noms de médicaments mentionnés dans une conversation médicale.
En conclusion, l’équipe de chercheurs a déclaré que ces tests étaient très prometteur car les termes techniques médicaux n’ont pas présentés de contraintes particuliers. Deux des auteurs, Katherine Chou, chef de produit, et Chung-Cheng Chiu, ingénieur logiciel, ont également déclaré qu’ils allaient travailler en collaboration avec des médecins et des chercheurs de l’Université de Stanford pour continuer d’avancer.
Alors Google Home au service des médecins ?
Comme toujours, Google pense à ses utilisateurs, ici les médecins et chirurgiens : « Nous espérons que ces technologies aideront non seulement à redonner du plaisir à la pratique en facilitant la tâche quotidienne des médecins et des scribes, mais qu’elles aideront aussi les patients à obtenir une attention médicale plus engagée et approfondie, ce qui devrait idéalement mener à de meilleurs soins « . Voila donc une idée de plus pour faire du business avec Google Home.
Téléchargez l’étude »SPEECH RECOGNITION FOR MEDICAL CONVERSATIONS » du 20 novembre 2017
Noms des chercheurs Google ayant réalisée l’étude : Chung-Cheng Chiu, Anshuman Tripathi, Katherine Chou, Chris Co, Navdeep Jaitly, Diana Jaunzeikare, Anjuli Kannan, Patrick Nguyen, Hasim Sak, Ananth Sankar, Justin Tansuwan, Nathan Wan, Yonghui Wu et Xuedong Zhang.