Nous utilisons des cookies pour vous garantir une expérience optimale. Si vous acceptez, vous êtes en accord avec cette utilisation. Pour plus d'informations, veuillez consulter notre politique de confidentialité.
/

Innovation

MoCA Solo : comment créer des modèles d’IA fiables malgré le manque de données

Jack Tacchi
Jack Tacchi
6
min read

Quand MoCA Cognition nous a approchés pour bâtir l’intelligence derrière MoCA Solo, leur nouvelle version numérique du fameux test cognitif, un défi majeur est apparu très vite : il n’y avait pratiquement aucune donnée exploitable pour entraîner des modèles d’IA.

Pour une application clinique, c’est un problème majeur. Impossible de noter automatiquement un test si les modèles n’ont pas suffisamment d’exemples pour apprendre ce qui constitue une bonne ou une mauvaise réponse.

Face à cette réalité, notre collaboration rapprochée avec MoCA et leurs partenaires nous a poussés à innover et à concevoir une stratégie fondée sur les données, qui a permis de transformer un terrain vierge en un système solide et opérationnel.

Le constat initial : beaucoup de données… mais très peu utilisables

Dès le début du projet, nous avons plongé dans l’analyse du jeu de données fourni par MoCA.

Ce que nous avons découvert :

  • Des heures de vidéos et d’audios de patients effectuant le test…

  • … mais les enregistrements contenaient plusieurs personnes parlant en même temps.

  • Les annotateurs discutaient par-dessus les patients.

  • Impossible d’isoler les voix pour savoir qui disait quoi.

  • Sur les images, beaucoup d’artefacts, de variations, d’angles, ou des données tout simplement non exploitables.

Au final, malgré un volume de données impressionnant, seule une fraction minime pouvait réellement servir à entraîner des modèles fiables.

Pour tout ce qui touchait à l’audio, le verdict était clair : données inutilisables et risque que des informations de mauvaise qualité produisent des résultats peu fiables.

Il fallait une autre stratégie.

Notre réponse : reconstruire la donnée au lieu de la subir

Lorsque la donnée brute n’est pas exploitable, il reste deux options :

  1. renoncer à la performance

  2. reconstruire une base d’entraînement propre et contrôlée

Nous avons évidemment choisi l’option 2.

A. Pour les dessins (horloge, cube, tracé)

Nous avons créé une approche hybride combinant :

  • Modèles visuels existants (YOLO) pour détecter les éléments clés

  • Règles expertes cliniques directement codées pour garantir la conformité

  • Données synthétiques afin de pallier le manque de variété réelle

L’objectif n’était pas de viser une génération parfaite, mais de créer suffisamment de diversité pour apprendre les patterns visuellement et cliniquement pertinents.

Exemple : le dessin de l’horloge

  • Seulement quelques dizaines d’exemples utilisables

  • MoCA exige un scoring très précis (alignement, position des aiguilles, contour, chiffres…)

  • Les variations possibles sont infinies

Nous avons donc généré des centaines d’images synthétiques, manipulé les positions des chiffres, les angles, les épaisseurs de trait, etc.
Cela a permis au modèle d’apprendre à généraliser, même sans véritable large dataset clinique.

Exemple : le Cube

Le cube posé par MoCA est évalué selon un protocole très rigide :
chiffrement, perspective, parallélisme…

Mais avec quasiment aucune donnée réelle, nous avons dû réfléchir autrement.

Plutôt que de dépendre d’un modèle complexe nécessitant des milliers d’images, nous avons simplifié l’approche en nous appuyant sur des règles capables d’identifier les éléments essentiels du dessin et d’évaluer leur conformité au protocole.

B. Pour l’audio : tester, itérer, débruiter

Le plus grand défi du projet.

Avec des enregistrements contaminés par plusieurs voix, nous ne pouvions pas entraîner de modèle maison.

Nous avons donc :

  • testé Whisper, Parakeet et d’autres modèles speech-to-text

  • ajouté une couche de nettoyage : suppression du bruit, filtrage des fréquences, élimination des paroles de l’annotateur

  • ajouté des règles pour valider qu’un enregistrement est assez propre pour être interprété

  • développé des prompts spécialisés dans l’interprétation des réponses MoCA (séquences, verbes, orientation spatiale…)

Dans ce contexte, l’enjeu principal n’était pas la qualité des modèles d’IA eux-mêmes, mais la capacité à réparer et structurer la donnée avant même son traitement.

L’importance des prompts spécialisés (et du bon jugement clinique)

Pour les tâches auditives comme la répétition de mots, l’interprétation dépend du protocole MoCA.
Exemple :

  • un mot mal prononcé, est-ce toléré ?

  • une inversion de verbe, est-ce une erreur ?

  • si la phrase est complète mais pas exactement identique, est-ce accepté ?

Nous avons donc conçu des instructions sur mesure, extrêmement détaillées, qui capturaient la logique clinique.

Ce travail allait bien au-delà de l’ingénierie IA : il nécessitait une compréhension fine et rigoureuse du protocole clinique afin d’interpréter correctement chaque réponse.

Un guideline essentiel : chaque modèle = 1 tâche

Une règle d’or que nous avons suivie tout au long du projet : chaque tâche MoCA bénéficie de son propre modèle, il n’existe pas de modèle générique.

Pourquoi ?
Parce que chaque sous-test du MoCA a :

  • des règles uniques

  • des variations spécifiques

  • des défis distincts

Nous avons donc entraîné et calibré nos modèles un par un, ce qui a permis une performance beaucoup plus stable et compatible avec la validation clinique future.

Le résultat : un système fiable… et validable

Malgré le manque de données, nous avons livré: 

  • des modèles surpassant les attentes initiales
  • une performance >90% sur certaines tâches, dès la première phase
  • un pipeline audio robuste

  • un scoring visuel cohérent

  • une architecture prête pour la validation réglementaire

  • une documentation détaillée pour accompagner MoCA dans les prochaines étapes cliniques.

Une fois que des données plus propres ont été intégrées au système, les performances ont rapidement progressé, l’architecture étant déjà en place pour absorber ces améliorations.

Un impact concret pour MoCA

Pour MoCA, le développement de MoCA Solo représente bien plus qu’une simple automatisation d’un test : il s’agit d’un outil facilement déployable à grande échelle, qui ne dépend pas de centaines d’annotateurs spécialisés et offre une notation plus uniforme que l’évaluation humaine. Cette approche permet un suivi longitudinal de meilleure qualité et fournit une base solide pour la validation réglementaire, indispensable à un déploiement clinique sûr. Le résultat est un produit prêt à être commercialisé sur un marché mondial en forte croissance.

Pour notre équipe chez Osedea, ce projet a été l’occasion de démontrer notre savoir-faire dans un contexte complexe. Nous avons su exploiter des données imparfaites pour obtenir des résultats fiables, adopter une approche itérative et pragmatique orientée vers l’impact, et combiner apprentissage profond, génération de données synthétiques et ingénierie classique. Parallèlement, nous avons pris en compte les contraintes propres aux produits médicaux, ce qui renforce notre maîtrise des projets de ce type et notre capacité à transformer des défis techniques en solutions concrètes et opérationnelles.

Quand les contraintes deviennent un levier

Le manque de données aurait pu bloquer le projet MoCA Solo. À la place, il nous a poussés à innover et à trouver des solutions techniques créatives. Nous n’avons pas seulement entraîné des modèles : nous avons construit un terrain de jeu complet pour permettre à ces modèles d’apprendre dans un environnement propre, structuré et conforme aux standards cliniques.

Avec MoCA Cognition, nous avons démontré que même dans les contextes les plus contraints, une approche rigoureuse, technique et collaborative permet d’obtenir des résultats fiables et prêts à transformer la pratique clinique. Retrouvez l’étude de cas complète ici.

Si vous souhaitez explorer comment nous pouvons relever vos défis techniques et transformer vos idées en solutions concrètes, contactez-nous.

Cet article vous a donné des idées ? Nous serions ravis de travailler avec vous ! Contactez-nous et découvrons ce que nous pouvons faire ensemble.

Contactez-nous
Button Arrow