L’imagerie de la faune montre que les modèles d’IA ne sont pas aussi intelligents qu’on le pense
Auteur: Mathieu Gagnon
Le mythe de l’adaptation instantanée des algorithmes
Le marketing entourant les systèmes d’imagerie basés sur l’intelligence artificielle met souvent en avant une capacité d’adaptation sans limite. Les argumentaires commerciaux suggèrent que ces modèles informatiques peuvent facilement s’attaquer à des scénarios inédits, à travers divers écosystèmes et paramètres, exactement de la même manière que des observateurs humains.
Cette promesse vient d’être remise en question par deux chercheurs de l’Université d’Exeter. Dans une récente publication, ces scientifiques affirment que l’utilisation de l’intelligence artificielle pour identifier la faune sauvage révèle une potentielle crise de transférabilité. Selon eux, l’idée même qu’un algorithme puisse s’adapter naturellement à tous les environnements repose sur une « hypothèse erronée ».
Leurs travaux font l’objet d’un article publié dans la revue scientifique PLOS Biology. Intitulé « L’apprentissage profond en biologie fait face à une crise de transférabilité » (« Deep learning in biology faces a transferability crisis »), le texte s’appuie sur des exemples précis issus de l’identification des espèces et de l’imagerie diagnostique pour illustrer les limites actuelles des technologies de pointe.
Les limites des environnements d’entraînement contrôlés
Les modèles d’intelligence artificielle se révèlent fiables lorsqu’ils opèrent dans les environnements précis dans lesquels ils ont été entraînés. La difficulté survient lors d’un changement de décor : les chercheurs constatent que cette efficacité se transpose rarement dans de nouveaux lieux, rendant la capacité de généralisation d’un modèle particulièrement difficile à prédire.
Le Dr Thomas O’Shea-Wheller, chercheur à l’Institut de l’Environnement et de la Durabilité sur le campus de Penryn de l’Université d’Exeter en Cornouailles, étudie précisément cet écart entre la théorie et la pratique. Son analyse souligne les biais présents dans les processus d’évaluation actuels.
« Le message à retenir est que, bien qu’ils soient considérés comme la ‘référence absolue’, les tests de performance (tests utilisés pour évaluer l’IA) n’indiquent pas de manière fiable la véritable capacité des modèles d’IA, » explique le chercheur. Il précise la nature du problème : « Nous voyons beaucoup d’affirmations prétendant comparer la capacité des derniers modèles à celle des humains dans des scénarios très vastes. »
La défaillance des algorithmes en milieu naturel
L’origine de cette distorsion entre les attentes et la réalité provient directement des méthodes d’évaluation de la machine. Les scientifiques soulignent que la validation en laboratoire ne garantit pas l’efficacité sur le terrain. Le Dr O’Shea-Wheller insiste sur ce point : « Cependant, celles-ci sont dérivées de tests de performance sur des ensembles de données qui ne se transposent pas toujours aux tâches du monde réel. »
Pour clarifier la situation, le chercheur prend l’exemple d’un animal domestique couramment utilisé dans les démonstrations informatiques. « Un modèle entraîné pour identifier des chats à l’aide d’images de banques d’images fonctionnera bien lorsqu’il sera testé avec d’autres images de banques d’images de chats, mais cela ne se traduira pas par une détection efficace de chats dans la nature, » détaille-t-il.
Les conséquences d’une confiance aveugle envers ces outils peuvent fausser la recherche scientifique globale. Le spécialiste alerte sur la méthodologie : « Le danger est que de telles mesures de référence—souvent composées de catégories d’images arbitraires—soient utilisées pour exagérer les performances et la généralisabilité des modèles. »
Le paradoxe d’une technologie aveuglément confiante
L’analyse comportementale de l’intelligence artificielle révèle une autre particularité troublante, soulevée par Katie Murray, chercheuse au Centre d’Écologie et de Conservation. L’outil informatique tend à masquer ses propres erreurs d’analyse derrière une validation systématique.
« Dans le cas de l’identification de la faune, vous pouvez vous retrouver avec quelque chose qui ne fonctionne pas bien, mais qui semble très confiant dans ses conclusions, » observe Katie Murray. Cette absence de doute de la part du programme peut facilement tromper un utilisateur non averti.
« Pour le dire simplement, l’IA a du mal avec les choses qu’elle n’a jamais vues auparavant, mais elle ne l’exprimera pas nécessairement à l’utilisateur, » résume-t-elle. Le Dr O’Shea-Wheller ajoute que la technologie en elle-même n’est pas à blâmer, l’enjeu se situe dans sa méthode d’application. « L’IA peut être incroyablement puissante, mais le contexte est essentiel—les modèles doivent être évalués dans leurs cas d’utilisation réels, et s’ils ne le sont pas, cela peut entraîner de graves problèmes par la suite, » prévient-il.
L’urgence d’une évaluation par l’usage réel
L’incapacité de l’intelligence artificielle à signaler ses défaillances comporte des risques allant au-delà de la simple erreur d’inventaire. L’application de ces systèmes touche à des domaines cruciaux où l’exactitude des données s’avère vitale. « En écologie, cela crée des défis pour la surveillance des espèces et la conservation, tandis que dans des contextes tels que la médecine, les conséquences peuvent être encore plus problématiques, » détaille le Dr O’Shea-Wheller.
Le délai de détection des pannes d’un algorithme constitue une menace silencieuse. Le chercheur précise cette dynamique : « L’aspect peut-être le plus dangereux de tout cela, c’est que lorsqu’un modèle échoue, cela n’est souvent détecté que lorsque des dommages importants ont été causés. » Face à ce constat, les chercheurs réclament une prudence accrue dans l’interprétation des mesures de performance et encouragent l’adoption croissante d’outils permettant de tester rapidement les modèles au sein d’applications du monde réel.
Concernant le problème plus large des tests standardisés, les scientifiques soutiennent fermement que ceux-ci ne doivent pas servir à estimer les performances généralisées d’un modèle. « Dans l’état actuel des choses, la seule façon fiable d’évaluer dans quelle mesure un modèle d’IA fonctionnera est de le tester réellement dans votre cas d’utilisation spécifique, » conclut le Dr O’Shea-Wheller.
Selon la source : phys.org