La période de publication des résultats financiers peut être éprouvante pour les analystes et investisseurs, qu'il s'agisse de traiter une abondance d'informations. Dans ce contexte, une intelligence artificielle pourrait-elle prendre le relais ? C'est exactement ce que Charles-Henri d'Auvigny, managing partner de Réputation Age, a manigancé. Il a publié une étude sur la fiabilité des IA pour analyser les résultats financiers des sociétés du CAC 40.
En effet, l'intelligence artificielle est en train de devenir un nouveau moyen d'accès à l'information, y compris sur le plan financier. De plus en plus d'utilisateurs s'y réfèrent directement plutôt que d'utiliser de simples moteurs de recherche, s'orientant vers des modèles comme ChatGPT (OpenAI), Gemini (Google) ou Claude (Anthropic) pour obtenir des synthèses. Cela constitue un défi crucial pour les entreprises et les sites d'informations financières. Être mentionné par une AI dans ses réponses est devenu tout aussi crucial que figurer en tête des résultats de recherche Google.
Pour évaluer la fiabilité de ces outils, l'étude a adopté la perspective d'un investisseur individuel. Les chercheurs ont demandé à plusieurs IA de restituer les résultats financiers de 39 sociétés du CAC 40, en s'appuyant sur quatre indicateurs clés : chiffre d'affaires, résultat net, résultat d'exploitation et dette nette, utilisant trois méthodes d'interaction.
"Nous avons constaté une situation déplorable; lorsqu'on interroge les différents modèles, les résultats ne rejoignent pas la réalité : c'est proche de zéro en termes d'exactitude", a déclaré Charles-Henri d'Auvigny sur BFM Business.
La première méthode, appelée interrogation directe, est celle qui est généralement adoptée par le grand public. Ici, l'utilisateur pose une question globale - par exemple, un tableau complet des résultats financiers - et l'IA répond en s'appuyant uniquement sur ses connaissances acquises. Cette approche a produit des résultats très faibles. ChatGPT ne fournit aucune réponse correcte, tandis que Gemini et Claude atteignent à peine 13% et 7% de bonnes réponses respectivement.
"Que des erreurs"
"ChatGPT c'était zéro sur zéro, toutes les réponses étaient erronées", indique l'auteur de l'étude.
La deuxième méthode consiste en une série de questions posées progressivement par un agent pilotant l'IA. Bien que cela structure légèrement les réponses, l'IA continue de se baser sur ses connaissances internes, sans vérification extérieure. Les résultats restent donc très faibles, aucun modèle ne dépassant les 15% d'exactitude.
En revanche, la troisième méthode, qui connecte l'IA directement aux sources officielles, a montré une nette amélioration. L'IA collecte, vérifie et structure l'information à partir des données publiques des entreprises. Dans ce cas, la précision a considérablement augmenté, atteignant 80% de réponses correctes pour le modèle Claude par Anthropic. Cela démontre que la fiabilité est intimement liée à l'accès à des sources vérifiables.
"Lorsque nous interrogeons l'IA, il est crucial de ne pas croire tout ce qu'elle dit", rappelle Charles-Henri d'Auvigny. "De plus, elle a tendance à privilégier les sources américaines. Les sites officiels des entreprises ne sont pas toujours considérés comme des références par l'IA."
Au-delà de la précision des chiffres, l'étude souligne un enjeu stratégique majeur pour les entreprises. Les modèles d'IA ne privilégient pas automatiquement les sources officielles et peuvent générer des réponses imprécises ou biaisées, souvent en se basant sur des publications obsolètes. Ainsi, il ne suffit plus de partager des informations fiables : elles doivent également être correctement interprétées par les IA.
Les chercheurs appellent donc à développer une approche nommée "Generative Reputation Optimization" (GRO), visant à adapter la communication des entreprises de manière à améliorer l'accessibilité de leurs données financières auprès des intelligences artificielles.







