Malgré l'utilité de l'IA, les LLM peuvent occasionnellement générer des réponses incorrectes. OpenAI s'efforce de résoudre ce problème et d'améliorer la fiabilité de ses modèles, tels que ChatGPT. Pour ce faire, l'entreprise a introduit SimpleQA, un benchmark open-source conçu pour évaluer la précision des réponses des LLM. La création de cet outil a attiré l'attention sur les limites actuelles de l'IA, en particulier lorsqu'il s'agit de traiter des types de requêtes spécifiques.
SimpleQA a été créé pour tester la capacité des modèles d'OpenAI à répondre à des questions courtes, claires et factuelles. L'outil utilise un ensemble de 4 326 questions simples dont les réponses sont vérifiables afin de faciliter l'évaluation. En se concentrant sur des questions spécifiques et bien définies, OpenAI pense que SimpleQA est un moyen précis de mesurer la factualité des LLM.
Lors de la conception de SimpleQA, les chercheurs ont choisi des questions réputées difficiles, auxquelles les LLM avaient déjà donné des réponses erronées. Ces questions ont des réponses claires et factuelles qui restent constantes dans le temps. En procédant ainsi, les chercheurs ont voulu voir dans quelle mesure les modèles d'IA pouvaient traiter ces questions spécifiques et difficiles, plutôt que de simplement tester leur capacité générale à répondre correctement à des questions factuelles basiques.
Les résultats montrent que GPT-4o (la version actuelle de ChatGPT-4) répond correctement à environ 40 % des questions, tandis que le modèle de prévisualisation GPT-4-o1 est légèrement plus performant. Les modèles plus petits, cependant, ont une précision encore plus faible.
Selon les chercheurs d'OpenAI, SimpleQA pourrait encourager la poursuite des recherches visant à rendre les LLM plus précis et plus fiables. Ce travail est essentiel, car OpenAI a récemment lancé son propre moteur de recherche dans ChatGPT, et d'autres modèles d'IA devraient bientôt lui emboîter le pas.