Une histoire de véracité et de vérifiabilité.
Mickaël Schauli
Wikimédien en résidence
Urfist de Strasbourg
Université de Strasbourg
Introduction
Avec la démocratisation des intelligences artificielles génératives, et la disponibilité en accès libre de ChatGPT, l’accès à l’information a vu ses modalités évoluer. L’accès à l’information est devenu moins laborieuse et plus rapide, sortant du schéma classique des moteurs de recherche (Zuccon et al., 2023). L’arrivée en novembre 2022 de ChatGPT s’est faite plus rapidement que n’importe quelle autre technologie dans l’histoire. Ce sont 100 millions d’utilisateurs qui se sont emparés de l’outil en seulement deux mois (Anderl et al., 2024).
En parallèle de cet essor, l’encyclopédie libre Wikipédia continue d’être une source principale d’informations pour le grand public, étant souvent dans les premiers résultats affichés par Google pour une recherche simple (N. Vincent & Hecht, 2021). Ajoutez à cela le biais positif accordé par les individus aux résultats de recherche classés le plus haut dans la liste (Jung et al., 2024).
J’essaye dans ce document d’établir les liens entre ces deux systèmes et d’explorer cet univers à travers la littérature scientifique. Les intelligences artificielles (IA) s’appuient très largement sur Wikipédia comme corpus d’apprentissage, tandis que les contenus de Wikipédia sont influencés par l’essor de l’intelligence artificielle. Le prisme de la fiabilité de l’information est à garder comme base de réflexion, tout en mettant en lumière les aspects et défis éthiques et écologiques associés.
Wikimedia entraîne les IA
Dans le monde des intelligences artificielles génératives actuelles, Wikipédia occupe une place centrale en tant que source de données pour leur entraînement. Sa structure collaborative, ses standards élevés de curation des données, la fiabilité de ses informations et sa licence libre offrent l’idéal recherché par les entreprises –et notamment les GAFAM– entraînant des grands modèles de langage (Brooks et al., 2024; Simonnot et al., 2021).
Biais et enjeux éthiques
Toutefois, cette dépendance soulève plusieurs questionnements, le premier étant un enjeu éthique. Les IA répliquent les biais déjà présents dans les articles de l’encyclopédie libre et amplifient les points de vue majoritairement exposés.
On accorde plus facilement du crédit aux informations qui sont répétées, étant donné la confusion qui est faite entre familiarité et validité (Brooks et al., 2024). L’IA, qui répète des informations biaisées, peut ainsi contribuer à la désinformation ou à la propagation de fausses informations.
Biais de genre
Le premier biais auquel penser est le biais de genre, dont est victime Wikipédia (Reagle & Rhue, 2011). Sur Wikipédia, une femme n’a le droit d’avoir un article qu’après avoir un réseau de connexion plus fort avec d’autres éléments existants qu’un homme n’en a besoin (Krivaa & Coscia, 2024). En 2016, seules environ 14% des biographies sur Wikipédia en français concernent des femmes. Sur Wikipédia en anglais, 15,53% des biographies concernant des femmes en 2014 (Graells-Garrido et al., 2015).
Ce biais de genre se retrouve en interrogeant ChatGPT. Pour l’expérience, il lui est demandé de dresser une « liste de 10 artistes ayant marqué l’histoire de la peinture ». Dans la liste qu’il nous propose, une seule femme, Frida Khalo, est présente, en dernière place. L’expérience est répliquée pour les « 10 scientifiques ayant marqué l’histoire de la physique », liste dans laquelle Marie Curie se tient seule, aux côtés de neuf hommes.
Ces deux expériences ont également été réalisées sur Microsoft Copilot, avec les mêmes résultats (Frida Khalo et Marie Curie respectivement les seules femmes peintre et scientifique des listes, les neufs autres noms masculins étant plus variables).
Occidentalocentrisme
Les articles de Wikipédia sont plus complets et culturellement développés sur les sujets occidentaux. Sur la Wikipédia anglophone, les biographies concernant des américain·es contiennent davantage de liens externes, de références et contenus diversifiés (Callahan & Herring, 2011).
Les IA sont convaincantes par nature !
Les intelligences artificielles dotées d’agents vocaux recueillent plus facilement la confiance des individus que les encyclopédies au format texte statique. Par la présence sociale de l’agent textuel ou vocal, la confiance est renforcée. Les individus ont plus de mal à distinguer les fausses informations des vraies lorsqu’elles sont présentées par des agents conversationnels vocaux (Anderl et al., 2024 ; Jung et al., 2024).
Les IA sont cependant convaincantes non par leur notoriété et leur marque, mais par nature. Anderl et al. (2024) ont montré que l’importance ou le nom de l’intelligence artificielle n’est pas un facteur modifiant la confiance accordée à ces dernières par les individus.
Par exemple, ChatGPT a réussi à convaincre des avocats d’un procès fictif. Ayant utilisé les cas inventés par l’IA lors d’un procès réel, ils ont été sanctionnés (Jung et al., 2024).
Propriété intellectuelle
Les projets Wikimédia ne se limitent pas à Wikipédia. La médiathèque libre Wikimedia Commons comporte plusieurs millions de fichiers médias disponibles gratuitement en licence libre. Les intelligences artificielles génératives d’images ont été entraînées avec des images trouvable librement en ligne, dont celles de Wikimedia Commons (Baio, 2022).
Cet entraînement massif à partir d’images sous licence libre (licence qui n’autorise pas l’utilisation sans mention de l’auteur) pose des questions éthiques de propriété intellectuelle. L’IA se positionne comme un voleur d’art et de main d’œuvre, entre autres en utilisant le contenu d’auteur·es sans leur consentement (Goetze, 2024).
La banque d’images en ligne Getty Images a engagé des poursuites judiciaires contre Stability AI pour avoir entraîné son IA avec les images provenant du site sans leur autorisation. La preuve avancée est la génération par cette intelligence artificielle d’images faisant apparaître le filigrane de Getty Images (J. Vincent, 2023).
Impact et réception de l’IA sur Wikipédia
Articles générés par IA
Depuis que ChatGPT est disponible à grande échelle, de plus en plus d’articles Wikipédia sont produits ou assistés par IA. Sur la Wikipédia anglophone, environ 5% des nouveaux articles créés sont générés par une IA (Brooks et al., 2024).
Les articles générés à l’aide de l’intelligence artificielle apparaissent comme de moins bonne qualité et moins bien intégrés dans le réseau des articles Wikimédia, présentant moins de liens internes. Ils comportent par ailleurs un nombre inférieur de références (Brooks et al., 2024).
En outre, les articles encyclopédiques générés avec l’IA sont souvent motivés par l’autopromotion ou le « pov-pushing ». Ainsi, il apparaît que les articles par IA contreviennent souvent aux principes fondateurs de l’encyclopédie et présentent un risque plus important de désinformation (Brooks et al., 2024).
Réactions de la communauté Wikimédia
Les communautés Wikipédia sont aujourd’hui loin du consensus au sujet des IA génératives, mais s’accordent à dire que ChatGPT n’est pas capable de rédiger un article Wikipédia en intégralité à l’heure actuelle. Ne sachant pas citer ses sources correctement et inventant des références, ses productions ne sont pas compatibles avec l’encyclopédie (Intelligence artificielle : comment ChatGPT peut aider les contributeurs français de Wikipédia | France Inter, 2023; Wikipédia est-elle en danger à cause de l’IA ?, 2023).
Sur la Wikipédia francophone comme sur la Wikipédia anglophone la vérification rigoureuse des informations est obligatoire. L’IA générative est considérée par les francophones comme utile sur certaines tâches comme la génération d’infobox ou la synthèse des sources (« Wikipedia:Artificial intelligence », 2025; « Wikipédia:Intelligence artificielle », 2024).
ChatGPT reste un outil intéressant pour le travail rédactionnel et la génération d’un plan pour la rédaction d’un article Wikipédia (Intelligence artificielle : comment ChatGPT peut aider les contributeurs français de Wikipédia | France Inter, 2023). Cependant, il reste évident que ChatGPT ne peut pas se substituer au travail du contributorat de l’encyclopédie.
Action de la communauté
Brooks et al. (2024) remarquent que les articles générés par IA sur la Wikipédia en anglophone sont, la plupart du temps, repérés par les modérateurs et un bandeau d’avertissement leur est apposé. De plus, il a été montré que l’étiquetage des contenus générés par IA est nécessaire pour contrer la désinformation (Huschens et al., 2023).
Wikifunctions et Abstract Wikipédia
Un nouveau projet Wikimédia est en incubation, destiné à générer automatiquement des articles Wikipédia à partir de fonctions et de la base de données Wikidata. Le biais de cette méthode est l’évacuation des nuances culturelles dans les contenus générés (Simonnot et al., 2021).
Une baisse du trafic ?
On peut légitimement se demander si l’arrivée des intelligences artificielles génératives engendre une baisse de la fréquentation en lecture de Wikipédia, et une baisse du nombre de contributeur·trices. Cependant, la fréquentation de l’encyclopédie augmente, dans toutes les langues étudiées, que ChatGPT soit disponible dans cette langue ou ne le soit pas et aucun impact n’a été constaté sur le contributorat. Il a tout de même été mis en évidence une augmentation plus faible du lectorat dans les langues dans lesquelles ChatGPT est disponible (Reeves et al., 2024).
Fiabilité des informations
Précision et biais des IA
Les modèles d’IA générative, à l’instar de ChatGPT, présentent de graves problèmes récurrents de fiabilité des informations. Zuccon et al. (2023) ont montré que près de la moitié des réponses générées par ChatGPT sont totalement fausses, et que, lorsqu’il fournit des références, 86% d’entre elles sont fictives.
Parmi le peu de références qui existent, la majorité (85%) provient de Wikipédia. Cette surreprésentation de Wikipédia dans les références données par l’IA s’explique par la présence centrale de Wikipédia dans les données les ayant entraînées et par le format standardisé des titres de l’encyclopédie (Zuccon et al., 2023).
Zuccon et al. (2023) ont également mis en évidence le caractère potentiellement dangereux des réponses fausses données par ChatGPT, avec l’exemple d’une solution proposée pour améliorer le rendement en agriculture utilisant des produits nocifs pour la santé humaine et animale. Cette réponse donnée par ChatGPT était tournée de façon convaincante, capable de tromper le lecteur.
Modèle collaboratif de Wikipédia
Les projets Wikimédia se construisent sur une architecture collaborative et ouverte, qui en assure une complétion progressive. La fiabilité de Wikipédia est perçue par les internautes grâce à divers facteurs dont cet aspect collaboratif et les principes de correction collective (Jung et al., 2024; Simonnot et al., 2021).
Défis pour l’avenir
Enjeux écologiques
Les modèles d’intelligence artificielle consomment, directement ou indirectement, des quantités importantes d’eau. L’entraînement d’un seul grand modèle de langage consomme entre 1,76 et 9,36 millions de litres d’eau par an (George et al., 2023).
Légifération sur Wikipédia
[à compléter]
Conclusion
[à compléter]
Bibliographie
- Anderl, C., Klein, S. H., Sarigül, B., Schneider, F. M., Han, J., Fiedler, P. L., & Utz, S. (2024). Conversational presentation mode increases credibility judgements during information search with ChatGPT. Scientific Reports, 14(1), 17127. https://doi.org/10.1038/s41598-024-67829-6
- Baio, A. (2022, août 30). Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator. Waxy.Org. https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/
- Brooks, C., Eggert, S., & Peskoff, D. (2024). The Rise of AI-Generated Content in Wikipedia (Version 1). arXiv. https://doi.org/10.48550/ARXIV.2410.08044
- Callahan, E. S., & Herring, S. C. (2011). Cultural bias in Wikipedia content on famous persons. Journal of the American Society for Information Science and Technology, 62(10), 1899‑1915. https://doi.org/10.1002/asi.21577
- George, A. S., A.S.Hovan George, & A.S.Gabrio Martin. (2023). The Environmental Impact of AI : A Case Study of Water Consumption by Chat GPT. https://doi.org/10.5281/ZENODO.7855594
- Goetze, T. S. (2024). AI Art is Theft : Labour, Extraction, and Exploitation: Or, On the Dangers of Stochastic Pollocks. Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency, 186‑196. https://doi.org/10.1145/3630106.3658898
- Graells-Garrido, E., Lalmas, M., & Menczer, F. (2015). First Women, Second Sex : Gender Bias in Wikipedia. Proceedings of the 26th ACM Conference on Hypertext & Social Media – HT ’15, 165‑174. https://doi.org/10.1145/2700171.2791036
- Huschens, M., Briesch, M., Sobania, D., & Rothlauf, F. (2023). Do You Trust ChatGPT? — Perceived Credibility of Human and AI-Generated Content (arXiv:2309.02524). arXiv. https://doi.org/10.48550/arXiv.2309.02524
- Intelligence artificielle : Comment ChatGPT peut aider les contributeurs français de Wikipédia | France Inter. (2023, mai 13). https://www.radiofrance.fr/franceinter/intelligence-artificielle-comment-chatgpt-peut-aider-les-contributeurs-francais-de-wikipedia-6525598
- Jung, Y., Chen, C., Jang, E., & Sundar, S. S. (2024). Do We Trust ChatGPT as much as Google Search and Wikipedia? Extended Abstracts of the CHI Conference on Human Factors in Computing Systems, 1‑9. https://doi.org/10.1145/3613905.3650862
- Krivaa, L., & Coscia, M. (2024). TRACES OF UNEQUAL ENTRY REQUIREMENT FOR ILLUSTRIOUS PEOPLE ON WIKIPEDIA BASED ON THEIR GENDER. Advances in Complex Systems, 27(03), 2450003. https://doi.org/10.1142/S0219525924500036
- Reagle, J. M., & Rhue, L. (2011). Gender bias in Wikipedia and Britannica. USC Annenberg Press. http://hdl.handle.net/2047/d20002078
- Reeves, N., Yin, W., & Simperl, E. (2024). Exploring the Impact of ChatGPT on Wikipedia Engagement (Version 3). arXiv. https://doi.org/10.48550/ARXIV.2405.10205
- Simonnot, B., Broudoux, É., & Chartron, G. (Éds.). (2021). Wikidata et les Gafam : Partenariat et appropriation des données pour le développement d’assistants personnels intelligents. In Humains et données : Création, médiation, décision, narration : Actes du Colloque « Document numérique et société, » Nancy, 2020 (1re édition). « Document numérique et société » (Conference), Louvain-la-Neuve. De Boeck Superieur.
- Vincent, J. (2023, janvier 17). Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content. The Verge. https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit
- Vincent, N., & Hecht, B. (2021). A Deeper Investigation of the Importance of Wikipedia Links to Search Engine Results. Proceedings of the ACM on Human-Computer Interaction, 5(CSCW1), 1‑15. https://doi.org/10.1145/3449078
- Wikipédia est-elle en danger à cause de l’IA ? (2023, juillet 19). clubic.com. https://www.clubic.com/pro/blog-forum-reseaux-sociaux/wikipedia/actualite-478366-wikipedia-est-elle-en-danger-a-cause-de-l-ia.html
- Wikipedia:Artificial intelligence. (2025). In Wikipedia. https://en.wikipedia.org/w/index.php?title=Wikipedia:Artificial_intelligence&oldid=1268278097
- Wikipédia:Intelligence artificielle. (2024). In Wikipédia. https://fr.wikipedia.org/w/index.php?title=Wikip%C3%A9dia:Intelligence_artificielle&oldid=220058952#Droit_d’auteur
- Zuccon, G., Koopman, B., & Shaik, R. (2023). ChatGPT Hallucinates when Attributing Answers. Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region, 46‑51. https://doi.org/10.1145/3624918.3625329