Les modèles de langage de grande taille (LLM) comme ChatGPT s’appuient sur une vaste diversité de sources pour répondre aux requêtes des utilisateurs. Une étude réalisée en juin 2025 par Semrush a analysé plus de 150.000 citations pour établir un classement des sites Internet les plus fréquemment mentionnés. Les résultats soulignent l’importance des contenus générés par les utilisateurs et les plateformes collaboratives, tout en soulevant des interrogations sur la fiabilité de ces informations.
Une dépendance croissante aux contenus collaboratifs
Reddit domine largement le classement avec plus de 40% des citations, suivi de Wikipedia à plus de 26%. Cette dépendance illustre à quel point les modèles d’IA se nourrissent de forums ouverts et de contenus communautaires. Cette tendance offre une richesse d’informations, mais elle met également en lumière des risques liés à la précision et à l’objectivité des données.
Tableau des sites les plus cités
Rang | Domaine | Fréquence de citation |
---|---|---|
1 | reddit.com | 40.1% |
2 | wikipedia.org | 26.3% |
3 | youtube.com | 23.5% |
4 | google.com | 23.3% |
5 | yelp.com | 21.0% |
6 | facebook.com | 20.0% |
7 | amazon.com | 18.7% |
8 | tripadvisor.com | 12.5% |
9 | mapbox.com | 11.3% |
10 | openstreetmap.org | 11.3% |
11 | instagram.com | 10.9% |
12 | mapquest.com | 9.8% |
13 | walmart.com | 9.3% |
14 | ebay.com | 7.7% |
15 | linkedin.com | 5.9% |
16 | quora.com | 4.6% |
17 | homedepot.com | 4.6% |
18 | yahoo.com | 4.4% |
19 | target.com | 4.3% |
20 | pinterest.com | 4.2% |
Les implications pour les utilisateurs
Cette analyse démontre qu’une part significative des réponses générées par l’IA provient de discussions et d’échanges communautaires. Les avantages de cette approche résident dans la diversité des points de vue et la rapidité de mise à jour des informations. Cependant, l’absence de validation experte systématique implique que certaines réponses peuvent être inexactes ou biaisées.
Les risques identifiés
- Désinformation et rumeurs: Les contenus non modérés par des experts peuvent induire en erreur et être répétés sans vérification.
- Effet d’écho: Les récits populaires, bien que non confirmés, peuvent supplanter des données fiables mais moins visibles.
- Manque d’autorité: Pour les thématiques critiques comme la santé, le droit ou la finance, ces sites ne disposent pas toujours de contrôle éditorial rigoureux.
Vers une utilisation plus responsable de l’IA
Pour maximiser la fiabilité des réponses, il est recommandé de croiser les informations issues de l’IA avec des sources spécialisées et vérifiées. Les professionnels du numérique, du marketing ou de la data science doivent également rester vigilants face aux biais que ces modèles peuvent reproduire. Cette étude met en évidence un enjeu majeur: trouver l’équilibre entre la richesse des contenus collaboratifs et l’exigence de rigueur documentaire.
Conclusion
Les modèles de langage constituent des outils puissants pour la recherche d’informations et la synthèse de données, mais leur efficacité dépend directement de la qualité des sources exploitées. Les plateformes collaboratives et communautaires continueront à jouer un rôle central dans leur développement. Il est donc essentiel de rester critique et de vérifier les informations, surtout dans un contexte où l’IA influence de plus en plus les décisions quotidiennes.