Comme tous les géants de l’IA, Apple puise dans l’open web pour entraîner ses modèles d’intelligence artificielle. Cela ne surprendra personne, puisque toutes les autres entreprises de l’IA font de même, mais les éditeurs de sites web les plus fragiles ne recevront aucune compensation.
Sommaire
Les grands modèles de langage et leur appétit insatiable
Les LLM : des gouffres à données
Les grands modèles de langage (LLM) qui sont au cœur de la révolution de l’IA générative nécessitent une quantité énorme de données pour leur entraînement. Pour ses propres LLM, Apple a acheté des licences auprès d’éditeurs, mais a également moissonné un maximum de données sur le web avec son robot Applebot.
Applebot : moissonnage à tout va
Applebot est le robot d’indexation lancé par Apple il y a des années pour améliorer les résultats de recherche dans Siri et Spotlight. Aujourd’hui, il est également utilisé pour collecter des données servant à l’entraînement des modèles d’IA de l’entreprise. Cela signifie que du contenu provenant de l’open web pourra se retrouver dans les contenus générés par les différentes fonctions d’Apple Intelligence.
Les éditeurs face au géant Apple
Refuser le pillage : une option tardive
Les éditeurs qui ne souhaitent pas travailler gratuitement pour Apple peuvent refuser le pillage de leurs contenus par Applebot, mais cette décision arrive trop tard pour tout ce qui a déjà été collecté. Cette information a été confirmée par un article du blog d’Apple dédié à l’apprentissage automatique, ainsi que par les dirigeants de l’entreprise.
John Giannandrea et l’approche d’Apple
John Giannandrea, le grand patron de l’IA chez Apple, a expliqué durant une conférence post-keynote : « Nous commençons avec l’investissement que nous avons dans la recherche web, et nous avons commencé avec les données du web public ». Une consolation pour les éditeurs : pour les modèles de diffusion (pour générer des images), « une grande quantité de données a été créée par Apple ».
Les implications pour les éditeurs de contenu
L’exploitation des données sans autorisation
En d’autres termes, à moins d’être un éditeur puissant ayant les moyens de réclamer une licence, l’IA d’Apple va exploiter des données issues de sites web qui n’ont jamais autorisé l’exploitation de leurs contenus. Tim Cook, interrogé par le Washington Post sur les opportunités offertes par l’IA pour les éditeurs de presse, a expliqué que les licences étaient une « idée intelligente » et qu’il n’existait pas réellement de raison de refuser de telles licences. Encore faut-il avoir eu la possibilité de le demander.
Les petits éditeurs et leur rôle crucial
Apple n’est pas la première entreprise à avoir moissonné le web public pour entraîner ses modèles d’IA. Tous l’ont fait et continuent de le faire, à moins que les sites web le refusent expressément. Mais cela confirme, s’il en était besoin, que les petits éditeurs et les sites web indépendants forment, parfois à leur corps défendant, l’ossature de l’IA.
Les défis éthiques et légaux
Le débat sur la compensation
Le débat sur la compensation des éditeurs de contenu pour l’utilisation de leurs données est loin d’être résolu. Bien que certains géants de la tech, comme Apple, commencent à acheter des licences, la majorité des données utilisées pour entraîner les LLM proviennent encore du moissonnage gratuit de l’open web. Cela soulève des questions éthiques et légales importantes sur le respect des droits d’auteur et la juste rémunération des créateurs de contenu.
L’impact sur la qualité de l’information
L’exploitation des contenus web sans compensation peut également avoir des répercussions sur la qualité de l’information en ligne. Si les petits éditeurs ne sont pas rémunérés pour leur travail, ils pourraient être contraints de réduire leur production de contenu ou de fermer leurs sites, ce qui diminuerait la diversité et la qualité de l’information disponible sur le web.
Vers une régulation nécessaire
La nécessité d’une régulation
Pour protéger les éditeurs de contenu, une régulation plus stricte de l’utilisation des données web par les géants de la tech semble nécessaire. Cela pourrait inclure des lois obligeant les entreprises à obtenir des licences pour utiliser le contenu web ou des mécanismes permettant aux éditeurs de demander des compensations pour l’utilisation de leurs données.
Les initiatives internationales
Des initiatives internationales commencent à voir le jour pour réguler l’utilisation des données web. Par exemple, l’Union européenne travaille sur des directives visant à protéger les droits des créateurs de contenu et à garantir une rémunération équitable pour l’utilisation de leurs œuvres par les entreprises d’IA.
Le pillage du web par les géants de l’IA comme Apple soulève des questions cruciales sur l’éthique et la légalité de l’utilisation des données web. Bien que des licences commencent à être achetées, la majorité des données utilisées pour entraîner les modèles d’IA proviennent encore du moissonnage gratuit. Une régulation stricte et des mécanismes de compensation pour les éditeurs de contenu sont nécessaires pour garantir une utilisation équitable et éthique des données web.
Ce débat est loin d’être clos, et les éditeurs de contenu, grands et petits, devront continuer à se battre pour leurs droits dans l’écosystème numérique dominé par les géants de la tech.
