ActualitésApple et l'entraînement de son intelligence artificielle

Apple et l’entraînement de son intelligence artificielle

-

Comme tous les géants de l’IA, Apple puise dans l’open web pour entraîner ses modèles d’intelligence artificielle. Cela ne surprendra personne, puisque toutes les autres entreprises de l’IA font de même, mais les éditeurs de sites web les plus fragiles ne recevront aucune compensation.

Sommaire

Les grands modèles de langage et leur appétit insatiable

Les LLM : des gouffres à données

Les grands modèles de langage (LLM) qui sont au cœur de la révolution de l’IA générative nécessitent une quantité énorme de données pour leur entraînement. Pour ses propres LLM, Apple a acheté des licences auprès d’éditeurs, mais a également moissonné un maximum de données sur le web avec son robot Applebot.

Applebot : moissonnage à tout va

Applebot est le robot d’indexation lancé par Apple il y a des années pour améliorer les résultats de recherche dans Siri et Spotlight. Aujourd’hui, il est également utilisé pour collecter des données servant à l’entraînement des modèles d’IA de l’entreprise. Cela signifie que du contenu provenant de l’open web pourra se retrouver dans les contenus générés par les différentes fonctions d’Apple Intelligence.

Les éditeurs face au géant Apple

Refuser le pillage : une option tardive

Les éditeurs qui ne souhaitent pas travailler gratuitement pour Apple peuvent refuser le pillage de leurs contenus par Applebot, mais cette décision arrive trop tard pour tout ce qui a déjà été collecté. Cette information a été confirmée par un article du blog d’Apple dédié à l’apprentissage automatique, ainsi que par les dirigeants de l’entreprise.

John Giannandrea et l’approche d’Apple

John Giannandrea, le grand patron de l’IA chez Apple, a expliqué durant une conférence post-keynote : « Nous commençons avec l’investissement que nous avons dans la recherche web, et nous avons commencé avec les données du web public ». Une consolation pour les éditeurs : pour les modèles de diffusion (pour générer des images), « une grande quantité de données a été créée par Apple ».

Les implications pour les éditeurs de contenu

L’exploitation des données sans autorisation

En d’autres termes, à moins d’être un éditeur puissant ayant les moyens de réclamer une licence, l’IA d’Apple va exploiter des données issues de sites web qui n’ont jamais autorisé l’exploitation de leurs contenus. Tim Cook, interrogé par le Washington Post sur les opportunités offertes par l’IA pour les éditeurs de presse, a expliqué que les licences étaient une « idée intelligente » et qu’il n’existait pas réellement de raison de refuser de telles licences. Encore faut-il avoir eu la possibilité de le demander.

Les petits éditeurs et leur rôle crucial

Apple n’est pas la première entreprise à avoir moissonné le web public pour entraîner ses modèles d’IA. Tous l’ont fait et continuent de le faire, à moins que les sites web le refusent expressément. Mais cela confirme, s’il en était besoin, que les petits éditeurs et les sites web indépendants forment, parfois à leur corps défendant, l’ossature de l’IA.

Les défis éthiques et légaux

Le débat sur la compensation

Le débat sur la compensation des éditeurs de contenu pour l’utilisation de leurs données est loin d’être résolu. Bien que certains géants de la tech, comme Apple, commencent à acheter des licences, la majorité des données utilisées pour entraîner les LLM proviennent encore du moissonnage gratuit de l’open web. Cela soulève des questions éthiques et légales importantes sur le respect des droits d’auteur et la juste rémunération des créateurs de contenu.

L’impact sur la qualité de l’information

L’exploitation des contenus web sans compensation peut également avoir des répercussions sur la qualité de l’information en ligne. Si les petits éditeurs ne sont pas rémunérés pour leur travail, ils pourraient être contraints de réduire leur production de contenu ou de fermer leurs sites, ce qui diminuerait la diversité et la qualité de l’information disponible sur le web.

Vers une régulation nécessaire

La nécessité d’une régulation

Pour protéger les éditeurs de contenu, une régulation plus stricte de l’utilisation des données web par les géants de la tech semble nécessaire. Cela pourrait inclure des lois obligeant les entreprises à obtenir des licences pour utiliser le contenu web ou des mécanismes permettant aux éditeurs de demander des compensations pour l’utilisation de leurs données.

Les initiatives internationales

Des initiatives internationales commencent à voir le jour pour réguler l’utilisation des données web. Par exemple, l’Union européenne travaille sur des directives visant à protéger les droits des créateurs de contenu et à garantir une rémunération équitable pour l’utilisation de leurs œuvres par les entreprises d’IA.

Le pillage du web par les géants de l’IA comme Apple soulève des questions cruciales sur l’éthique et la légalité de l’utilisation des données web. Bien que des licences commencent à être achetées, la majorité des données utilisées pour entraîner les modèles d’IA proviennent encore du moissonnage gratuit. Une régulation stricte et des mécanismes de compensation pour les éditeurs de contenu sont nécessaires pour garantir une utilisation équitable et éthique des données web.

Ce débat est loin d’être clos, et les éditeurs de contenu, grands et petits, devront continuer à se battre pour leurs droits dans l’écosystème numérique dominé par les géants de la tech.

Actualité

Samsung Galaxy S26 Ultra : une nouveauté photo inspirée de l’iPhone pourrait tout changer

Le Samsung Galaxy S26 Ultra s’annonce comme une évolution majeure pour la photographie mobile. Inspiré par les récents changements...

Un prix salé pour la Steam Machine ? Un revendeur a peut-être vendu la mèche

La Steam Machine de Valve, présentée à la fin de l’année dernière, continue de susciter curiosité et spéculations. Si...

iOS 26 peine à séduire les utilisateurs d’iPhone, iOS 18 reste dominant

La sortie d’iOS 26 en septembre 2025 avait suscité beaucoup d’attentes. Apple promettait un langage visuel innovant appelé Liquid...

PS5 hyperpop : découvrez les nouveaux coloris et manettes dualsense en édition limitée

Sony a récemment annoncé une nouvelle collection pour sa PS5 Slim et les manettes DualSense : la gamme Hyperpop....

iPhone 17e : ce que vous devez savoir avant sa sortie

Apple se prépare à lancer son nouvel iPhone 17e, une version plus abordable de la série iPhone 17. Si...

Gmail sur le Web : Google met fin au support historique du POP3 et de Gmailify

En ce début janvier 2026, Gmail apporte un changement majeur qui affecte directement des millions d’utilisateurs. Google a décidé...

Populaires

Comment contacter le service client Vinted ?

Vinted : le service client Vinted est un dressing virtuel...

Comment nettoyer votre clavier sans l’endommager ?

Optimiser le nettoyage de votre clavier Si vous utilisez souvent...