OpenAI accuse DeepSeek d’avoir pillé ses modèles IA

DeepSeek aurait utilisé les modèles d’entraînement propriétaires d’OpenAI pour développer son propre modèle open source, affirme le créateur de ChatGPT qui se plaint d’un vol de propriété intellectuelle. Ironique, quand on sait comment OpenAI a bâti son empire : en moissonnant de larges portions de contenus sans autorisation.

DeepSeek a fait mal aux géants de la tech américaine. Le petit Poucet chinois de l’IA a lancé ces dernières semaines des modèles dont les capacités égalent celles des entreprises US : R1 est ainsi similaire à o1, le modèle de raisonnement le plus avancé d’OpenAI. Le modèle DeepSeek V3, moins avancé, joue néanmoins dans la même ligue que Sonnet-3.5 d’Anthropic ou GPT-4o d’OpenAI.

OpenAI, l’arroseur arrosé

C’est surtout la manière donc DeepSeek a entraîné ces modèles qui a provoqué un branle-bas de combat aux États-Unis : l’entreprise utilise des GPU Nvidia (2 048 cartes H800 pour V3) bien moins puissants que ses homologues américains, en raison des restrictions américaines. DeepSeek a aussi et surtout mis au point des méthodes d’optimisation ingénieuses qui réduisent considérablement le coût d’entraînement de ses modèles.

On parle ainsi de moins de 6 millions de dollars pour le modèle V3, mais c’est sans compter les frais engagés pour la recherche, le développement des algorithmes, l’acquisition des données et l’expérimentation sur les architectures. Par conséquent, V3 a dû coûter bien plus cher, mais sans doute pas les centaines de milliards que les mastodontes US annoncent avec grandiloquence.

Lire DeepSeek : l’IA chinoise qui effraie les géants américains

Quoi qu’il en soit, la montée en puissance spectaculaire de DeepSeek ces derniers jours et le fait que ses modèles IA soient open source ont eu des conséquences financières bien réelles, notamment pour Nvidia dont la capitalisation en Bourse a fondu de 589 milliards de dollars (!) lundi, avant de se reprendre un peu le lendemain. Les autres entreprises de l’IA ne sont guère mieux loties.

Surtout, l’apparition de DeepSeek dans le match fait peser de sérieux doutes sur le sérieux des feuilles de route très dispendieuses des joueurs américains, à l’instar du projet Stargate mégalomane d’OpenAI.

Beaux joueurs, Nvidia, Microsoft, Meta et OpenAI ont salué la prouesse de DeepSeek, mais tout aussi rapidement des soupçons se sont portés sur les méthodes employées par l’entreprise chinoise. OpenAI aurait ainsi la preuve qui démontrerait l’utilisation par DeepSeek de modèles propriétaires afin d’entraîner ses propres modèles concurrents. Plus spécifiquement, le créateur de ChatGPT a constaté l’utilisation de la méthode dite de « distillation ».

Cette technique est utilisée par les développeurs pour obtenir de meilleures performances sur des petits modèles en exploitant les résultats de modèles plus grands et plus puissants. Cela leur permet d’obtenir des résultats similaires sur des tâches spécifiques, à un coût bien moins élevé. La distillation est une pratique répandue et permise dans l’industrie, mais le souci ici est que DeepSeek en aurait tiré profit pour développer ses propres modèles concurrents, une brèche dans les conditions d’utilisation d’OpenAI.

« Le problème survient lorsque vous [exploitez cette technique en dehors de la plateforme] pour créer votre propre modèle à des fins personnelles », indique une source d’OpenAI au Financial Times. Les conditions d’utilisation de l’entreprise indiquent que les utilisateurs ne peuvent pas copier un service d’OpenAI ou « exploiter des résultats pour développer des modèles concurrents [de ceux] d’OpenAI ».

OpenAI et Microsoft ont lancé des enquêtes l’an dernier sur des comptes qu’ils soupçonnaient appartenir à DeepSeek et qui utilisaient l’API d’OpenAI. L’accès a été bloqué en raison de soupçons de distillation. L’affaire a pris un tour politique : David Sacks, le « tsar de l’IA » nommé par Donald Trump, a affirmé qu’il existait des « preuves substantielles » de la distillation des modèles d’OpenAI par DeepSeek.

Que DeepSeek ait « pillé » la propriété intellectuelle d’OpenAI a quelque chose d’assez ironique. L’entraînement des modèles d’OpenAI repose sur des grands volumes de données, dont un certain nombre provient de contenus certes présents sur le « web ouvert », mais pas pour autant disponibles pour une exploitation commerciale sans autorisation. OpenAI aurait aussi pioché dans des contenus protégés par copyright, ce qui lui vaut plusieurs plaintes d’auteurs et d’éditeurs de presse.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source :

Financial Times

Source link