Un projet Open Source venu de Chine s’apprête à bouleverser le domaine de l’intelligence artificielle génératrice de vidéos.
Des chercheurs de l’université Tsinghua et de Zhipu AI ont développé CogVideoX, un outil capable de créer des vidéos de six secondes à partir d’invites textuelles.
Ce générateur, bien que moins avancé que les solutions commerciales comme VideoCrafter-2.0 ou Pika Labs, pourrait bien redéfinir les règles du jeu grâce à sa nature open source.
CogVideoX, doté de cinq milliards de paramètres, produit des vidéos en définition 720×480 px à huit images par seconde.
Même si ces spécifications sont modestes par rapport aux leaders du marché, l’ouverture du projet en open source pourrait accélérer son développement, en mobilisant la communauté mondiale des développeurs.
Cependant, cette innovation technologique s’accompagne de risques.
L’IA repose sur un Auto-encodeur variationnel 3D pour compresser les vidéos, et un “transformateur expert” pour interpréter les commandes textuelles de manière précise.
Malgré ses avantages, la disponibilité de CogVideoX en open source pourrait faciliter la création de deepfakes et de contenus trompeurs, soulevant des questions sur l’utilisation éthique de ces technologies.
Le futur de cette IA dépendra de la manière dont elle sera exploitée, pour le meilleur ou pour le pire.