Liens rapides
Dans un monde de plus en plus basé sur la vidéo, les outils de création et de montage vidéo deviennent de plus en plus importants. Cependant, le processus de montage vidéo reste complexe et long, surtout pour les débutants.
Alors que la vitesse de développement de l'IA dépasse la compréhension humaine, Sora d'OpenAI, qui convertit les invites textuelles en vidéo, n'est que la dernière technologie d'IA qui choque le monde en lui faisant réaliser que les choses se produisent plus tôt que prévu.
OpenAI Sora est une technologie innovante qui vise à convertir et éditer des vidéos de manière efficace et innovante. Ce modèle soulève des questions sur l’étendue de son impact sur l’industrie vidéo, et contribuera-t-il à changer à jamais la manière dont la vidéo est produite et montée ? Dans cet article, nous explorerons le concept d'OpenAI Sora et ses capacités potentielles, en examinant son impact sur l'industrie vidéo et ce que cette innovation pourrait signifier pour les utilisateurs et les créateurs. Vérifier Meilleurs générateurs vidéo AI (texte en vidéo).
Qu’est-ce qu’OpenAI Sora ?
Comme d’autres modèles d’IA générative comme DALL-E et MidJourney, Sora prend vos invites textuelles et les transforme en support visuel. Cependant, contrairement aux générateurs d'images alimentés par l'IA mentionnés ci-dessus, Sora crée une vidéo pleine de mouvement, différents angles de caméra, direction et tout ce que vous attendez d'une vidéo produite de manière traditionnelle.
En regardant les exemples sur Site Internet de Sora, les résultats sont souvent impossibles à distinguer des vidéos réelles produites par des professionnels. Tout, des prises de vue de drones haut de gamme aux productions cinématographiques à part entière de plusieurs millions de dollars avec des acteurs, créées par l'intelligence artificielle, les effets spéciaux et les œuvres.
Bien entendu, Sora n’est pas la première technologie à faire cela. De loin, le leader le plus visible dans ce domaine a été PisteML, qui fournit ses services au public contre rémunération. Cependant, même dans le meilleur des cas, les vidéos de Runway sont plus proches des premières générations que Images fixes de MidJourney. Il n'y a pas de stabilisation d'image, la physique n'a pas de sens, et au moment où j'écris cet article, le clip le plus long dure environ 16 secondes.
En revanche, le meilleur rapport qualité-prix que Sora a à offrir est une stabilité totale, avec une physique qui semble correcte (au moins pour notre cerveau) et des clips peuvent durer jusqu'à une minute. Les clips sont totalement sans audio, mais il existe déjà d'autres systèmes d'IA qui peuvent Générer de la musique Effets sonores et parole. Je n'ai donc aucun doute sur le fait que ces outils peuvent être intégrés au flux de travail de Sora ou, au pire, au travail traditionnel de voix off et de bruitage. Vérifier Les outils d'IA les plus intéressants et les plus intéressants à découvrir.
On ne peut pas surestimer l'énorme progrès que Sora représente par rapport aux séquences vidéo cauchemardesques d'IA d'un an seulement avant la démo de Sora. Comme la vidéo IA extrêmement troublante de Will Smith mange des spaghettis. Je pense que c’est un choc plus important pour le système que lorsque les générateurs d’images IA sont passés du statut de plaisanterie à celui de susciter une terreur existentielle dans le cœur des artistes visuels.
Sora aura probablement un impact sur l'ensemble de l'industrie vidéo, depuis les créateurs de plans uniques jusqu'aux projets à gros budget de Disney et Marvel. Rien n’y survivra. Je pense que cela est particulièrement vrai puisque Sora n'a pas besoin de créer des choses à partir de tissu entier, mais peut travailler avec des matériaux existants, comme animer une image fixe que vous avez fournie. Cela pourrait être le véritable début du cinéma IA.
Comment fonctionne Sora ?
Nous allons approfondir le personnage de Sora autant que possible, mais il n'est pas possible d'entrer dans autant de détails. Premièrement, ironiquement, OpenAI n’est pas ouvert sur le fonctionnement interne de sa technologie. Il est exclusif, donc la sauce secrète qui distingue Sora de la concurrence nous est inconnue dans ses moindres détails. Deuxièmement, je ne suis pas un informaticien, et vous n’êtes probablement pas un informaticien, nous ne pouvons donc comprendre le fonctionnement de cette technologie qu’en termes généraux.
La bonne nouvelle est qu'il existe une excellente présentation de Sora (abonnement protégé) par Mike Young Sur Medium, basé sur Rapport technique d'OpenAI Ce qui a été détaillé pour que nous, les gens ordinaires, puissions le comprendre. Même si les deux documents valent la peine d’être lus, nous pouvons en extraire ici les faits les plus importants.
Sora s'appuie sur les leçons apprises par OpenAI lors de la création de modèles comme ChatGPT ou DALL-E. OpenAI a inventé comment entraîner Sora sur des exemples de vidéos en segmentant ces vidéos en « patchs » similaires aux « jetons » utilisés par le modèle de formation ChatGPT. Étant donné que ces jetons ont tous la même taille, des éléments tels que la longueur du clip, le rapport hauteur/largeur et la taille de la résolution n'ont pas d'importance pour Sora.
Sora utilise la même approche large de transformateur qui alimente GPT, combinée à la méthode de propagation utilisée par les générateurs d'images IA. Pendant la formation, il examine les jetons de correctifs partiellement propagés à partir d'une vidéo et tente de prédire à quoi ressemblerait un jeton sans bruit. En comparant cela à la vérité terrain, le modèle apprend le « langage » de la vidéo. C'est pourquoi les exemples de Site Internet de Sora Cela a l'air très original.
Outre cette capacité impressionnante, Sora dispose également d'annotations intégrées très détaillées pour les images vidéo sur lesquelles il a été formé, ce qui explique en grande partie pourquoi il est capable d'éditer les vidéos qu'il crée en fonction d'invites textuelles.
La capacité de Sora à simuler avec précision la physique dans des vidéos semble être une fonctionnalité émergente, qui résulte simplement de sa formation sur des millions de vidéos contenant des mouvements basés sur la physique du monde réel. Sora possède une excellente stabilité d'objet, de sorte que lorsque l'objet quitte le cadre ou est obstrué par quelque chose d'autre dans le cadre, il y reste et revient sans aucune perturbation.
Cependant, des problèmes subsistent parfois lorsque les objets de la vidéo interagissent avec la causalité et avec la création automatique d'objets. Aussi, quelque peu drôle, Sora semble confondre gauche et droite de temps en temps. Cependant, ce qui a été démontré jusqu’à présent est non seulement réellement utilisable, mais se situe certainement à la pointe de la technologie.
Quand Sora est-il accessible ?
Nous sommes donc tous très enthousiastes à l'idée de tester Sora, et vous pouvez garantir que je l'utiliserai et que j'écrirai sur la qualité exacte de cette technologie lorsqu'elle ne nous montre pas de résultats précis, mais lorsqu'elle le fera, le fera. ça arrive ?
Au moment d'écrire ces lignes, on ne sait pas exactement combien de temps il faudra avant que Sora ne soit disponible au grand public, ni combien il en coûtera pour y accéder. OpenAI a déclaré que le modèle est entre les mains de la « Red Team », un groupe de personnes dont le travail est d'essayer de faire faire à Sora toutes les mauvaises choses qu'il n'est pas censé faire, puis d'aider à mettre en place des garde-fous contre ce genre de choses. La chose se produit lorsque les clients réels peuvent l'utiliser. Cela inclut la possibilité de créer des informations trompeuses, de créer du matériel offensant ou offensant et de nombreuses autres violations imaginables.
Au moment d'écrire ces lignes, il est également entre les mains de créateurs de contenu sélectionnés, ce qui, je crois, est destiné à des fins de test, et pour obtenir des critiques et des approbations de tiers pendant que nous sommes sur la route de sa version finale.
L'essentiel est que nous ne savons pas réellement quand il sera disponible, de la même manière que vous pouvez payer pour utiliser DALL-E 3, et en fait même OpenAI n'a pas encore de date exacte. En effet, s'il est entre les mains de testeurs de sécurité, ils pourraient découvrir des problèmes qui prendraient plus de temps à résoudre que prévu, ce qui retarderait la publication publique.
Le fait qu'OpenAI se sente prêt à montrer Sora et même à faire des déclarations publiques coordonnées via la sécurité détectée, personne ne peut le dire avec certitude. Je pense que nous parlons de mois, pas d'années, mais ne vous attendez pas à cela la semaine prochaine. Vous pouvez maintenant visualiser Outils d'IA éthique pour les artistes et les créateurs.