a incrível evolução dos vídeos gerados por IA

va ferramenta da OpenAI pode criar vídeos coerentes de até 1 minuto de duração e é… impressionante.

SORA é a nova tecnologia de geração de vídeo AI da OpenAI, e algo que posso garantir não será lançado antes de cerca de 4 ou 5 anos a partir de agora. Normalmente eu diria que não há problema em estar errado, mas desta vez até eu estou com medo..

Existem diversas técnicas para criar imagens com IA, Sora utiliza difusores como Stable Diffusion. Resumindo, como expliquei em vários artigos como funciona a tecnologia, a IA é treinada para reconhecer imagens de ruídos aleatórios da mesma forma que reconhecemos objetos de nuvens, rostos de folhas e deuses de torradas.

O truque é ensinar a IA, depois de reconhecer um objeto, a adicionar ruído à imagem e recompensá-la até que ainda reconheça o objeto. Chega a um ponto em que para nós a imagem é puro ruído aleatório, mas a IA pode impor um padrão e reconstruir o objeto.

Se você treiná-lo bastante, ele aprenderá o CONCEITO de um objeto, então se você lhe disser para procurar um gato e ele tiver estudado dezenas de milhares de imagens, ele terá um modelo estatístico de como um gato deveria ser. e escolha uma imagem do ruído que não existia antes.

Sora faz o mesmo, mas em vídeo. Em 3D.

Sora foi uma surpresa para quem acompanha o mundo da inteligência artificial, leu muitos artigos e quase entendeu alguns deles. O número de problemas associados à criação de vídeos coerentes é uma ordem de grandeza maior do que com imagens "simples"..

Até agora, tínhamos dois métodos principais de criação de vídeos com IA: AnimateDiff + ControlNet e Stable Video Diffusion.

AnimateDiff usa modelos treinados para vídeos focados em movimento. Ele pode criar imagens e animá-las em 16 quadros por vez, mas quase sem supervisão. Com paciência você pode produzir muitas maravilhas, mas nada que ameace a pintura.

Utilizando ferramentas como ControlNet, OpenPose e outras, podemos extrair vetores de movimento de outros vídeos e aplicá-los em animações. Dá muito trabalho, mas em teoria basta fazer uma animação completa simulando o MotionCap sem precisar conectar bolas de pingue-pongue a outras.

Stable Video Diffusion é um modelo somente de vídeo capaz de produzir sinais TXT2VID e IMG2VID, ou seja, aceitando um prompt ou imagem como entrada. Os resultados são (ok, foram há seis meses) impressionantes.

Ao contrário das tecnologias anteriores, que mal conseguiam acompanhar algumas dezenas de frames (25 e o SVD começa a carregar), Sora pode criar vídeos de um minuto.

O cascalho tem consistência completa, mesmo quando a permanência do objeto é alcançada, as coisas podem permanecer temporariamente desconhecidas para os outros e reaparecer. Isso é muito difícil para o modelo de difusão.

O treinamento foi baseado no conceito patch, onde cada elemento do vídeo é tratado como um elemento individual, o que dá muito mais flexibilidade. Sora não é um gerador de pixels, é um gerador de mundos que tenta manter a consistência e só então os renderiza em imagens.

Um fenômeno não planejado notado depois que Sora começou a fazer vídeos é que ele desenvolveu vários modelos internos de simulação de física por conta própria. Dinâmica de fluidos, gravidade, luz, radiação, Sora aprendeu tudo sozinho estudando os vídeos que utilizou em seus exercícios e as imagens que recebeu.