A OpenAI, líder em pesquisa de inteligência artificial, acaba de revelar sua mais recente inovação, o Sora. Esta nova ferramenta representa um salto significativo na capacidade de geração de vídeo por meio de modelos generativos de IA. O Sora é um modelo generalista que pode criar vídeos e imagens abrangendo diversas durações, proporções e resoluções, oferecendo uma experiência única de simulação visual.

O que é o Sora?

O Sora é um modelo de difusão, uma classe avançada de modelos generativos que tem sido eficaz em diversos domínios, incluindo linguagem natural e visão computacional. Este modelo permite a geração de vídeos de alta fidelidade, indo além das limitações de muitos modelos anteriores que se concentravam em categorias restritas de dados visuais ou em vídeos mais curtos.

Como o Sora Funciona?

O Sora utiliza uma abordagem inovadora ao transformar dados visuais em “patches” (pedaços) que representam fragmentos de informações em vídeo ou imagem. Inspirado em grandes modelos de linguagem, que usam tokens para unificar diversas modalidades de texto, o Sora usa patches visuais. Essa abordagem oferece uma representação escalável e eficaz para treinar modelos generativos em diferentes tipos de vídeos e imagens.

O modelo treina uma rede de compressão de vídeo para reduzir a dimensionalidade dos dados visuais, gerando uma representação latente que é compactada tanto temporal quanto espacialmente. Durante a inferência, o Sora gera vídeos organizando patches em uma grade de tamanho apropriado.

Capacidades do Sora

O Sora demonstra uma série de capacidades notáveis:

  1. Flexibilidade de Amostragem: Pode experimentar vídeos em várias resoluções, proporções e durações, permitindo a criação de conteúdo para diferentes dispositivos diretamente em suas proporções nativas.
  2. Enquadramento e Composição Aprimorados: O treinamento em vídeos em suas proporções nativas melhora a composição e o enquadramento, proporcionando resultados visuais mais atraentes.
  3. Compreensão da Linguagem: Ao treinar com descrições de texto, o Sora pode seguir prompts de texto para gerar vídeos de alta qualidade que correspondem às instruções dadas.
  4. Edição de Imagens e Vídeos: Além de gerar vídeos a partir de texto, o Sora pode ser acionado com inputs adicionais, como imagens preexistentes ou vídeos, permitindo uma variedade de tarefas de edição de imagem e vídeo.
  5. Simulação Emergente: O Sora exibe capacidades emergentes interessantes, como consistência 3D, coerência a longo prazo e permanência de objetos, permitindo a simulação de aspectos do mundo físico e digital.

Desafios e Futuro

Apesar das conquistas impressionantes, o Sora ainda apresenta limitações, como a não modelagem precisa da física em interações básicas. A OpenAI reconhece esses desafios e vê o contínuo escalonamento de modelos de vídeo como uma promissora trajetória de desenvolvimento.

A OpenAI convida a comunidade a explorar o Sora e compartilhar feedback para aprimorar ainda mais essa tecnologia inovadora. A empresa está comprometida em continuar avançando em direção a simulações mais capazes do mundo físico e digital, proporcionando experiências visuais cada vez mais realistas.

O Sora representa um marco significativo no campo da geração de vídeo por IA, e a OpenAI está entusiasmada com as possibilidades que esta tecnologia traz para a criação e simulação visual avançada.

Para mais informações, acesse OpenAI Sora.

By Tayliny Battistella

Historiadora e publicitária que esta se descobrindo nerd e gamer. Socio fundadora do Negócios Tech.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *