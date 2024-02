A OpenAI, empresa responsável pelo desenvolvimento do robô ChatGPT, divulgou nesta quinta-feira (15) um novo modelo de inteligência artificial denominado Sora. A inovação tem a capacidade de gerar vídeos realistas com base em textos breves, porém ainda está em fase de análise por especialistas e não está disponível ao público.

Segundo a OpenAI, o Sora pode produzir vídeos de até 60 segundos com cenas detalhadas, movimentos de câmera complexos e personagens diversificados, dotados de emoções vibrantes. A empresa ressalta que o modelo não apenas compreende o comando fornecido pelo usuário, mas também tem a capacidade de entender como esses elementos existem no mundo real.

Demonstrações do Sora revelaram criações que abrangem desde animações até vídeos com estilo realista. Um exemplo apresentado mostra um casal caminhando pelas ruas de Tóquio - um vídeo gerado inteiramente pela inteligência artificial, conforme afirmado pela OpenAI.

Empresa implementa medidas de segurança antes de liberar para o público

Antes de disponibilizar o Sora ao público, a empresa está implementando várias medidas de segurança, incluindo a colaboração com especialistas em desinformação, conteúdo de ódio e preconceito. Além disso, um grupo de artistas visuais, como designers e cineastas, teve acesso à ferramenta para contribuir com ideias sobre como torná-la mais útil para suas criações.

De acordo com a OpenAI, o Sora serve como base para modelos que visam compreender e simular o mundo real, o que é considerado um marco importante para o avanço em direção à Inteligência Artificial Geral (AGI).

O funcionamento do Sora baseia-se em uma técnica denominada "difusão", que cria imagens a partir de pontos aleatórios. Esse processo começa com uma aparência de ruído estático, similar ao efeito de TVs antigas sem sinal, e gradualmente transforma-se em algo reconhecível por humanos. Essa técnica é semelhante à utilizada por outros robôs, como o DALL-E, também desenvolvido pela OpenAI e que serviu como inspiração para o Sora.

A OpenAI explica que o Sora utiliza a técnica de recaptação do DALL-E 3, que gera legendas altamente descritivas para os dados de treinamento visual. Isso resulta em uma maior fidelidade do modelo às instruções de texto fornecidas pelo usuário na geração do vídeo.

Modelo tem capacidade de produzir continuações de vídeos

A OpenAI destaca que seu novo modelo de inteligência artificial, além de criar vídeos do zero, tem a capacidade de produzir continuações de vídeos já existentes e gerar vídeos a partir de imagens estáticas. No entanto, a empresa reconhece que o Sora possui algumas "fraquezas".

De acordo com a OpenAI, o Sora pode encontrar dificuldades em reproduzir com precisão a física de cenas complexas e pode não compreender completamente as lógicas de causa e efeito. Como exemplo, a empresa menciona que uma pessoa pode ser mostrada mordendo um biscoito, mas depois o biscoito não apresenta marcas de mordida.

Além disso, o modelo pode confundir detalhes espaciais do "prompt", como misturar direções como direita e esquerda, e também pode enfrentar desafios ao descrever eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.