Na primeira chance que tive, baixei o aplicativo Sora. Carreguei imagens do meu rosto – aquele que meus filhos beijam na hora de dormir – e da minha voz – a voz que uso para dizer à minha esposa que a amo – e as adicionei ao meu perfil Sora. Fiz tudo isso para poder usar o recurso “Cameo” do Sora para fazer um vídeo idiota da minha IA sendo atingido por bolas de tinta por 100 idosos residentes em uma casa de repouso.
O que eu acabei de fazer? O aplicativo Sora é desenvolvido com Sora 2, um modelo de IA – e bastante impressionante, para ser honesto. Ele pode criar vídeos que variam de qualidade do banal ao profundamente satânico. É um buraco negro de energia e dados, e também um distribuidor de conteúdos altamente questionáveis. Como tantas coisas hoje em dia, usar Sora parece uma coisa meio perversa de se fazer, mesmo que você não saiba exatamente por quê.
Então, se você acabou de gerar um vídeo do Sora, aqui estão todas as más notícias. Ao ler isso, você está pedindo para se sentir um pouco sujo e culpado, e seu desejo é uma ordem.
Veja quanta eletricidade você acabou de usar
Um vídeo do Sora usa algo em torno de 90 watts-hora de eletricidade de acordo comCNET. Este número é uma estimativa fundamentada extraída de um estudo do uso de energia de GPUs por Hugging Face.
Na verdade, a OpenAI não publicou os números necessários para este estudo, e a pegada energética de Sora deve ser inferida a partir de modelos semelhantes. A propósito, Sasha Luccioni, uma das pesquisadoras do Hugging Face que fez esse trabalho, não está satisfeita com estimativas como a acima. Ela disse ao MIT Technology Review“Deveríamos parar de tentar fazer engenharia reversa de números com base em boatos” e diz que deveríamos pressionar empresas como a OpenAI a divulgar dados precisos.
De qualquer forma, diferentes jornalistas forneceram estimativas diferentes com base nos dados do Hugginface. Por exemplo, o Wall Street Journal adivinhou algo entre 20 e 100 watts-hora.
A CNET compara sua estimativa com a operação de uma TV de 65 polegadas por 37 minutos. O Journal compara uma geração Sora a cozinhar um bife cru ou mal passado em uma churrasqueira elétrica ao ar livre (porque aparentemente tal coisa existe).
Vale a pena esclarecer algumas coisas sobre essa questão do uso de energia para fazer você se sentir ainda pior. Em primeiro lugar, o que acabei de descrever é o gasto energético da inferência, também conhecido como executando o modelo em resposta a um prompt. O treinamento real do modelo Sora exigiu uma quantidade desconhecida, mas certamente astronômica, de eletricidade. O GPT-4 LLM exigiu uma estimativa 50 gigawatts-hora— supostamente suficiente para abastecer São Francisco por 72 horas. Sora, sendo modelo de vídeo, levou mais do que isso, mas não se sabe quanto mais.
Visto de uma certa forma, você assume uma parte desse custo desconhecido quando escolhe usar o modelo, antes mesmo de gerar um vídeo.
Em segundo lugar, separar a inferência do treinamento é importante de outra forma ao tentar descobrir quanta culpa ecológica devemos sentir (você já se arrependeu de ter perguntado?). Você pode tentar abstrair o alto custo de energia como algo que já aconteceu – como a forma como a vaca em seu hambúrguer morreu semanas atrás, e você não pode desmatá-la pedindo um hambúrguer do Beyond quando já estiver sentado no restaurante. Nesse sentido, executar qualquer modelo de IA baseado em nuvem é mais como ordenar surf and turf. A “vaca” de todos esses dados de treinamento pode já estar morta. Mas a “lagosta” do seu prompt específico ainda estará ativa até você enviá-lo para a “cozinha” que é o data center onde a inferência acontece.
Veja quanta água você acabou de usar:
Estamos prestes a fazer mais estimativas, desculpe. Os data centers usam grandes quantidades de água para resfriamento, seja em sistemas de circuito fechado ou por evaporação. Você não sabe qual data center, ou vários data centers, estiveram envolvidos na criação daquele vídeo do seu amigo como concorrente do American Idol peidando a música “Camptown Races”.
Mas provavelmente ainda é mais água do que você se sente confortável. CEO da OpenAI, Sam Altman reivindicações que uma única consulta de texto ChatGPT consome “cerca de um décimo quinto de uma colher de chá” e CNET estima que um vídeo tenha 2.000 vezes mais custo de energia de uma geração de texto. Portanto, uma resposta rabiscada no verso do envelope pode ser 0,17 galão, ou cerca de 22 onças fluidas – um pouco mais do que uma garrafa plástica de Coca-Cola.
E isso se você considerar Altman pelo valor nominal. Poderia facilmente ser mais. Além disso, as mesmas considerações sobre o custo do treinamento versus o custo da inferência aplicadas ao uso de energia também se aplicam aqui. Usar Sora, em outras palavras, não é uma escolha inteligente em termos de água.
Há uma pequena chance de alguém fazer uma imitação realmente horrível de você.
As configurações de privacidade do Sora Cameo são robustas – contanto que você esteja ciente delas e aproveite-as. As configurações em “Quem pode usar isto” mais ou menos proteja sua imagem de ser um brinquedo para o público, contanto que você não escolha a configuração “Todos”, o que significa que qualquer pessoa pode fazer vídeos seus para Sora.
Mesmo que você seja imprudente o suficiente para ter um Cameo disponível publicamente, você tem algum controle adicional na guia “Preferências do Cameo”, como a capacidade de descrever, em palavras, como você deve aparecer nos vídeos. Você pode escrever o que quiser aqui, como “magro, tonificado e atlético”, talvez, ou “sempre cutucando o nariz”. E você também pode definir regras sobre o que nunca deveria ser mostrado fazendo. Se você se mantiver kosher, por exemplo, poderá dizer que nunca deveria ser mostrado comendo bacon.
Mas mesmo que você não permita que seu Cameo seja usado por mais ninguém, você ainda pode se confortar com a capacidade ilimitada de criar grades de proteção enquanto faz vídeos de si mesmo.
Mas as proteções de conteúdo geral em Sora não são perfeitas. De acordo com Cartão modelo próprio da OpenAI para Sorase alguém solicitar com força suficiente, um vídeo ofensivo pode escapar.
O cartão apresenta taxas de sucesso para vários tipos de filtros de conteúdo na faixa de 95% a 98%. No entanto, subtraindo apenas as falhas, você obtém 1,6% de chance de um deepfake sexual, 4,9% de chance de um vídeo com violência e/ou sangue coagulado, 4,48% de chance de algo chamado “persuasão política violenta” e 3,18% de chance de extremismo ou ódio. Essas chances foram calculadas a partir de “milhares de avisos adversários coletados por meio de equipes vermelhas direcionadas” – em outras palavras, tentando intencionalmente quebrar as barreiras de proteção com avisos de quebra de regras.
Portanto, não há boas chances de alguém fazer uma falsificação sexual ou violenta de você, mas a OpenAI (provavelmente com sabedoria) nunca disse nunca.
Alguém pode fazer um vídeo onde você toca em cocô.
Em meus testes, os filtros de conteúdo do Sora geralmente funcionaram como anunciado, e nunca confirmei o que o modelo da placa dizia sobre suas falhas. Não criei meticulosamente 100 prompts diferentes tentando enganar Sora para que gerasse conteúdo sexual. Se você solicitar uma participação especial nua, receberá a mensagem “Violação de conteúdo” no lugar do seu vídeo.
No entanto, alguns o conteúdo potencialmente questionável é tão fracamente policiado que não é totalmente filtrado. Especificamente, Sora aparentemente não se preocupa com conteúdo escatológico e irá gerar material desse tipo sem qualquer proteção, desde que não viole outras políticas de conteúdo, como aquelas relacionadas à sexualidade e nudez.
Então, sim, em meus testes, Sora gerou vídeos Cameo de uma pessoa interagindo com cocô, incluindo tirar cocô de um vaso sanitário com as próprias mãos. Não vou incorporar os vídeos aqui como demonstração por motivos óbvios, mas você pode testar por si mesmo. Não foi necessário nenhum truque ou engenharia imediata.
Na minha experiência, modelos anteriores de geração de imagens de IA tiveram medidas para evitar esse tipo de coisa, incluindo a versão do Bing do gerador de imagens da OpenAI, Dall-E, mas esse filtro parece ter desaparecido no aplicativo Sora. Não acho que isso seja necessariamente um escândalo, mas é desagradável!
O Gizmodo pediu à OpenAI para comentar sobre isso e atualizará se recebermos resposta.
Seu vídeo engraçado pode ser uma farsa viral de outra pessoa.
Sora 2 desbloqueou um vasto e infinito universo de boatos. Você, um consumidor de conteúdo perspicaz e experiente na Internet, nunca acreditaria que algo como o vídeo viral abaixo pudesse ser real. Ele mostra imagens espontâneas, aparentemente filmadas de fora da Casa Branca. Num áudio que soa como uma conversa telefónica ouvida, Donald Trump, gerado por IA, diz a uma parte desconhecida para não divulgar os ficheiros de Epstein e grita: “Apenas não os deixem sair. Se eu cair, trarei todos vocês comigo.”
A julgar apenas pelos comentários do Instagram, alguns as pessoas pareciam acreditar que isso era real.
O criador do vídeo viral nunca afirmou que era real, dizendo a Snopes, que confirmou que foi feito por Soraque o vídeo é “totalmente gerado por IA” e foi criado “exclusivamente para experimentação artística e comentários sociais”. Uma história provável. Foi claramente feito para ter influência e visibilidade nas redes sociais.
Mas se você postar vídeos publicamente no Sora, outros usuários poderão baixá-los e fazer o que quiserem com eles – e isso inclui publicá-los em outras redes sociais e fingir que são reais. A OpenAI conscientemente transformou Sora em um lugar onde os usuários podem rolar a destruição até o infinito. Depois de colocar um conteúdo em um lugar como esse, o contexto não importa mais e você não tem como controlar o que acontecerá a seguir.










