Início TECNOLOGIA Estudo revela que sugestões poéticas às vezes podem desbloquear modelos de IA

Estudo revela que sugestões poéticas às vezes podem desbloquear modelos de IA

12
0

Bem, a IA está se juntando ao grupo de muitas, muitas pessoas: realmente não entende poesia.

Pesquisa do Icaro Lab da Itália descobriram que a poesia pode ser usada para desbloquear a IA e contornar as proteções de segurança.

No estudo, os pesquisadores escreveram 20 instruções que começavam com pequenas vinhetas poéticas em italiano e inglês e terminavam com uma única instrução explícita para produzir conteúdo prejudicial. Eles testaram esses prompts em 25 grandes modelos de linguagem no Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI. Os pesquisadores disseram que as sugestões poéticas geralmente funcionavam.

“O enquadramento poético alcançou uma taxa média de sucesso de jailbreak de 62% para poemas feitos à mão e aproximadamente 43% para conversões de meta-prompt (em comparação com linhas de base não poéticas), superando substancialmente as linhas de base não poéticas e revelando uma vulnerabilidade sistemática em famílias modelo e abordagens de treinamento de segurança”, diz o estudo. “Essas descobertas demonstram que a variação estilística por si só pode contornar os mecanismos de segurança contemporâneos, sugerindo limitações fundamentais nos atuais métodos de alinhamento e protocolos de avaliação”.

Velocidade da luz mashável

Claro, houve diferenças no desempenho do jailbreak nos diferentes LLMs. O GPT-5 nano da OpenAI não respondeu com conteúdo prejudicial ou inseguro, enquanto o Gemini 2.5 professional do Google respondeu com conteúdo prejudicial ou inseguro todas as vezes, relataram os pesquisadores.

Os investigadores concluíram que “estas descobertas expõem uma lacuna significativa” nos testes de segurança de referência e nos esforços regulamentares, como a Lei da IA ​​da UE.

Nossos resultados mostram que uma transformação estilística mínima pode reduzir as taxas de recusa em uma ordem de grandeza, indicando que as evidências apenas de referência podem exagerar sistematicamente a robustez do mundo actual”, afirmou o artigo.

A grande poesia não é literal – e os LLMs são literais ao ponto da frustração. O estudo me lembra como é ouvir a música “Alexandra Leaving” de Leonard Cohen, que é baseada no poema de CP Cavafy “The God Abandons Antony”. Sabemos que se trata de perda e desgosto, mas seria um desserviço à música e ao poema em que se baseia tentar “conseguir” em qualquer sentido literal – e é isso que os LLMs tentarão fazer.


Divulgação: Ziff Davis, empresa controladora da Mashable, entrou com uma ação judicial contra a OpenAI em abril, alegando que ela infringiu os direitos autorais de Ziff Davis no treinamento e operação de seus sistemas de IA.

Tópicos
Inteligência synthetic

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui