Pesquisadores do Google desenvolveram um novo paradigma de IA que visa resolver uma das maiores limitações dos grandes modelos de linguagem atuais: a incapacidade de aprender ou atualizar seus conhecimentos após o treinamento. O paradigma, denominado Aprendizagem aninhadareformula um modelo e seu treinamento não como um processo único, mas como um sistema de problemas de otimização multiníveis aninhados. Os pesquisadores argumentam que esta abordagem pode desbloquear algoritmos de aprendizagem mais expressivos, levando a uma melhor aprendizagem e memória no contexto.
Para provar seu conceito, os pesquisadores usaram o Nested Learning para desenvolver um novo modelo, chamado Hope. Experimentos iniciais mostram que ele tem desempenho superior em modelagem de linguagem, aprendizado contínuo e tarefas de raciocínio de longo contexto, potencialmente abrindo caminho para sistemas de IA eficientes que podem se adaptar a ambientes do mundo real.
O problema de memória de grandes modelos de linguagem
Algoritmos de aprendizagem profunda ajudou a evitar a necessidade de engenharia cuidadosa e conhecimento de domínio exigidos pelo aprendizado de máquina tradicional. Ao alimentar os modelos com grandes quantidades de dados, eles poderiam aprender as representações necessárias por conta própria. No entanto, esta abordagem apresentou o seu próprio conjunto de desafios que não poderiam ser resolvidos simplesmente empilhando mais camadas ou criando redes maiores, como generalizar para novos dados, aprender continuamente novas tarefas e evitar soluções subótimas durante o treino.
Os esforços para superar esses desafios levaram às inovações que levaram à Transformadoresa base dos grandes modelos de linguagem (LLMs) atuais. Esses modelos inauguraram “uma mudança de paradigma de modelos específicos de tarefas para sistemas de uso mais geral com várias capacidades emergentes como resultado do dimensionamento das arquiteturas “certas”,” os pesquisadores escrevem. Ainda assim, permanece uma limitação fundamental: os LLMs ficam em grande parte estáticos após a formação e não conseguem atualizar os seus conhecimentos básicos ou adquirir novas competências a partir de novas interações.
O único componente adaptável de um LLM é o seu aprendizagem em contexto habilidade, que lhe permite executar tarefas com base nas informações fornecidas em seu prompt imediato. Isso torna os LLMs atuais análogos a uma pessoa que não consegue formar novas memórias de longo prazo. O seu conhecimento é limitado ao que aprenderam durante o pré-treinamento (o passado distante) e ao que está na sua janela de contexto atual (o presente imediato). Quando uma conversa ultrapassa a janela de contexto, essa informação é perdida para sempre.
O problema é que os atuais LLMs baseados em transformadores não possuem nenhum mecanismo para consolidação “online”. As informações na janela de contexto nunca atualizam os parâmetros de longo prazo do modelo — os pesos armazenados em suas camadas feedforward. Como resultado, o modelo não pode adquirir permanentemente novos conhecimentos ou competências a partir de interações; tudo o que ele aprende desaparece assim que a janela de contexto é aberta.
Uma abordagem aninhada para a aprendizagem
Nested Learning (NL) foi projetado para permitir que modelos computacionais aprendam a partir de dados usando diferentes níveis de abstração e escalas de tempo, assim como o cérebro. Ele trata um único modelo de aprendizado de máquina não como um processo contínuo, mas como um sistema de problemas de aprendizado interconectados que são otimizados simultaneamente em diferentes velocidades. Isto é um desvio da visão clássica, que trata a arquitetura de um modelo e seu algoritmo de otimização como dois componentes separados.
Sob este paradigma, o processo de formação é visto como o desenvolvimento de uma “memória associativa,” a capacidade de conectar e recuperar informações relacionadas. O modelo aprende a mapear um ponto de dados para seu erro local, que mede quão “surpreendente” esse ponto de dados era. Mesmo os principais componentes arquitetônicos, como o mecanismo de atenção nos transformadores, podem ser vistos como simples módulos de memória associativa que aprendem mapeamentos entre tokens. Ao definir uma frequência de atualização para cada componente, esses problemas de otimização aninhados podem ser ordenados em diferentes “níveis,” formando o núcleo do paradigma NL.
Esperança de aprendizado contínuo
Os pesquisadores colocaram esses princípios em prática com Hope, uma arquitetura projetada para incorporar o Nested Learning. Hope é uma versão modificada de Titãsoutra arquitetura que o Google introduziu em janeiro para resolver as limitações de memória do modelo do transformador. Embora Titans tivesse um sistema de memória poderoso, seus parâmetros eram atualizados em apenas duas velocidades diferentes: um módulo de memória de longo prazo e um mecanismo de memória de curto prazo.
A esperança é uma arquitetura automodificável aumentada com um “Sistema de memória contínua” (CMS) que permite níveis ilimitados de aprendizagem no contexto e escala para janelas de contexto maiores. O CMS atua como uma série de bancos de memória, cada um atualizando em uma frequência diferente. Os bancos com atualizações mais rápidas lidam com informações imediatas, enquanto os mais lentos consolidam conhecimentos mais abstratos durante períodos mais longos. Isso permite que o modelo otimize sua própria memória em um loop autorreferencial, criando uma arquitetura com níveis de aprendizado teoricamente infinitos.
Em um conjunto diversificado de tarefas de modelagem de linguagem e raciocínio de senso comum, Hope demonstrou menor perplexidade (uma medida de quão bem um modelo prevê a próxima palavra em uma sequência e mantém a coerência no texto que gera) e maior precisão em comparação com transformadores padrão e outros modelos recorrentes modernos. Hope também teve melhor desempenho em contexto longo “Agulha no palheiro” tarefas, onde um modelo deve encontrar e usar uma informação específica escondida em um grande volume de texto. Isso sugere que seu CMS oferece uma maneira mais eficiente de lidar com longas sequências de informações.
Este é um dos vários esforços para criar sistemas de IA que processem informações em diferentes níveis. Modelo de raciocínio hierárquico (HRM) da Sapient Intelligence, utilizou uma arquitetura hierárquica para tornar o modelo mais eficiente na aprendizagem de tarefas de raciocínio. Modelo de raciocínio minúsculo (TRM), um modelo da Samsung, melhora o HRM fazendo alterações arquitetônicas, melhorando seu desempenho e ao mesmo tempo tornando-o mais eficiente.
Embora promissor, o Nested Learning enfrenta alguns dos mesmos desafios destes outros paradigmas para concretizar todo o seu potencial. As atuais pilhas de hardware e software de IA são fortemente otimizadas para arquiteturas clássicas de aprendizagem profunda e modelos Transformer em particular. A adoção do Nested Learning em grande escala pode exigir mudanças fundamentais. No entanto, se ganhar força, poderá levar a LLMs muito mais eficientes, capazes de aprender continuamente, uma capacidade crucial para aplicações empresariais do mundo real, onde os ambientes, os dados e as necessidades dos utilizadores estão em constante fluxo.










