Um artigo importante de uma equipe de pesquisadores da Apple foi publicado nos últimos dias, e acredito que pode impactar as discussões atuais sobre inteligência artificial:
O artigo entitulado GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, explora de maneira profunda a capacidade dos vários modelos de de linguagem em tasks de raciocínio, tentando responder à pergunta:
LLMs são realmente capazes de raciocinar?
As últimas interações de LLMs que apresentam Chain of Thought Reasoning (como OpenAI o1 e Claude 3.5 Sonnet), também conhecidos como Reasoning Models, são realmente impressionantes, e estamos usando estes modelos para tarefas cade vez mais complexa - inclusive já avançando para permitir que os modelos cheguem muito próximos da tomada de decisão.
Como quase todos esses modelos são apresentados por vendedores de ferramentas, é natural que existe algum ceticismo quanto às métricas que eles tem apresentado. Se incorporarmos também o hype ao redor dos produtos (principalmente o1 da OpenAI), fica difícil de discernir o que é puramente marketing e o que é realmente real destes modelos.
O grupo de pesquisadores da Apple propõe um benchmark de geração de questões para avaliar melhor de que forma LLMs são capazes de resolver problemas. E basicamente eles encontraram grande variância de resultados uma vez que a mesma pergunta é feita de formas diferentes.
Especialmente, a performance de todos os modelos declina quando somente os valores numéricos são alterados seguindo o benchmark GSM-Symbolic. Além disso, nós investigamos a fragilidade do raciocínio matemático nestes modelos e demonstramos que a performance deteriora significativamente conforme o número de cláusulas na questão aumenta. Nossa hipótese é que este declínio é baseado no fato de que LLMs não são capazes genuinamente de raciocinar logicamente; ao invés disso, estes modelos tentam replicar os passos de raciocínio apresentados no dataset de treinamento.
Como funciona a avaliação GSM Symbolic? LLMs podem racioncinar?
De maneira geral, a avaliação da capacidades dos modelos se dá através da escrita de enunciados matemáticos, e interpretação dos resultados.
No quadro abaixo, é possível ver um exemplo do benchmark GSM8k dataset, e sua estratégia de avaliação, no lado esquerdo.
No lado direito, o novo template para geração de enunciados, que usa o GSM8k de apoio, permitindo maior variação, e consequentemente mais abrangência na análise dos pesquisadores.
Template para geração do dataset de benchmark
Todos os modelos quebram com simples mudanças de problemas, não interpretam informação irrelevante e muito menos são capazes de chegar q conclusões que não existem na net ou em seu dataset de treinamento. Isso é muito importante de entender sobre as conclusões desse artigo:
LLMs são totalmente influenciadas por pequenas variações nas perguntas, e não são confiáveis ferramentas para respostas críticas. Se você hoje confia na sua instância do GPT para tomar decisões, sugiro que você repense essa decisão. Apenas mudar os nomes de um prompt afeta os resultados em aproximadamente 10%!
Pequenas mudanças, como nomes e valores no prompt são capazes de variar completamente o output, indicando que estes modelos são direcionados pelos tokens, mais do que por raciocínio formal, o que já se fala há muito tempo: llms fazem pattern-matching probabilístico: se existe informação parecida em sua base de treinamento, elas vão responder juntando os pontos. Estes modelos buscam pelo conjunto de dados mais próximo em sua base de treinamento, sem nenhuma "compreensão" de conceitos.
Mudanças básicas nas questões usadas no dataset de treinamento trazem resultados impressionantes. Adicionar na pergunta informação irrelevante ao prompt quebra todos os modelos:
Mas como isso acontece?
O principal benchmark de teste de raciocínio atual é o dataset GSM8K, que inclui mais de 8000 testes de matemática de escolas, com questões contendo as 4 operações aritméticas.
Apesar de bastante relevante, a hipótese é que o fato desse dataset ser publico pode ter contaminado o resultado, e por isso qualquer mudança simples no prompt pode alterar significativamente os resultados. O modelo não "sabe" como resolver o seu prompt, ele tem a resposta certa já registrada.
No fim, LLMs parecem mágica, mas apenas porque os modelos decoraram TODA A Internet, e são capazes de buscar nesse conteúdo algo parecido com o que você está procurando, e você pode estar colocando muito mais confiança na ferramenta do que ela deveria.
O que achei mais interessante do artigo, é que as LLMS, todas, são extremamente frágeis quando o prompt incorpora informações irrelevantes, impactando negativamente o resultado. Até mesmo os modelos mais recentes, tidos como a um passo de [[AGI]], cometem os mesmos erros:
Algumas frases irrelevantes para o raciocínio do problema são adicionadas e afetam a conclusão drasticamente. A maioria dos modelos falha em reconhecer a irrelevância das frases.
No que isso pode te ajudar?
Declarando o óbvio:
Não confie ações de risco ao chatGPT
E mais do que isso: qualquer perspectiva que sua empresa possa ter que usar esses modelos como tomada de decisão, aumenta o risco para o negócio.
Seja escrevendo código, seja determinando ações para comprar, seja planejando a sua estratégia. Esses modelos não são confiáveis, apesar de serem bastante úteis!
A performance muda completamente quando são alterados nomes próprios nos prompts para problemas matemáticos (não é a mariazinha que tem 4 laranjas, é o josé que tem 5 limões e afeta completamente a solução)
Tudo aquilo de novo que precisa ser produzido pode ser apoiado por LLMs, mas nunca direcionado por elas.
Agora, esse artigo tem um ensinamento bastante relevante para quem usa com frequência LLMs para o trabalho - dicernir entre raciocínio e cópia vai ser uma skill importante para o futuro, inclusive para avaliar se uma ideia vinda do Claude é realmente viável ou não. No fim, esse artigo é bastante útil para você melhorar suas habilidades com prompt, já que julgo inevitável que LLMs sejam incorporadas em todas as atividades do conhecimento.
Para uma explicação mais profunda, sugiro essa palestra: