DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

🚨 Este artigo expõe por que a maioria dos chamados "traders de IA" parece inteligente até você inspecionar como eles pensam. O problema não é que os modelos são fracos. É que o sinal de recompensa com o qual eles são treinados é fundamentalmente desonesto. Quando você treina um agente de LLM diretamente sobre retornos de mercado, ele rapidamente descobre um atalho. Em vez de raciocinar sobre evidências, ele memoriza ativos que historicamente tiveram bom desempenho, faz negociações baseadas nessa memória e depois fabrica explicações. A troca funciona às vezes, então a recompensa reforça o comportamento. A razão nunca importou. O artigo demonstra claramente esse modo de falha. Um agente de aprendizado por reforço exclusivo do mercado alcança um retorno acumulado de 37,62% no mercado de ações A, mas sua pontuação de similaridade de raciocínio colapsa para 0,4369. Ainda pior, sua taxa de alucinações sobe para 22,5%. Em termos simples, é lucrativo por acidente e desonesto em relação à causa. Isso é o clássico hacking de recompensas. A percepção central dos autores é sutil, mas devastadora: em ambientes estocásticos como os mercados financeiros, os resultados não podem validar o raciocínio. A aleatoriedade pode fazer com que decisões ruins parecessem boas. Apenas o próprio processo de tomada de decisão pode ser avaliado. Então eles mudam o objetivo. Em vez de perguntar se uma troca gerou lucro, eles perguntam se a decisão foi logicamente fundamentada em evidências. Eles introduzem um Protocolo de Verificação Triangular que avalia cada ação em três dimensões: se o raciocínio é fiel à evidência, se a decisão decorre logicamente do raciocínio e se a decisão é consistente diretamente com as evidências. A pontuação final é uma média entre os três, o que elimina qualquer atalho que o modelo pudesse explorar. A matemática explica por que isso funciona. Eles modelam a recompensa de mercado como r = r* + ξ, onde are* é o valor verdadeiro justificado pelo raciocínio e ξ é o ruído do mercado. O aprendizado por reforço padrão acaba sendo dominado pela variância de ξ, o que leva os modelos a buscar volatilidade em vez de causalidade. A lição não é realmente sobre troca. É um aviso para qualquer sistema de aprendizado por reforço treinado para resultados ruidosos. Se você recompensar resultados em vez de raciocínio, seu modelo aprenderá a ter sorte, mentir de forma convincente e chamar isso de inteligência. Leia o artigo completo aqui:

Melhores

Classificação

Favoritos