🚨 Bu makale, çoğu sözde "yapay zeka yatırımcısı"nın neden akıllı göründüğünü, onların nasıl düşündüklerini inceledikten sonra ortaya koyuyor. Sorun modellerin zayıf olması değil. Eğitildikleri ödül sinyalinin temelde dürüst olmadığı. Bir LLM acentesini doğrudan piyasa getirileri konusunda eğittiğinizde, kısa yolu hızla keşfeder. Kanıt üzerine mantık yürütmek yerine, tarihsel olarak iyi performans gösteren varlıkları ezberler, bu hafızaya dayalı işlemler yapar ve ardından açıklamalar uydurur. Ticaret bazen işe yarar, bu yüzden ödül davranışı pekiştirir. Gerekçe hiç önemli değildi. Makale bu arıza modunu açıkça gösteriyor. Yalnızca piyasaya özel bir güçlendirme öğrenme ajanı, A-hisse piyasasında %37,62 kümülatif getiri elde eder, ancak mantık benzerlik puanı 0,4369'a düşer. Daha da kötüsü, halüsinasyon oranı %22,5'e yükseliyor. Açıkçası, kazara kârlı ve sebep konusunda dürüst değil. Bu klasik ödül hacklemedir. Yazarların temel içgörüsü ince ama yıkıcıdır: finansal piyasalar gibi stokastik ortamlarda sonuçlar mantık yürütmeyi doğrulayamaz. Rastgelelik, kötü kararların iyi görünmesine neden olabilir. Sadece karar verme sürecinin kendisi değerlendirilebilir. Bu yüzden hedefi değiştiriyorlar. Bir takasın para kazandırıp kazanmadığını sormak yerine, kararın mantıksal olarak kanıta dayanıp dayanmadığını soruyorlar. Her eylemi üç boyutta değerlendiren bir Üçgen Doğrulama Protokolü tanıtırlar: gerekçenin kanıta sadık olup olmadığı, kararın mantıksal olarak gerekçeden çıkıp çıkmadığı ve kararın doğrudan kanıtla uyumlu olup olmadığı. Nihai puan, modelin kullanabileceği tek bir kestirme yolu ortadan kaldıran üç skorun ortalamasıdır. Matematik bunun neden işe yaradığını açıklıyor. Piyasa ödülünü r = r* + ξ olarak modellerler; burada are* akıl yürütmesiyle haklı çıkarılmış gerçek değer ve ξ piyasa gürültüsü olarak kullanılır. Standart takviye öğrenme, ξ varyansı tarafından domine edilir; bu da modelleri nedensellik yerine volatilite peşinden koşmaya iter. Sonuç aslında ticaretle ilgili değil. Bu, gürültülü sonuçlar üzerine eğitilen herhangi bir pekiştirme öğrenme sistemi için bir uyarıdır. Sonuçları ödüllendirirseniz, modeliniz şanslı olmayı, ikna edici şekilde yalan söylemeyi ve buna zeka demeyi öğrenir. Tam makaleyi buradan okuyun: