Sanırım DeepSeek'in Engram'ı üzerine uzun biçimli bir açıklama yazmam gerekiyor.
Açıklama isterseniz bu gönderiyi beğenin
- Hash fonksiyonları aracılığıyla erişilen gömmelere gradyanların nasıl aktığı
- veya tek bir FP8 MMA'ya ne dönüştürdükleri
- YA DA NEDEN TRAFODA KONVOLÜSYON KULLANIYORLAR
RETRO çıktığında, LLM'ler için geri almanın çok önemli olduğunu düşünmüştüm; param sayısını azaltırken modeller için bilgi derinliğini artırmak için. Şirketlerin bu fikrden kaçınması benim için bir sürprizdi.
Whale, Retrieval'ı masaya getiriyor:
> En önemlisi, bellek modülünün bilgi alımına yardımcı olması beklense de (örneğin, MMLU +3.4; CMMLU +4.0), genel akıl yürütmede daha büyük kazançlar gözlemliyoruz (örneğin, BBH +5.0; ARC-Challenge +3.7) ve kod/matematik alanları (HumanEval +3.0; MATEMATIK +2.4). Mekanistik analizler, Engram'ın omurgadaki ilk katmanları statik yeniden yapılandırmadan kurtardığını ve karmaşık akıl yürütme için ağı etkili bir şekilde derinleştirdiğini ortaya koyar.