DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Mungkin saya seharusnya membuat ini lebih jelas, tetapi beberapa orang tampaknya membingungkan apa yang sebenarnya diukur oleh tolok ukur ini. Itu TIDAK, juga tidak mencoba menjadi pengukuran kemampuan pengkodean agen atau IRL. Ini mencoba untuk memperkirakan kemampuan matematis LLM saat ini pada serangkaian masalah yang saya miliki intuisi sangat sulit untuk dipecahkan untuk arsitektur model saat ini. Saya pribadi cenderung menghargai kemampuan matematika lebih dari kebanyakan orang, dan ini baik-baik saja. Kebanyakan orang seharusnya tidak peduli dengan matematika imo dan mungkin Claude-4-5-Sonnet lebih baik untuk hal-hal yang lebih Anda hargai dalam LLM. Tetapi hanya untuk masalah matematika yang rumit—dan inilah yang diklaim oleh grafik ini—GLM-4.6 hanya mengungguli Claude-4-5-Sonnet, tidak lebih, tidak kurang. Ini BUKAN bukti atau tidak mengklaim, bahwa Claude-4-5-Sonnet adalah model yang lebih buruk secara keseluruhan atau bukan pilihan yang lebih baik untuk Anda. Saya tidak tahu apakah beberapa orang ingin menafsirkannya dengan salah, tetapi saya berasumsi mayoritas orang dapat melakukan transfer di atas. Benar-benar hanya perlu berpikir, membaca, dan melihat grafik selama lebih dari 2 detik.

Teratas

Peringkat

Favorit