Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Odpovíme na několik otázek ohledně naší Esolang-Bench.
a) Proč to dělat? Měří něco užitečného?
Byl to projekt poháněný zvědavostí. Zajímá nás, jak lidé vykazují efektivitu vzorkování při učení a generalizaci OOD. Takže jsme se jednoduše zeptali: pokud modely dokážou v Pythonu správně odpovědět na jednoduché programátorské problémy nula/několik snímků, mohou to udělat i v esoterických jazycích?
Měřítko je, jaké je. Různí lidé mohou jeho užitečnost vnímat různě, a to podporujeme.
b) Ale lidé také neumí dobře psát esoterické jazyky. Je to nespravedlivé srovnání.
Především nás zajímá měření schopností LLM. Podle řečí ASI se předpokládá, že jejich schopnosti brzy budou nadlidské. Naší hlavní motivací tedy nebylo srovnávat se s lidmi, ale zjistit, co dokážou na tomto obtížném měřítku.
Věříme však, že lidé se dokážou naučit novou oblast sami tím, že přenesou své staré dovednosti. Tento milník tedy měl stanovit výchozí bod pro zkoumání, jak mohou AI systémy dělat totéž (což je to, co nyní zkoumáme)
c) Ale Claude Code to zvládá. Uměle jsi omezil modely.
Ano, testovali jsme modely s možností nulových a málo záběrů. A v agentické smyčce, kterou popisujeme v článku, omezujeme počet iterací. Jak jsme psali výše, chtěli jsme pochopit jejich výkon z hlediska srovnání (například u vysoce reprezentovaných jazyků jako Python) a to podle toho, že měřítko je podle návrhu takovéto.
Po dokončení článku jsme experimentovali s agentickými systémy, kde jsme modelům dali nástroje jako bash a umožnili neomezené iterace (ale omezené pokusy o podání). Opravdu fungují mnohem lépe.
Otázka, která je relevantní, je, co dělá tyto modely tak dobrými, když jim dáte nástroje a iterace oproti těm, kdy ne. Uvažují / učí se jako lidé, nebo je to něco jiného?
d) Takže, jsou LLM nadšení? Nebo je naše studium clickbait?
Článek, kód i benchmark jsou všechny open source 👇
Vyzýváme každého, kdo má zájem, aby si ji přečetl a udělal si vlastní názor.
(Nemohli jsme si nevšimnout, že *stejná* sada výsledků byla v komunitě interpretována zcela odlišně. Následovala debata mezi protichůdnými tábory LLM. Možná je to dobře?)
Top
Hodnocení
Oblíbené
