Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I po prudkém pokroku za poslední 3 měsíce zůstává jasné, že výkon AI je vázán na znalost úkolů. V doménách, které lze hustě vzorkovat (pomocí programové generace + ověřování), je výkon prakticky neomezený a bude nadále růst oproti současným úrovním. V nových, neznámých oblastech zůstává výkon nízký a další pokrok stále vyžaduje nové nápady, nejen více dat a výpočetní kapacity.

Před 13 h
Dobře, myslím, že můj experiment, kdy nechávám AI pracovat na věcech 24/7, tím končí. Nejde to. Kód exploduje v komplexnosti, výsledky nejsou moc dobré, AI se nemůže dostat přes tvrdé zdi (stále vůbec nedokáže *pochopit* SupGen) a je to šíleně drahé (za poslední 2 dny jsem utratil ~1 tisíc). Nejlepší výsledky jsou na JS kompilátoru, hlavně proto, že je známý (ve srovnání s inets), ale nestojí za to ztratit kontrolu nad kódem.
Myslím, že sen o tom, že AI bude pracovat na pozadí a dělat skutečný pokrok v důležitých věcech (tedy opravdu nových věcech), ještě nepřišel. Stále je to stroj pevně uvězněný na vlastních tréninkových datech, neschopný myslet mimo zaběhnuté koleje. Je skvělý na stavbu věcí, které už byly postaveny. Ale ne nové věci
Programování má navíc obvykle tu nedoceněnou výhodu, že děláte dvě věci najednou: budujete kódovou základnu *a* se ji učíte. AI dělají jen polovinu z toho. Druhá polovina je samozřejmě nemožná 🤔
Pro benchmarky zaměřené na nové úkoly je běžnou formou benchmark hackingu, která tuto mezeru arbitrážně překonává, generování hustého vzorku potenciálních úkolů manuálním parametrizováním prostoru a následným hrubým vynucením. Je to velmi drahé, ale funguje. Pro obnovení validity benchmarku zde nemůžete udělat jen málo kromě zvýšení dimenzionality prostoru úkolů.
23
Top
Hodnocení
Oblíbené
