Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nikdo neví, co přijde
Jediný člověk s nápadem by mohl během dvou let působit jako "CEO" firmy s 10 000 agenty
Budete mít "software jako myšlenku", ne jako službu. Když mluvíte, miliarda instancí "roje" postaví backend, frontend, bezpečnost a škálovací infrastrukturu během minut.
Posledních 18 měsíců bylo svědkem nejrychlejšího tempa pokroku, jaké jsme kdy v historii informatiky zažili.
Doporučuji vám přečíst si o SWE Pro. Byl vyroben tak, aby byl odolný vůči kontaminaci. Ještě jsem nečetl dobrý důvod, proč by po dosažení 90-100 % v tomto benchmarku nebylo vyřešeno celé softwarové inženýrství. Toto je jeden z nejsložitějších a nejobtížněji navržených benchmarků. Úkoly jsou tak dlouhé, že agent musí být schopen učit se ze svých vlastních neúspěšných testovacích běhů ve stejné relaci – v podstatě by model musel mít nějakou formu kontinuálního učení, aby tento standard překonal.
Preview Gemini 2.5 získal skóre 13 %
Preview Gemini 3 získal 43 %
Claude Opus 4.5 je momentálně v čele s 45 % (podle scale ai) — LIDÉ V ANTHROPIC VÁM ŘÍKAJÍ, ŽE CELÝ DEN SLEDUJÍ CLAUDA A DOPLŇUJÍ MEZERY.
Jistě, můžete si stěžovat, že jsou motivováni to říkat, ale nebyl váš časový plán X za poslední 2 týdny neustálým šokem z toho, jak jsou modely dobré v programování? Zvlášť 4.5 Opus?
Je mi naprosto jasné, že softwarové inženýrství bude vyřešeno za 2 roky. I kdybyste to zdvojnásobili, ne TROJNÁSOBNĚ, tipovalo, že by to mělo HLUBOKÝ dopad na HDP a průměrný americký život

Top
Hodnocení
Oblíbené
