Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Zakladatel @getoutbox_ai
Naučte se, jak vytvářet AI agenty ZDARMA 👉 https://t.co/q9zPwlldZ4
🚨 Všichni se ptají, proč se AI agenti rozpadnou hned, jak překročíte demo.
Tento článek od Google DeepMind, Meta, Amazon a Yale tiše dává nepříjemnou odpověď.
Dnešní LLM nerozumují. Reagují.
Generují plynulý text token po tokenu, ale neplánují, nereflektují ani nerozhodují, kdy zastavit a přehodnotit. Zní chytře, protože jazyk je jejich silnou stránkou, ne proto, že by jim byl úsudek.
Článek tvrdí, že skutečný pokrok přichází z přeměny LLM na agentické uvažovatele. Systémy, které dokážou stanovit cíle, rozdělit je na dílčí cíle, vybírat kroky, hodnotit výsledky a měnit strategii během letu.
Formalizují uvažování jako smyčku, nikoli jako podnět:
Pozorujte → plánujte → jednat → odrážet → aktualizovat stav → opakovat
To je klíčová změna. Místo jednoho dlouhého řetězce myšlenek model udržuje vnitřní stav úkolu. Rozhoduje, na co myslet dál, ne jen jak větu dokončit.
Proto jsou delší CoT stagnace. Dostanete více slov, ne lepší rozhodnutí.
Jeden z nejostřejších poznatků: uvažování se zhroutí, když se smísí kontrola a uvažování. Když se jediný prompt snaží naplánovat, provést, kritizovat a dokončit, chyby se tiše hromadí.
Agentické systémy mají oddělené role.
Plánování je explicitní.
Provedení je zaměřeno na rozsah.
Reflexe je zpožděná a strukturovaná.
Článek ukazuje dramatické zisky pouze tím, že uvádí modely:
• explicitní mezilehlé cíle
• kontrolní body pro sebehodnocení
• povolení opustit špatné cesty
• Paměť na minulé pokusy
Žádné nové závaží. Žádné větší modely. Jen lepší kontrolu nad tím, kdy a proč model uvažuje.
To je pro průmysl kruté.
Škálování tokenů a parametrů nám spolehlivé agenty nezajistí. Architektura ano.
Většina "autonomních agentů" dnes jsou jen rychlí písaři s nástroji.
Tento článek vysvětluje, co je vlastně potřeba k tomu, abychom vybudovali myslitele.

🚨 Tento článek je důvodem, proč většina ukázek agentů nepřežije skutečné uživatele.
Jakmile přidáte nástroje, paměť a autonomii, každá "promptová obrana" se rozpadne.
Tahle ne.
Většina "obran proti prompt injection" se rozpadne ve chvíli, kdy přidáte agenty, nástroje nebo paměť.
Článek navrhuje tříagentní bezpečnostní pipeline plus čtvrtého hodnotitele. Každý agent má pevně danou roli: generování, sanitace, vymáhání politik. Žádné debaty. Žádné vibrace. Jen vrstvená obrana. Každý mezivýstup je kontrolován, hodnocen a zaznamenáván.
Skutečným průlomem je vnořené učení.
Místo toho, aby se prompty považovaly za bezstavové události, má každý agent systém kontinuální paměti se střednědobou a dlouhodobou pamětí. Prompty jsou semanticky vloženy a sémanticky párovány. Pokud nový útok vypadá jako něco, co už bylo vidět, agent znovu použije ověřenou odpověď místo jejího znovugenerování.
To dělá tři věci najednou.
1, bezpečnost. Ve 301 skutečných útokech prompt injection v 10 rodinách útoků systém nedosáhl žádného vysoce rizikového průniku. Ne snížené riziko. Nula.
2, pozorovatelnost. Zavádějí novou metriku nazvanou OSR, která měří, kolik bezpečnostního uvažování je při auditech vystaveno. Paradoksalně nejlepší výsledek byla celkově konfigurace s největší průhledností.
3, udržitelnost. Sémantická cache snížila volání LLM o 41,6 %, což snížilo latenci z ~9 sekund na 150 ms u cacheovaných cest. Méně hovorů znamená nižší náklady, nižší spotřebu energie a nižší emise uhlíku, aniž by se dotklo hmotnosti modelu.
Závěr je pro většinu stavitelů makléřů nepříjemný.
Bezpečnost nevzniká z chytrých promptů.
Vychází z architektury, paměti a disciplíny hodnocení.
Jedná se o jeden z nejjasnějších plánů pro produkční, bezpečnou a udržitelnou agentickou AI.
Celý článek si můžete přečíst zde:

Výzkumná práce o skvělých věcech.
🚨 LLM jsou hrozní v protiargumentech. Tento článek přesně ukazuje proč.
Většina AI nástrojů bere odpovědi jako psaní úkolu. Vytvořte zdvořilý text. Zníš sebevědomě. Jdi dál.
Právě proto selhávají na špičkových konferencích.
Tento výzkum obrací celý problém s vyvrácením naruby.
Místo "generování odpovědi" považuje protiargumenty za úkol organizace rozhodnutí + důkazů.
Systém nazvaný RebuttalAgent je víceagentní pipeline, která odmítá cokoli napsat, dokud není logika neprobojná.
Za prvé, rozděluje zpětnou vazbu recenzentů. Každý vágní odstavec je rozdělen na přesné, konkrétní otázky. Žádné body nebyly ztraceny. Žádné nesouvisející kritiky se nespojují dohromady. Krytí je vynucováno dřív, než se stane cokoli jiného.
Následuje skutečná inovace: uvažování založené na důkazech.
Pro každou otázku systém vytváří hybridní kontext. Většina článku zůstává komprimovaná pro úsporu tokenů, ale přesné části relevantní k komentáři recenzenta jsou plně rozpracované. Pokud interní důkazy nestačí, agent pro vyhledávání na vyžádání získá externí dokumenty a převede je na podklady připravené k citaci. Nic není pokutováno, pokud to není dohledatelné.
Pak přichází krok, který většina LLM nástrojů úplně přeskakuje: ověřování strategie.
Před vypracováním RebuttalAgent vytvoří explicitní plán reakce. Rozděluje:
Co lze objasnit na základě stávajících výsledků
Co skutečně vyžaduje nové experimenty
Co by mělo být uznáno, aniž by se člověk příliš zavázal
Kontrolní agent tento plán audituje z hlediska logické konzistence a bezpečnosti závazků. Pokud odpověď naznačuje výsledky, které neexistují, je zablokována. Halucinace tady umírají.
Teprve poté, co člověk zapojený do procesu schválí plán, systém napíše konečnou odpověď.
Výsledky nejsou jemné.
Na benchmarku postaveném na skutečných diskusích OpenReview RebuttalAgent konzistentně překonává GPT, Gemini, Grok a DeepSeek při použití stejných základních modelů. Pokrytí, kvalita argumentů a důkazy se liší rozdílně. Největší přínosy přinášejí slabší modely, což dokazuje, že nejde o lepší text, ale o lepší strukturu.
Nepříjemné zjištění:
Odpovědi selhávají ne proto, že autoři píší špatně,
ale protože důvody, důkazy a závazky nejsou nikdy explicitně uvedeny.
Tento článek AI neučí lépe argumentovat.
Učí AI myslet jako autor pod tlakem recenze.
Top
Hodnocení
Oblíbené
