Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Podobný přístup generátor-ověřovatel jsem přijal pro použití modelů v teoretickém fyzikálním výzkumu.
Lidští experti na hranici vědy mohou vylepšit modely Verifierů natolik, že autonomní operace jsou extrémně silné i u reálných výzkumných problémů (nejen u uměle vytvořených matematických soutěží = dobře položených problémů, které mohou lidé vyřešit v konečném čase).
DeepSeekMathV2
Synergie mezi generátorem a ověřovačem
Generátor důkazů a ověřovatel tvoří zpětnou vazbu s samozlepšující se metodou. Jak generátor vytváří stále složitější důkazy, tyto testy ztěžují ověřovatele a odhalují slabiny, které se stávají novými trénovacími daty. Zpočátku řídili přeškolení ověřovatele lidskí experti tím, že přezkoumávali jeho označené problémy — proces, který byl efektivní generováním více pokusů o ověření na důkaz. Tato "meta-verifikace" (kontrola zjištění ověřovatele místo přímých důkazů) se ukázala být pro lidi jednodušší a pro LLM lépe naučitelná.
Škálováním počtu analýz a školení ověřovatelů na těchto anotacích s pomocí AI dosáhl ověřovatel nakonec úrovně spolehlivosti, kdy již nebyl potřeba lidský zásah ve finálních běhech — čímž se uzavřela smyčka mezi automatizovaným generováním důkazů a ověřováním.

28. 11. 01:26
Páni! DeepSeekMath-V2
Architektura generátor-ověřovatel znovu!
... Směrem k samoověřitelné matematické logice zkoumáme, jak trénovat přesný a věrný ověřovatel založený na LLM pro dokazování vět. Poté trénujeme generátor důkazů pomocí ověřovatele jako modelu odměn a motivujeme generátor, aby identifikoval a vyřešil co nejvíce problémů ve svých vlastních důkazech před jejich finalizací. Abychom udrželi rozdíl mezi generací a ověřením, jak generátor sílí, navrhujeme škálovat ověřovací výpočty tak, aby automaticky označovaly nové těžko ověřitelné důkazy a vytvářely trénovací data pro další zlepšení ověřovatele. Náš výsledný model, DeepSeekMath-V2, prokazuje silné schopnosti dokazování vět, dosahuje zlatých výsledků na IMO 2025 a CMO 2024 a téměř dokonalých 118/120 na Putnam 2024 s výpočtem škálovaného testovacího času. Ačkoliv je před námi mnoho práce, tyto výsledky naznačují, že samoověřitelné matematické uvažování je reálným směrem výzkumu, který může pomoci vyvinout schopnější matematické AI systémy.

To popisuje přechod od základního Generator-Verifier pipeline využívajícího hotové modely k tomu, kde byl Verifier sám vylepšen pomocí lidských expertních tréninkových dat používaných v meta-verifikaci.

1,41K
Top
Hodnocení
Oblíbené
