DApp Store | Centrum Web3 pro události a hry

Populární témata

Podobný přístup generátor-ověřovatel jsem přijal pro použití modelů v teoretickém fyzikálním výzkumu. Lidští experti na hranici vědy mohou vylepšit modely Verifierů natolik, že autonomní operace jsou extrémně silné i u reálných výzkumných problémů (nejen u uměle vytvořených matematických soutěží = dobře položených problémů, které mohou lidé vyřešit v konečném čase). DeepSeekMathV2 Synergie mezi generátorem a ověřovačem Generátor důkazů a ověřovatel tvoří zpětnou vazbu s samozlepšující se metodou. Jak generátor vytváří stále složitější důkazy, tyto testy ztěžují ověřovatele a odhalují slabiny, které se stávají novými trénovacími daty. Zpočátku řídili přeškolení ověřovatele lidskí experti tím, že přezkoumávali jeho označené problémy — proces, který byl efektivní generováním více pokusů o ověření na důkaz. Tato "meta-verifikace" (kontrola zjištění ověřovatele místo přímých důkazů) se ukázala být pro lidi jednodušší a pro LLM lépe naučitelná. Škálováním počtu analýz a školení ověřovatelů na těchto anotacích s pomocí AI dosáhl ověřovatel nakonec úrovně spolehlivosti, kdy již nebyl potřeba lidský zásah ve finálních běhech — čímž se uzavřela smyčka mezi automatizovaným generováním důkazů a ověřováním.

To popisuje přechod od základního Generator-Verifier pipeline využívajícího hotové modely k tomu, kde byl Verifier sám vylepšen pomocí lidských expertních tréninkových dat používaných v meta-verifikaci.

1,41K

Top

Hodnocení

Oblíbené