Několik snímků z mé přednášky na konferenci @PyTorch Conf začátkem tohoto týdne o tom, jak verifikátoři volí design a jak budujeme vlajkový ekosystém pro otevřená prostředí RL :)
pozoruhodně: - myslíme si, že správné zapouzdření pro prostředí je instalovatelný balíček Pythonu, který implementuje tovární funkci a který může spravovat externí zdroje buď prostřednictvím knihovny předpřipravených komponent nebo prostřednictvím svých vlastních spouštěčů - myslíme si, že OpenAI Chat Completions API je tou správnou úrovní abstrakce pro většinu vývojářů vytvářejících prostředí, přičemž OpenAI Completions je možností pro zlomek případů vyžadujících jemnější kontrolu - Myslíme si, že školitelé a vývojáři environmentálních frameworků by měli nést břemeno vystavení čistých a známých primitiv tvůrcům prostředí, které odrážejí vývojové zkušenosti s vytvářením statických agentů nebo evalů - myslíme si, že prostředí RL pro LLM přináší jedinečné výzvy oproti předchozím érám RL a že abstrakce by se měly vyvíjet, aby to zohlednily - Myslíme si, že kontejnery jsou důležité pro mnoho prostředí, ale neměly by být povinné pro prostředí, která je nepotřebují - Myslíme si, že budování tohoto ekosystému je globální výzvou, která vyžaduje diferencované a otevřené diskuse mezi zainteresovanými zúčastněnými stranami, aby se zajistilo, že z něj budou mít prospěch všichni Trávíme spoustu času přemýšlením o těchto věcech, debatami o kompromisech, iteracemi a experimentováním. Pokud potřebujete něco, co zatím nepodporujeme, nebo návrhy, jak bychom mohli zlepšit, jsme všichni uši :)
21,63K