🚀Přemýšleli jste někdy, jak přimět RL pracovat na nemožných těžkých úkolech, kde pass@k = 0 %? 🤔 V naší nové práci sdílíme RL Grokking Recipe: tréninkový recept, který umožňuje LLM řešit dříve neřešitelné problémy s kódováním! Příští týden budu na #CoLM2025, takže jsem ráda, že si o tom popovídám! Ponoříme se také do vášnivé debaty: zdokonaluje RL pouze předchozí naučené dovednosti, nebo může odemknout skutečně nové uvažování? 🔥🔥 Celý blog si můžete přečíst zde: #AI #RL #NLP #reinforcementlearning #llm