Du kannst einfach Dinge in prime-rl tun - wie GLM5 beizubringen, Mathematik in <2000 Tokens zu beantworten, indem du 16 Knoten zum Trainieren und 12 Knoten zur Durchführung der Inferenz mit einer 2P4D-Konfiguration verwendest, und das nur mit uv run rl @ rl.toml ( @samsja19 hat mir gesagt, ich sollte mehr Dinge twittern)