很高兴看到更多完全开放的后训练食谱(这个是多模态推理)。 令人惊讶的是,后训练数据是如此稀缺,因为其影响的机会巨大。很多人会尝试,而简单的数据方法仍然可以在SOTA上有所改进。