今年测试了500多个模型,推出了一款拥有超过6000名用户的AI产品。 观察到: 1. 聊天功能达到了瓶颈 2. 模型战争使旧模型逐渐被淘汰 3. 开源对开发者更有利 4. 评估应衡量任务执行 5. 上下文比增强推理更重要