Me parece gracioso cómo la investigación de DeepSeek es mayormente ignorada. Arrastraron a la industria, pataleando y gritando, al mundo de los MoEs eficientes y el RL eficiente, pero eso es todo. ¿Por qué no están todos los Instructs DSA con atención completa aún? ¿Se han adoptado los métodos Math-V2? No. «Dame los pesos de las ballenas»
Ahmad
Ahmad10 ene, 11:53
por favor, lanza esa v4 pronto, ballena
(Por supuesto, también quiero V4)
339