Alibaba Group та партнери представили MMR1: революція в мультимодальному міркуванні з меншою кількістю даних!
MMR1 представляє технологію дискретизації з урахуванням дисперсії (VAS) для стабільного точного налаштування RL. Бореться з нестабільною оптимізацією та дефіцитом високоякісних даних. Випуск масштабних відкритих наборів даних (~1,6 млн CoT, 15k RL QA) та моделей (3B, 7B, 32B) для спільноти.
Google представляє EmbeddingGemma!
Ця легка модель вбудовування відкритого тексту досягає продуктивності SOTA на MTEB лише за 300 млн параметрів. Він перевершує моделі вдвічі більші за нього та ідеально підходить для швидких, ефективних програм штучного інтелекту на пристрої.
OpenBMB випускає MiniCPM-V 4.5: ефективну потужну установку MLLM
Ця модель з параметрами 8B досягає найсучаснішого візуального мислення, перевершуючи останні та більші моделі GPT-4o з революційною ефективністю.
Його 3D-ресampler забезпечує розуміння відео з високою частотою кадрів в секунду та надійне оптичного розпізнавання символів навіть на вашому iPad.