Grupa Alibaba i partnerzy ujawniają MMR1: Rewolucjonizując multimodalne rozumowanie przy mniejszej ilości danych!
MMR1 wprowadza próbkowanie uwzględniające wariancję (VAS) do stabilnego dostrajania RL. Radzi sobie z niestabilną optymalizacją i niedoborem wysokiej jakości danych. Udostępnia ogromne otwarte zbiory danych (~1,6M CoT, 15k RL QA) i modele (3B, 7B, 32B) dla społeczności.
Google wprowadza EmbeddingGemma!
Ten lekki, otwarty model osadzania tekstu osiąga najlepsze wyniki w MTEB przy zaledwie 300M parametrów. Przewyższa modele o dwa razy większe i jest idealny do szybkich, efektywnych aplikacji AI na urządzeniach.
OpenBMB wydaje MiniCPM-V 4.5: Wydajna potęga MLLM
Ten model z 8 miliardami parametrów osiąga najwyższy poziom w zakresie rozumienia wizualnego, przewyższając GPT-4o-najnowszy i większe modele z rewolucyjną wydajnością.
Jego 3D-Resampler umożliwia zrozumienie wideo w wysokiej liczbie klatek na sekundę oraz solidne OCR, nawet na Twoim iPadzie.