Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Програміст, водій шосейних велосипедів, ворожка на серверах, збирач електронних відходів, співзасновник KCORES, екс-директор IllaSoft, KingsoftOffice, Juejin.
Гарні новини! Ігрові картки тепер можуть використовувати SAM-Audio!
Позавчора я протестував нову модель сегментації аудіо доріжок від Meta — SAM-Audio, але найбільша проблема цієї моделі — вона занадто велика, і велика версія має споживати 90 ГБ відеопам'яті, коли я її вимірював. Тепер добра новина в тому, що блогер видалив неважливі частини моделі (енкодер і секвенсор), насправді ця модель також підтримує вказування інструменту відео у відео для вилучення, але також можна безпосередньо описати, який інструмент згадується в тексті. Тож цю частину функції було видалено).
Наразі мала версія потребує лише 4-6 ГБ відеопам'яті, а велика — лише 10 ГБ відеопам'яті. Якщо потрібно витягти фонову музику пісні або розділити інструменти, друзі, яким потрібен вокал, можуть спробувати.
Адреса проєкту:

30
Модель вибухового шару з відкритим кодом з'явиться так скоро?
Дозвольте розповісти вам про реальний тест моделі Qwen-Image-Layered, щойно випущеної Alibaba — це велика модель, що може розділяти зображення на різні шари, і модель тонко налаштована на основі Qwen-Image.
Цього разу мій тест охоплює спеціалізовані сцени моделі (постер), тест відповідності інструкціям (вкажіть цільову мету вилучення), обробку країв (волосся) та тест обмежень (усі наклейки, одна наклейка може витягти більше 50 шарів).
Одразу до висновку, по-перше, модель занадто велика, бо вона базується на Qwen-Image, тобто це модель на 20B, я тестував GPU HuggingFace Zero, кожен запуск триває близько 2 хвилин, модель дійсно може розділяти шари, обробка краю дуже хороша, але стабільність потребує оптимізації. У моєму тесті можна вивести 4 шари, але 8 або 10 шарів вибухнули, підозрюю, що це могло перевищити тайм-аут GPU Zero або баг ( GPU — H200, малоймовірно, що відеопам'ять вибухне), розмір виходу лише 544*736, офіційна особа також рекомендує роздільну здатність 640, це теж потрібно покращити, а модель все ще занадто велика, 20B, сподіваюся оптимізувати наступний розмір.
26
Плачу, SOTA — це просто обличчя, і треба покладатися на «модель худоби і коня», щоб справді спрацювало
Алекс Аталлах, засновник OpenRouter, щойно написав у Twitter, що його найбільшим використанням є Kimi-K2-0711 (Kimi-K2-Instruct у липні).
Далі є openai-o4-mini-high, claude-3.7-sonnet, gpt-oss-120b, openai-o3
Перше, що я подивився — чи ця людина не є в Інтернеті, і він давно не користувався новою великою моделлю?
Але якщо добре подумати, ні, це дуже неправильно. Ось у чому справжнє призначення Power User, це так реально
Якщо ви знайдете таку на цьому етапі часу, з достатньо великим контекстом (128K), сильною здатністю до використання (підтверджено SWE-bench > 65), сильними агентськими навичками (Tau2-bench > 65), величезною кількістю знань (досить велика кількість параметрів) і швидкими відповідями (не-Thinking модель), здається, що лише Kimi-K2-Instruct — це той самий.
Навпаки, Алекс Аталлах, ймовірно, виконує більшість своєї роботи, працюючи з документами (довгі контексти, особливо з 13,4M токенами), використовуючи інструменти для аналізу та написання звітів (можливості агентів), що може робити Kimi-K2-Instruct, а потім пише скрипти (o4 і Claude-3.7-Sonnet покривають нижню частину і навіть обгортають його як агент для Kimi-k2, щоб викликати ці моделі для написання скриптів).
Нарешті, Kimi-k2 також відповідає найважливішому пункту — конфіденційності даних, оскільки модель є відкритою, може бути розгорнута на власному сервері, і будь-яка конфіденційна інформація не буде передана OpenAI чи Anthropic. Навіть наступний GPT-OSS-120B має бути тут значущим.
Я, мабуть, розумію, чому нова велика модель тепер наповнена агентськими можливостями, а пряме використання ШІ людьми лише на середньому етапі, і просунуті користувачі вже використовували ШІ для роботи з ШІ. Агент-специфічна модель, яка використовується для надсилання та отримання всіх контекстів ШІ, неминуче буде найпопулярнішим.
Оригінальна тема:


35
Найкращі
Рейтинг
Вибране
