Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Koodari, maantiepyöräilijä, palvelimen ennustaja, elektroniikkajätteen kerääjä, yksi KCORESin perustajista, entinen johtaja IllaSoftissa, KingsoftOfficessa, Juejinissa.
Hyviä uutisia! Pelikortit voivat nyt käyttää SAM-Audioa!
Toissapäivänä testasin Metan uutta ääniraidan segmentointimallia, SAM-Audioa, mutta suurin ongelma tässä mallissa on, että se on liian suuri, ja suuri versio joutuu kuluttamaan 90GB videomuistia, kun mittasin sen. Hyvä uutinen on, että bloggaaja on poistanut mallin epäolennaiset osat (kooderi ja sekvensseri), itse asiassa tämä malli tukee myös videon instrumentin määrittelyä videossa poimimista varten, mutta on myös mahdollista suoraan kuvata, mikä instrumentti tekstissä mainitaan). Joten tämä osa ominaisuudesta poistettiin.
Tällä hetkellä pienempi versio tarvitsee vain 4–6GB videomuistia, ja suurempi versio vain 10GB videomuistia. Jos joudut irrottamaan kappaleen taustamusiikin tai erottamaan soittimet, kaverit, jotka tarvitsevat laulua, voivat kokeilla sitä.
Projektin osoite:

26
Avoimen lähdekoodin räjähtänyt kerrosmalli on tulossa näin pian?
Annan teille varsinaisen testin juuri julkaistusta Qwen-Image-Layered -mallista, joka on suuri malli, joka voi jakaa kuvat eri kerroksiin, ja malli on hienosäädetty Qwen-Imagen pohjalta.
Tällä kertaa testini kattaa mallin erikoiskohtaukset (juliste), ohjeiden noudattamistestin (määritä poistokohde), reunakäsittelyn (hiukset) ja raja-arvotestin (kaikki tarrat, yksi tarra voi irrottaa yli 50 kerrosta).
Suoraan johtopäätökseen, ensinnäkin malli on liian suuri, koska tämä malli perustuu Qwen-Imageen, eli kyseessä on 20B-malli, käytin HuggingFace Zero -näytönohjainta testatakseni, jokainen suoritus kesti noin 2 minuuttia, malli pystyy tosiaan erottamaan kerroksia, ja reunan käsittely on erittäin hyvää, mutta vakaus täytyy optimoida. Testissäni 4 kerrosta voidaan tuottaa, mutta 8 tai 10 kerrosta räjähti, epäilen, että se on ylittänyt Zero GPU:n aikakatkaisun tai bugin ( Näytönohjain on H200, todennäköisesti videomuisti räjähtää), lähtökoko on vain 544*736, virallinen suosittelee myös 640 resoluutiota, tämäkin pitäisi parantaa, ja malli on edelleen liian iso, 20B, toivon optimoivani seuraavan koon.
23
Itkeminen, SOTA on vain kasvot, ja sinun täytyy luottaa "karja- ja hevosmalliin" toimiaksesi todella
OpenRouterin perustaja Alex Atallah twiittasi juuri, että hänen suurin käyttötapansa on Kimi-K2-0711 (Kimi-K2-Instruct heinäkuussa).
Sitten ovat openai-o4-mini-high, claude-3.7-sonnet, gpt-oss-120b, openai-o3
Ensimmäinen asia, jonka katsoin, oli, onko tämä henkilö poissa internetistä, eikä hän ole käyttänyt uutta isoa mallia pitkään aikaan?
Mutta jos mietit tarkkaan, ei, se on hyvin väärin. Se on Power Userin todellinen käyttötarkoitus, se on niin todellista
Jos löydät sellaisen tällä hetkellä, jolla on riittävän laaja konteksti (128K), vahva kyky käyttää (SWE-bench verified > 65), vahva agenttikyky (Tau2-bench > 65), valtava määrä tietoa (melko suuri määrä parametreja) ja nopeita vastauksia (ei-Ajattelumalli), näyttää siltä, että vain Kimi-K2-Instruct on se.
Taaksepäin Alex Atallah tekee todennäköisesti suurimman osan työstään dokumenttien parissa (pitkät kontekstit, erityisesti 13,4 miljoonan tokenin kanssa), käyttäen työkaluja raporttien analysointiin ja kirjoittamiseen (Agent-kyvykkyydet), joita Kimi-K2-Instruct pystyy tekemään, ja sitten kirjoittaa skriptejä (o4 ja Claude-3.7-Sonnet peittävät pohjan, ja jopa käärivät sen agentiksi, jotta Kimi-k2 voi kutsua näitä malleja skriptien kirjoittamiseen).
Lopuksi Kimi-k2 täyttää myös tärkeimmän asian, tietosuojan, koska malli on avoimen painotettu, voidaan ottaa käyttöön omalla palvelimellaan, eikä arkaluonteisia tietoja vuoda OpenAI:lle tai Anthropicille. Jopa seuraava GPT-OSS-120B pitäisi olla merkityksellinen tässä.
Ymmärrän varmaan, miksi uusi suuri malli on nyt täynnä agenttikykyjä, ja ihmisten suora tekoälyn käyttö on vasta keskivaiheilla, ja edistyneet käyttäjät ovat jo käyttäneet tekoälyä tekoälyn käyttämiseen. Agenttikohtainen malli, jota käytetään kaikkien tekoälykontekstien lähettämiseen ja vastaanottamiseen, tulee väistämättä olemaan suurin käyttötarkoitus.
Alkuperäinen ketju:


31
Johtavat
Rankkaus
Suosikit
