Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Matt Schlicht
Użytkownik Matt Schlicht udostępnił ponownie
Kiedy zdajesz sobie sprawę, że open-source jest na czołowej pozycji w AI mimo:
- mniejszej liczby GPU
- mniejszych funduszy
- mniejszego wsparcia publicznego i politycznego
- braku wynagrodzeń w wysokości 100 milionów dolarów, aby przyciągnąć talenty
- a closed-source korzysta i kopiuje wszystkie innowacje open-source, nie wnosząc nic od siebie
🤯🤯🤯
I dopiero zaczynamy!
88,94K
Chcę mieć łatwy sposób na śledzenie setek nowych badań AI, które pojawiają się na @arxiv każdego dnia.
Dlatego buduję coś, co ma mi w tym pomóc. Przedstawiam @yesnoerror.
Chciałbym się tym z Wami podzielić! ❤️
Sam nie opublikowałem żadnego artykułu, nie chodziłem na studia, ale uwielbiam AI i nowoczesne technologie, w których ludzie próbują rzeczy, których nikt wcześniej nie próbował. Czuję się szczęśliwy, że jestem w tym miejscu w życiu, ale chcę się uczyć i jeszcze bardziej się rozwijać.
Jeśli Ty, tak jak ja, chciałbyś czytać i rozumieć więcej na temat najnowszych osiągnięć w tej niesamowitej branży, to również możesz to pokochać.
Budowałem to w prywatnej wersji beta i aktualizowałem w czasie rzeczywistym, gdy otrzymywałem opinie od badaczy i liderów z @AnthropicAI @MIT @Yale @CarnegieMellon i innych.
Jeśli chciałbyś być wczesnym testerem, daj mi znać 🧪🔬
Im więcej opinii otrzymam, tym lepiej możemy to zrobić, a im lepiej to zrobimy, tym bardziej poinformowana i zainspirowana większa grupa ludzi może być.

2,56K
Budząc się, aby zobaczyć ten nowy artykuł od @scale_AI na trendującym feedzie @yesnoerror.
Autorzy: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 i @SeanHendryx
"Rubryki jako nagrody: Uczenie przez wzmocnienie poza weryfikowalnymi dziedzinami"
Uproszczone: Uczenie komputerów za pomocą szczegółowych list kontrolnych zamiast niejasnych ocen na zasadzie kciuka w górę pozwala im lepiej uczyć się odpowiedzi na pytania z medycyny i nauki oraz wyjaśnia, dlaczego otrzymały nagrodę.
Kluczowe ustalenia:
• Implicytne agregowane nagrody rubryk zwiększają wynik benchmarku medycznego o 28% w porównaniu do podstawy Likerta.
• Odpowiadają lub przewyższają nagrody oparte na odpowiedziach referencyjnych ekspertów, mimo użycia mniejszych sędziów.
Do czego można to wykorzystać:
• Dostosowywanie chatbotów wspierających decyzje kliniczne z użyciem rubryk bezpieczeństwa medycznego.
• Szkolenie modeli analizy polityki lub rozumowania prawnego, gdzie liczą się różne subiektywne czynniki.
Szczegółowe podsumowanie:
Rubryki jako nagrody (RaR) są proponowane jako interpretowalna alternatywa dla nieprzezroczystych modeli nagród opartych na preferencjach podczas dostosowywania dużych modeli językowych (LLM) z użyciem uczenia przez wzmocnienie. Zamiast prosić ludzi o ocenę całych odpowiedzi, eksperci z danej dziedziny (lub silny LLM kierowany przez odniesienia ekspertów) piszą listę kontrolną specyficzną dla podpowiedzi z 7–20 kryteriami binarnymi, które uchwycają istotne fakty, kroki rozumowania, styl i powszechne pułapki. Każde kryterium jest oznaczone jako Istotne, Ważne, Opcjonalne lub Pułapka i otrzymuje wagę. Podczas treningu na polityce model polityki (Qwen-2.5-7B w artykule) próbuje 16 kandydatów odpowiedzi na każdą podpowiedź. Oddzielny sędzia LLM (GPT-4o-mini lub mniejszy) jest proszony o ocenę każdego kryterium osobno (agregacja explicytna) lub o przeczytanie pełnej rubryki i wydanie jednej holistycznej oceny Likerta 1–10 (agregacja implicytna). Znormalizowany wynik staje się nagrodą skalarową, a polityka jest aktualizowana za pomocą algorytmu GRPO.
Autorzy kurują dwa zestawy treningowe po 20 k przykładów—RaR-Medical-20k i RaR-Science-20k—łącząc istniejące zbiory danych dotyczące rozumowania medycznego i naukowego oraz generując syntetyczne rubryki za pomocą o3-mini lub GPT-4o. Ocena na HealthBench-1k (rozumowanie medyczne) i GPQA-Diamond (fizyka/chemia/biologia na poziomie studiów magisterskich) pokazuje, że RaR-Implicit przynosi do 28% względnej poprawy w porównaniu do prostych nagród opartych tylko na Likert i odpowiada lub przewyższa nagrody obliczane przez porównanie z odpowiedziami referencyjnymi ekspertów. Agregacja implicytna konsekwentnie przewyższa explicytną, co pokazuje, że pozwolenie sędziemu na decyzję, jak łączyć kryteria, działa lepiej niż stałe, ręcznie dostosowane wagi.
Nadzór rubryk również pomaga mniejszym modelom sędziów. Gdy poproszono o ocenę preferowanych w porównaniu do zmienionych odpowiedzi, sędziowie kierowani rubrykami wybierają preferowaną odpowiedź znacznie bardziej niezawodnie niż sędziowie tylko na podstawie Likerta o tej samej wielkości, zawężając różnicę między 7 B oceniającym a GPT-4o-mini. Ablacje ujawniają, że rubryki specyficzne dla podpowiedzi przewyższają ogólne, wiele kryteriów przewyższa listy tylko istotne, a dostęp do odniesienia eksperta podczas pisania rubryk znacząco zwiększa wydajność w dalszym etapie. Nawet rubryki napisane przez ludzi i wysokiej jakości syntetyczne rubryki osiągają porównywalne wyniki, co sugeruje skalowalność.
RaR generalizuje Uczenie przez Wzmocnienie z Weryfikowalnymi Nagrodami (RLVR): gdy rubryka ma tylko jedno sprawdzenie poprawności, ramy te zbieżają do dokładnego nagrody RLVR. Ekspozycja każdego aspektu jakości w sposób jawny sprawia, że RaR jest bardziej przejrzyste, audytowalne i potencjalnie trudniejsze do oszukania niż modele nagród neuronowych. Autorzy omawiają rozszerzenia do rzeczywistych zadań agentowych, dynamiczny program nauczania za pomocą wag rubryk oraz formalne badania odporności.
--
Co miesiąc publikowanych jest ponad 500 000 stron badań na @arXiv. Ukryte w nich są przełomowe spostrzeżenia, które mogą przekształcić Twoją pracę — ale ich znalezienie jest jak szukanie diamentów w oceanie danych. @yesnoerror przerywa hałas, aby wydobyć najbardziej wpływowe badania dla Twoich projektów, inwestycji i odkryć.
// $yne

2,49K
Użytkownik Matt Schlicht udostępnił ponownie
W ukryciu w planie działania AI Ameryki @sriramk znajduje się poparcie dla tego, że rynek komputerowy w USA będzie finansowany za pomocą kontraktów spot i forward. Ten podcast wyjaśnia, dlaczego jest to tak konieczne, nie tylko dla spekulacji.
Jednym z najbardziej konsekwentnych tematów w relacjach @latentspacepod na temat infrastruktury GPU/rynków neocloud (zobacz @evanjconrad/@sfcompute, @vipulved/@togethercompute, @picocreator/@featherlessai, @bernhardsson/@modal_labs, ale także rozmowę AIE @zjasper666) jest to, że status quo 3-letnich umów długoterminowych z hyperscalerami powoduje niespotykaną zmienność rynku i nieefektywność, nie tylko w cenach GPU i wzlotach oraz upadkach fortun startupów, ale także nieefektywność w pomysłach i zasobach dla otwartej AI i badań.
Teraz rząd USA w pełni wspiera ten ruch, a co najważniejsze, wykazał, że *rozumie to*.

51,36K
PRZEŁOM: Mark Zuckerberg zaoferował @nikitabier 100 milionów dolarów, aby opuścił @elonmusk i @x, aby dołączyć do @meta i prowadzić produkt AI dla konsumentów, właśnie udzielił wywiadu na żywo w @tbpn.


Nikita Bier23 lip, 14:57
Zdecydowana większość „rozwoju produktu” dla dojrzałego produktu to po prostu aktualizacja starych, zaniedbanych procesów, które nigdy nie były porównywane z aplikacjami konkurencji.
Zaskakujące, jak łatwo można przeoczyć główne punkty wejścia do aplikacji — ponieważ „tak zawsze było”.
Nie jest rzadkością znaleźć jednowierszowe zmiany w kodzie, które poprawiają metryki o ponad +10% z dnia na dzień.
2,51K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi