Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Bliźnięta - RL, CoT, wielojęzyczność. Starszy personel RS @GoogleDeepMind MTV. 🇯🇵 -urodzony 🇨🇳🇨🇦 . np.: @OpenAI (JP: @shanegJP)
Po LATACH czekania i niepewności, zielone karty dla mojej rodziny zostały zatwierdzone, a my przeprowadziliśmy się do Doliny Krzemowej z Japonii w zeszłym tygodniu. Jestem w Bay od 2012 roku na zmianę, ale to jest najciekawszy czas, aby tu być. Cieszę się, że dołączam do moich wspaniałych kolegów i tworzę ASI🔥

25,55K
Użytkownik Shane Gu udostępnił ponownie
🚨 Matematyka olimpijska + AI:
Uruchomiliśmy Google’a Gemini 2.5 Pro na świeżych problemach IMO 2025. Przy starannym podpowiadaniu i projektowaniu pipeline'u, rozwiązał 5 z 6 — to niezwykłe w przypadku zadań wymagających głębokiego wglądu i kreatywności.
Model mógłby zdobyć złoto! 🥇
#AI #Matematyka #LLMs #IMO2025
269,49K
Azjaci: naprawimy nasz własny bałagan

Patrick Shen18 lip, 03:03
Na ich premierze Cluely twierdził, że zlikwiduje 9 branż.
Jesteśmy tutaj, aby zlikwidować tylko jedną: oszustwa.
Poznaj Truely — narzędzie open-source, które w czasie rzeczywistym oznacza wywiady wspomagane przez AI. Działa z Zoom, Meets, Teams i innymi.
Przyszłość internetowych wywiadów jest tutaj.
2,06K
Aby walczyć z Azjatami, potrzebujesz Azjatów

Patrick Shen18 lip, 03:03
Na ich premierze Cluely twierdził, że zlikwiduje 9 branż.
Jesteśmy tutaj, aby zlikwidować tylko jedną: oszustwa.
Poznaj Truely — narzędzie open-source, które w czasie rzeczywistym oznacza wywiady wspomagane przez AI. Działa z Zoom, Meets, Teams i innymi.
Przyszłość internetowych wywiadów jest tutaj.
283
Dlaczego zespoły przedtreningowe i potreningowe muszą się dogadywać

David Mizrahi18 lip, 06:21
Cieszymy się, że możemy podzielić się naszą nową pracą: „Modele językowe poprawiają się, gdy dane do wstępnego uczenia pasują do docelowych zadań”
Tak, to brzmi oczywiście (i tak jest!), ale zazwyczaj dzieje się to tylko pośrednio i niejawnie: intuicyjnie wybieraj dane → benchmark → udoskonalaj → powtarzaj.
Zastanawialiśmy się: co się stanie, jeśli jawnie dopasujemy dane do wstępnego uczenia do benchmarków? Wynik to bardzo proste podejście, które daje 2x+ mnożniki obliczeniowe w porównaniu do silnych bazowych modeli i daje nam zasadniczy sposób na badanie, jak wybory benchmarków kształtują (i ograniczają!) możliwości modeli.
Bonus: obszerne prawa skalowania z treningu 500+ modeli, które ujawniają, jak optymalny wybór danych ewoluuje w miarę skalowania modeli.
🧵 (1/14)

2,73K
Zespół Grok internalizuje operacje związane z danymi ludzkimi (np. rekrutacja na stanowisko tutora AI dla Japończyków). Prawdopodobnie więcej laboratoria na granicy myśli o posiadaniu i zarządzaniu pracą z danymi.

Koki Ikeda | SoftBank15 lip, 22:12
"xAI," które rozwija Grok, poszukuje japońskiego nauczyciela AI.
Praca polega na etykietowaniu i adnotowaniu japońskich tekstów, danych audio i wideo. Możesz pracować całkowicie zdalnie z Japonii, a wynagrodzenie jest na wysokim poziomie godzinowym, odpowiadającym amerykańskim standardom.
🗣️ Rodzimy mówca języka japońskiego
🧑💻 Całkowicie zdalnie
💰 Stawka godzinowa od 35 do 65 USD (5200-9600 jenów)
🕐 Umowa na 6 miesięcy (z możliwością przedłużenia)

8,42K
Zespół Grok internalizuje operacje związane z danymi ludzkimi (np. rekrutacja na stanowisko tutora AI dla języka japońskiego). Biorąc pod uwagę przejście na Scale AI, prawdopodobnie więcej laboratoriów na granicy zacznie myśleć o posiadaniu i zarządzaniu pracą z danymi.

Koki Ikeda | SoftBank15 lip, 22:12
"xAI," które rozwija Grok, poszukuje japońskiego nauczyciela AI.
Praca polega na etykietowaniu i adnotowaniu japońskich tekstów, danych audio i wideo. Możesz pracować całkowicie zdalnie z Japonii, a wynagrodzenie jest na wysokim poziomie godzinowym, odpowiadającym amerykańskim standardom.
🗣️ Rodzimy mówca języka japońskiego
🧑💻 Całkowicie zdalnie
💰 Stawka godzinowa od 35 do 65 USD (5200-9600 jenów)
🕐 Umowa na 6 miesięcy (z możliwością przedłużenia)

380
Jeśli jesteś na ICML i interesujesz się RL lub wielojęzycznością, przywitaj się z @marafinkels! Pracowaliśmy blisko przez ostatnie kilka miesięcy, aby wdrożyć metodę RL, która rozwiązuje krytyczny problem jakości Gemini. Ma również świetne pomysły badawcze! Mam nadzieję, że Gemini x akademia pozostaną w kontakcie.

Mara Finkelstein27 lis 2024
LLM-y są zazwyczaj oceniane za pomocą automatycznych metryk na standardowych zestawach testowych, ale metryki i zestawy testowe są opracowywane niezależnie. To rodzi kluczowe pytanie: Czy możemy zaprojektować automatyczne metryki, które będą szczególnie skuteczne na zestawach testowych, które priorytetowo traktujemy? Odpowiedź: Tak!

5,81K
Użytkownik Shane Gu udostępnił ponownie
Nowy post na blogu o asymetrii weryfikacji i "prawie weryfikatora":
Asymetria weryfikacji – idea, że niektóre zadania są znacznie łatwiejsze do zweryfikowania niż do rozwiązania – staje się ważnym pomysłem, ponieważ mamy RL, które w końcu działa ogólnie.
Świetnymi przykładami asymetrii weryfikacji są takie rzeczy jak łamigłówki sudoku, pisanie kodu dla strony internetowej takiej jak Instagram oraz problemy BrowseComp (zajmuje ~100 stron internetowych, aby znaleźć odpowiedź, ale łatwo to zweryfikować, gdy już masz odpowiedź).
Inne zadania mają bliską symetrię weryfikacji, jak sumowanie dwóch 900-cyfrowych liczb lub niektóre skrypty przetwarzania danych. Jeszcze inne zadania są znacznie łatwiejsze do zaproponowania wykonalnych rozwiązań niż do ich weryfikacji (np. weryfikacja faktów długiego eseju lub stwierdzenie nowej diety, jak "jedz tylko bizon").
Ważną rzeczą do zrozumienia w kontekście asymetrii weryfikacji jest to, że można poprawić asymetrię, wykonując pewną pracę wcześniej. Na przykład, jeśli masz klucz odpowiedzi do problemu matematycznego lub jeśli masz przypadki testowe dla problemu Leetcode. To znacznie zwiększa zestaw problemów z pożądaną asymetrią weryfikacji.
"Prawo weryfikatora" stwierdza, że łatwość trenowania AI do rozwiązania zadania jest proporcjonalna do tego, jak weryfikowalne jest to zadanie. Wszystkie zadania, które można rozwiązać i łatwo zweryfikować, będą rozwiązane przez AI. Zdolność do trenowania AI do rozwiązania zadania jest proporcjonalna do tego, czy zadanie ma następujące cechy:
1. Obiektywna prawda: wszyscy zgadzają się, jakie są dobre rozwiązania
2. Szybka weryfikacja: każda dana odpowiedź może być zweryfikowana w kilka sekund
3. Skalowalna weryfikacja: wiele rozwiązań może być weryfikowanych jednocześnie
4. Niski szum: weryfikacja jest jak najbardziej skorelowana z jakością rozwiązania
5. Ciągła nagroda: łatwo jest ocenić jakość wielu rozwiązań dla jednego problemu
Jednym oczywistym przykładem prawa weryfikatora jest fakt, że większość benchmarków proponowanych w AI jest łatwa do weryfikacji i jak dotąd zostały rozwiązane. Zauważ, że praktycznie wszystkie popularne benchmarki w ciągu ostatnich dziesięciu lat spełniają kryteria #1-4; benchmarki, które nie spełniają kryteriów #1-4, miałyby trudności z zyskiwaniem popularności.
Dlaczego weryfikowalność jest tak ważna? Ilość uczenia się w AI, która zachodzi, jest maksymalizowana, gdy powyższe kryteria są spełnione; można wykonać wiele kroków gradientowych, gdzie każdy krok ma dużo sygnału. Szybkość iteracji jest kluczowa – to powód, dla którego postęp w świecie cyfrowym był znacznie szybszy niż postęp w świecie fizycznym.
AlphaEvolve z Google jest jednym z największych przykładów wykorzystania asymetrii weryfikacji. Skupia się na ustawieniach, które spełniają wszystkie powyższe kryteria i doprowadziło to do wielu postępów w matematyce i innych dziedzinach. Różni się to od tego, co robiliśmy w AI przez ostatnie dwie dekady, to nowy paradygmat, w którym wszystkie problemy są optymalizowane w ustawieniu, gdzie zbiór treningowy jest równy zbiorowi testowemu.
Asymetria weryfikacji jest wszędzie i ekscytujące jest rozważanie świata poszarpanej inteligencji, gdzie wszystko, co możemy zmierzyć, zostanie rozwiązane.

298,83K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi