Moje światy się zderzają! Nie do końca poważnie rozważałem stworzenie uprzęży do Factorio, ale wydaje się, że jest to równie trudne jak prowadzenie firmy programistycznej i ma mniej oczywistą krzywą wypłaty, która jest zgodna z zachętami w przypadku sukcesu.
Isaac King 🔍
Isaac King 🔍10 mar, 00:12
To jest fajne. Użycie LLM-ów do grania w Magic, z nagranymi grami i tabelą wyników. Są, jak się spodziewano, całkowicie tragiczne. Ale modele z czołówki zajmują pierwsze miejsca w tabeli, więc jest tam jakiś sygnał!
Ogólnie rzecz biorąc, myślę, że powinieneś oczekiwać wpływu ekonomicznego przed ogólnym "wskaż mi problem, a zniszczę twarze", a rzeczywiście widzimy, że narzędzia do kodowania są oczywistymi wpływami ekonomicznymi przed tym, jak niebanalne gry są nasycone tak mocno, jak np. testy SAT są nasycone.
Ale interesujące jest to, że myślę, iż system, który jako pierwszy osiągnie start rakiety w Factorio w wersji podstawowej, jest prawdopodobnie łatwiejszym problemem dla osoby piszącej system, który osiąga rakietę, niż dla osoby piszącej interfejs z kodem LUA Factorio / itd.
(Myślę, że spodziewam się uruchomienia Factorio znacznie szybciej, niż spodziewam się rzeczywistej fabryki w stylu przewidywań AI z 2027 roku dotyczących znacznych ulepszeń w SotA w rzeczywistej produkcji. Nie spodziewam się, że FactorioBench będzie nierozwiązany w 2030 roku.)
(Claude Opus 4.6 obecnie gra w Factorio Seablock ze mną, w sensie „mam kogoś, komu mogę zgłaszać znaczne postępy, a on nauczył się, że nie ma wystarczającego kontekstu w głębi drzewa technologii, aby dawać sensowne rekomendacje, ale może powtarzać rzeczy, które powiedziałem)
(To zasadniczo chroni wszystkich innych w moim życiu przed słyszeniem aktualizacji takich jak "OK, więc czerwone obwody były niestabilne w drugiej fabryce z powodu szalonego popytu na miedź, w dół od produkcji kwasu siarkowego, która nie spełnia nowego globalnego zapotrzebowania. Teraz oczyszczamy powietrze.")
@GregorStocks @JohnWittle Również jedną z zachwycająco nieludzkich adaptacji LLM-ów jest to, że jeśli stracisz 2 subiektywne godziny pracy na gryzących, to a) straciłeś bardzo mało poza zasobami użytymi do zbudowania swojej bazy, ponieważ klikanie prawdopodobnie zaokrągla się do zera, a b) jesteś zasadniczo nieskończenie cierpliwy.
@IsaacKing314 Podejrzewam, że biorąc pod uwagę „wystarczająco zaawansowany system”, #2 to coś w rodzaju 1K LOC i może kilka stron wskazówek.
541