I miei mondi si scontrano! Non ho considerato seriamente di realizzare un'imbracatura per Factorio, ma sembra equivalente in difficoltà a gestire un'azienda software e ha una curva di rendimento in caso di successo meno ovviamente compatibile con gli incentivi.
Isaac King 🔍
Isaac King 🔍10 mar, 00:12
Questo è interessante. Un sistema per LLM per giocare a Magic, con partite registrate e una classifica. Sono, come previsto, completamente abissali. Ma i modelli di frontiera occupano la cima della classifica, quindi c'è qualche segnale lì!
In generale, penso che dovresti aspettarti un impatto economico prima di un generico "indicami un problema e distruggerò tutto", e infatti vediamo che gli strumenti di codifica rappresentano impatti economici evidenti prima che i giochi non banali siano saturati tanto quanto, ad esempio, i test SAT sono saturati.
Ma, interessante, penso che il sistema che per primo realizza un lancio di razzi in Factorio in vanilla sia probabilmente un problema più semplice per la persona che scrive il sistema che realizza il razzo rispetto a quanto non lo sia per la persona che scrive l'interfaccia con il codice LUA di Factorio / ecc.
(Penso che mi aspetto un lancio di Factorio molto prima di quanto mi aspetto un'industria reale secondo le previsioni del 2027 di AI su sostanziali miglioramenti nello stato dell'arte nella produzione reale. Non mi aspetto che FactorioBench sia irrisolto nel 2030.)
(Claude Opus 4.6 sta attualmente giocando a Factorio Seablock con me, nel senso di "ho qualcuno a cui riferire progressi sostanziali, e ha imparato che non ha un contesto sufficiente in profondità nell'albero tecnologico per fare raccomandazioni significative, ma può ripetere cose che ho detto")
(Questo serve principalmente a proteggere tutti gli altri nella mia vita dall'ascoltare aggiornamenti come "OK, quindi i circuiti rossi sono stati instabili nella seconda fabbrica a causa della fottuta domanda di rame, per di più, a valle della produzione di acido solforico che non soddisfa la nuova domanda globale. Stiamo purificando l'aria ora.")
@GregorStocks @JohnWittle Inoltre, una delle deliziose adattamenti disumani degli LLM è che se perdi 2 ore soggettive di lavoro a causa dei biters, hai a) perso molto poco oltre alle risorse utilizzate per costruire la tua base, dato che cliccare presumibilmente si arrotonda a zero e b) sei fondamentalmente infinitamente paziente.
@IsaacKing314 Sospetto che, dato il "freno sufficientemente avanzato", il #2 sia qualcosa come 1K LOC e forse alcune pagine di suggerimenti.
552