Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.
Adoro l'espressione “cibo per la mente” come una capacità cognitiva concreta e misteriosa che gli esseri umani sperimentano, ma che i LLM non hanno un equivalente.
Definizione: “qualcosa che vale la pena di riflettere o considerare, come un pasto mentale che nutre la tua mente con idee, intuizioni o questioni che richiedono una riflessione più profonda. Viene usato per argomenti che sfidano la tua prospettiva, offrono una nuova comprensione o ti fanno riflettere su domande importanti, fungendo da stimolo intellettuale.”
Quindi, nel linguaggio dei LLM, è una sequenza di token tale che, quando usata come input per una catena di pensieri, i campioni sono gratificanti da seguire, tramite una qualche funzione di ricompensa intrinseca ancora da scoprire. Ossessionato da quale forma prenda. Cibo per la mente.
177
Nuovo post veloce: Valutazione automatica delle discussioni di Hacker News di un decennio fa con il senno di poi
Ho preso tutti i 930 articoli+discussioni in prima pagina di Hacker News di dicembre 2015 e ho chiesto all'API di pensiero GPT 5.1 di fare un'analisi retrospettiva per identificare i commenti più/meno perspicaci. Questo ha richiesto circa 3 ore per vibrare il codice e circa 1 ora e 60 dollari per eseguire. L'idea è stata ispirata dall'articolo di HN di ieri in cui a Gemini 3 è stato chiesto di immaginare la prima pagina di HN un decennio avanti.
Più in generale:
1. l'analisi retrospettiva mi ha sempre affascinato come modo per addestrare il tuo modello di previsione futura, quindi leggere i risultati è davvero interessante e
2. vale la pena riflettere su come sarà quando le menti megagalattiche degli LLM del futuro potranno fare questo tipo di lavoro a un costo molto inferiore, più velocemente e meglio. Ogni singolo bit di informazione che contribuisci a Internet può (e probabilmente sarà) scrutinato in grande dettaglio se è "gratuito". Ecco anche il mio tweet precedente di un po' di tempo fa - "fai il bene, i futuri LLM ti stanno osservando".
Congratulazioni ai primi 10 account pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth e johncolanduoni - GPT 5.1 Thinking ha trovato i vostri commenti i più perspicaci e illuminati di tutti i commenti di HN di dicembre 2015.
Link:
- Molti più dettagli nel mio post sul blog
- Repo GitHub del progetto se vuoi provare
- Le pagine dei risultati effettivi per il tuo piacere di lettura

718
Nell'episodio di oggi dell'orrore della programmazione...
Nella documentazione di Python per random.seed(), ci viene detto
"Se a è un int, viene usato direttamente." [1]
Ma se semini con 3 o -3, ottieni effettivamente lo stesso oggetto rng, producendo gli stessi flussi. (TIL). In nanochat stavo usando il segno come un modo (che pensavo fosse) intelligente per ottenere diverse sequenze rng per le suddivisioni train/test. Da qui un bug complicato perché ora train=test.
Ho trovato il codice CPython responsabile in cpython/Modules/_randommodule.c [2], dove alla riga 321 vediamo in un commento:
"Questo algoritmo si basa sul fatto che il numero sia unsigned. Quindi: se l'argomento è un PyLong, usa il suo valore assoluto." seguito da
n = PyNumber_Absolute(arg);
che chiama esplicitamente abs() sul tuo seme per renderlo positivo, scartando il bit di segno.
Ma questo commento è in realtà sbagliato/misleading anche. Sotto il cofano, Python chiama l'algoritmo Mersenne Twister MT19937, che nel caso generale ha 19937 bit di stato (non zero). Python prende il tuo int (o altri oggetti) e "distribuisce" quelle informazioni su questi bit. In linea di principio, il bit di segno potrebbe essere stato usato per aumentare i bit di stato. Non c'è nulla nell'algoritmo che "si basa sul fatto che il numero sia unsigned". È stata presa la decisione di non incorporare il bit di segno (che imo era un errore). Un esempio banale potrebbe essere stato mappare n -> 2*abs(n) + int(n < 0).
Infine, questo ci porta al contratto di random di Python, che non è nemmeno completamente esplicitato nella documentazione. Il contratto che viene menzionato è che:
seme uguale => sequenza uguale.
Ma non viene garantito che semi diversi producano sequenze diverse. Quindi, in linea di principio, Python non fa promesse che ad esempio seed(5) e seed(6) siano flussi rng diversi. (Anche se questo è comunemente assunto implicitamente in molte applicazioni.) Infatti, vediamo che seed(5) e seed(-5) sono flussi identici. E probabilmente non dovresti usarli per separare i tuoi comportamenti train/test nel machine learning. Uno dei più divertenti errori di programmazione che ho incontrato recentemente. Ci vediamo nel prossimo episodio.
[1]
[2]

508
Principali
Ranking
Preferiti
