Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

swyx
Raggiungi l'ambizione con intenzionalità, intensità e integrità
- @smol_ai
- @dxtipshq
- @sveltesociety
- @aidotengineer
- @coding_career
- @latentspacepod
momento reale di amnesia di Gell-Mann, 10 minuti di ascolto della discussione su @twentyminutevc rendendomi conto che Jason Lemkin non ha idea della differenza tra Claude API e Claude Code e immagina che tutti stiano codificando a sentimento, barcollando tra i database di produzione come lui nel suo undicesimo giorno di programmazione.
cosa stiamo facendo qui?


4,04K
lavoro incredibile sulla steganografia di allineamento da parte dei ragazzi di Anthropic
sto cercando una spiegazione straussiana del perché la Cina continui a pubblicare modelli aperti per bontà d'animo
se fai cose come usare modelli aperti per, non so, pulire *ehm* parafrasare sinteticamente i tuoi dati a qualità da manuale, potresti molto bene importare pregiudizi che non puoi rilevare fino a molto tempo dopo che è troppo tardi.
quindi, se vuoi esportare il tuo sistema di valori nel resto del mondo, questo è lo strumento di Soft Power più potente inventato da Hollywood.
per essere super chiari, non abbiamo prove concrete che questo motivi alcun laboratorio cinese. ma questo documento è un chiaro passo verso una possibile spiegazione.


Owain Evans23 lug, 00:06
Nuovo documento e risultato sorprendente.
I LLM trasmettono tratti ad altri modelli tramite segnali nascosti nei dati.
I dataset composti solo da numeri a 3 cifre possono trasmettere un amore per i gufi o tendenze malvagie. 🧵

43,55K
congratulazioni a Bee per essere stato scelto da Amazon; simile a Blink, Ring, Eero e ovviamente il nuovo Claude + Nova + Alexa, penso che @panos_panay stia mettendo insieme un secondo atto piuttosto solido della strategia hardware AI di Amazon.
sapevo che Bee stava vincendo quando @dharmesh è apparso al suo @latentspacepod con uno.

14,44K
il motivo per cui l'analisi llm (e la regolamentazione, e il PMing) è difficile*
è che le DIMENSIONI rilevanti continuano a muoversi con ogni generazione di modelli all'avanguardia; non basta semplicemente mettere il tuo asse x o y in scala logaritmica e tracciare le leggi di scala, devi effettivamente fare il lavoro per pensare a come i modelli siano strutturalmente diversi nel 2025 rispetto al 2024 rispetto al 2023 e così via
eg
tutti si sono concentrati su elo per 2 anni, elo viene sfruttato e perde credibilità
tutti si sono concentrati sul prezzo per token per 3 anni, i modelli di ragionamento hanno una variazione di output di token per compito da 10 a 40 volte, il prezzo per token perde significato
raccogli dati quanto vuoi, ma se stai solo raccogliendo serie temporali pristine puoi perdere di vista il quadro più ampio
*(e perché affermazioni come “l'ingegnere AI non esiste perché tutti gli ingegneri software sono ingegneri AI” sono una giustificazione e non saranno mai corrette tranne che nel senso più triviale)

Scott Huston22 lug, 08:30
Esiste un foglio di calcolo pubblico di tutti i principali modelli LLM di diverse aziende che mostra i loro prezzi, punteggi di benchmark, punteggi elo nell'arena, ecc?
10,06K
swyx ha ripubblicato
🆕 Rilasciamo l'intero nostro percorso RL + Reasoning!
con:
• @willccbb, Prime Intellect
• @GregKamradt, Arc Prize
• @natolambert, AI2/Interconnects
• @corbtt, OpenPipe
• @achowdhery, Reflection
• @ryanmart3n, Bespoke
• @ChrSzegedy, Morph
con un workshop speciale di 3 ore da:
@danielhanchen di Unsloth!
inizia qui:
Buon weekend di visione! e grazie a @OpenPipeAI per il supporto e l'hosting di questo percorso!

106,66K
swyx ha ripubblicato
se, come propone @sgrove, le specifiche sono il codice del futuro, allora cos'è il debugging?
1) la compilazione delle specifiche è il processo attraverso il quale un agente di codifica trasforma le specifiche in codice
2) sempre più "compilazione" sarà non supervisionata, meno osservare l'agente lavorare differenza per differenza, più specifiche in, codice fuori
3) errori di tipo -> errori di verità: la maggior parte del debugging consisterà nel setacciare ricerche e piani di implementazione in markdown per trovare la riga di contesto errato che fa sì che l'agente di codifica non riesca a avere successo nell'implementazione. I test suite controlleranno, tra le altre cose, la verità e la coerenza logica.
4) c'è un nuovo sapore di ordine superiore di "attaccare un debugger a passi" che consiste nel guardare l'agente implementare un piano passo dopo passo per individuare l'errore logico nella specifica. Quando trovi un errore mentre passi attraverso un programma riga per riga, cambi il codice, riavvii il processo e ripeti fino a quando non funziona. Quando trovi un errore in una *specifica* mentre passi attraverso un'implementazione, vai a monte, correggi la specifica e riavvia l'*implementazione*.
10,28K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari