Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

swyx
Alcance a ambição com intencionalidade, intensidade e integridade
- @smol_ai
- @dxtipshq
- @sveltesociety
- @aidotengineer
- @coding_career
- @latentspacepod
Os agentes ambientais vão dominar completamente o resto de 2025:
1. O trabalho profundo / foco humano requer pelo menos 1-2 horas ininterruptas
2. por EOY todos os modelos nextgen * passarão a barreira METR de autonomia de 1-2 horas
∴ eles serão usados de maneiras completamente diferentes da atual fronteira de autonomia de 1 a 15 minutos.
*(arreios incluídos)

16,08K
Momento de amnésia real de Gell Mann 10 minutos ouvindo a discussão @twentyminutevc percebendo que Jason Lemkin não tem ideia sobre a diferença entre a API Claude e o código Claude e imagina que todo mundo está codificando em torno de bancos de dados de produção desajeitados como ele em seu 11º dia de codificação
o que estamos fazendo aqui


4,07K
Trabalho incrível em esteganografia de alinhamento de bolsistas antrópicos
Tenho procurado uma explicação straussiana de por que a China continua publicando modelos abertos pela bondade de seus corações
Se você fizer coisas como usar modelos abertos para, idk, limpar * ahem * sinteticamente parafrasear seus dados para a qualidade do livro didático, você pode muito bem importar vieses que não pode detectar até muito depois de ser tarde demais.
então, se você deseja exportar seu sistema de valores para o resto do mundo, esta é a ferramenta Soft Power mais poderosa inventada desde Hollywood.
Para ser super claro, não temos nenhuma prova real de que isso motive qualquer um dos laboratórios chineses. Mas este artigo é um passo claro em direção a uma possível explicação.


Owain Evans23 de jul., 00:06
Novo papel e resultado surpreendente.
Os LLMs transmitem características para outros modelos por meio de sinais ocultos nos dados.
Conjuntos de dados que consistem apenas em números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵

43,88K
parabéns a Bee por ter sido escolhida pela Amazon; semelhante ao Blink, Ring, Eero e, claro, o novo Claude + Nova + Alexa, acho que @panos_panay está montando um segundo ato bastante sólido da estratégia de hardware de IA da Amazon
sabia que Bee estava ganhando quando @dharmesh apareceu para sua @latentspacepod balançando

14,59K
A razão pela qual a análise de LLM (e regulamentação e PMing) é difícil*
é que as DIMENSÕES relevantes continuam se movendo a cada geração do modelo de fronteira; Não basta apenas colocar seu eixo X ou Y em log scale e rastrear leis de escala, você tem que realmente fazer o trabalho para pensar em como os modelos são estruturalmente diferentes em 2025 vs 2024 vs 2023 e assim por diante
Eg
Todos focados no Elo por 2 anos, Elo é enganado e perde credibilidade
Todos focados no preço por tokens por 3 anos, os modelos de raciocínio têm variação de 10 a 40x nos tokens de saída por tarefa, o preço por token perde o significado
Colete dados o quanto quiser, mas se você estiver apenas coletando séries temporais imaculadas, pode perder de vista o quadro geral
* (e por que declarações como "engenheiro de IA não é uma coisa porque todos os engenheiros de software são engenheiros de IA" são lidar e nunca estarão certas, exceto no sentido mais trivial)

Scott Huston22 de jul., 08:30
Existe uma planilha pública de todos os principais modelos de LLM de diferentes empresas mostrando seus preços, pontuações de benchmark, pontuações de elo de arena, etc?
10,11K
swyx repostou
Se, como @sgrove propõe, as especificações são o código do futuro, então o que é depuração?
1) A compilação de especificações é o processo de um agente de codificação transformar especificações em código
2) mais e mais "compilação" será autônoma, menos assistindo o agente trabalhar diff por diff, mais especificação dentro, código fora
3) erros de tipo -> erros de verdade: a maior parte da depuração será vasculhar os planos de pesquisa e implementação no markdown para encontrar a única linha de contexto incorreto que faz com que o agente de codificação não tenha sucesso ao implementar. Os conjuntos de testes, entre outras coisas, verificarão a verdade e a consistência lógica.
4) Há um novo sabor de ordem superior de "anexar um depurador de etapas" que está observando o agente implementar um plano passo a passo para identificar o erro lógico na especificação. Quando você encontra um erro ao percorrer um programa linha por linha, você altera o código, reinicia o processo e repete até que esteja funcionando. Quando você encontra um erro em uma *especificação* ao percorrer uma implementação, você faz o upstream, corrige a especificação e reinicia a *implementação*
10,28K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável