Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mesmo após o acentuado progresso dos últimos 3 meses, continua a ser verdade que o desempenho da AI está ligado à familiaridade com a tarefa. Em domínios que podem ser amostrados densamente (via geração + verificação programática), o desempenho é efetivamente ilimitado e continuará a aumentar a partir dos níveis atuais. Em domínios novos e desconhecidos, o desempenho permanece baixo e o progresso adicional ainda requer novas ideias, não apenas mais dados e capacidade de computação.

Há 13 horas
Ok, acho que o meu experimento de deixar a AI a trabalhar em coisas 24/7 termina aqui. Não está a funcionar. O código explode em complexidade, os resultados não são assim tão bons, a AI não consegue ultrapassar barreiras difíceis (ainda é completamente incapaz de até *compreender* o SupGen), e é incrivelmente cara (gastei cerca de 1k nos últimos 2 dias). Os melhores resultados estão no compilador JS, principalmente porque é familiar (comparado com inets), mas não vale a pena perder o controlo sobre a base de código.
Acho que o sonho de ter AIs a trabalhar em segundo plano e a fazer progressos reais em coisas que importam (ou seja, coisas verdadeiramente novas) ainda não chegou. Ainda é uma máquina presa aos seus próprios dados de treino, incapaz de pensar fora da caixa. É ótima para construir coisas que já foram construídas. Mas não para coisas novas.
Além disso, programar normalmente tem a vantagem subestimada de que estás a fazer duas coisas ao mesmo tempo: a construir uma base de código *e* a aprendê-la. As AIs fazem apenas metade disso. A outra metade é obviamente impossível 🤔
Para benchmarks que visam tarefas novas, uma forma comum de manipulação de benchmark que arbitrage este gap é gerar uma amostragem densa de tarefas potenciais, parametrizando manualmente o espaço e depois forçando-o. Muito caro, mas funciona. Há pouco que se possa fazer para restaurar a validade do benchmark aqui, além de aumentar a dimensionalidade do espaço da tarefa.
29
Top
Classificação
Favoritos
