トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

swyx
意図性、強度、誠実さをもって野心を達成する
- @smol_ai
- @dxtipshq
- @sveltesociety
- @aidotengineer
- @coding_career
- @latentspacepod
LLM分析(および規制、PMing)が難しい理由*
関連する DIMENSIONS は、フロンティア モデルの世代ごとに動き続けるということです。X 軸または Y 軸を対数スケールにしてスケーリングの法則を追跡するだけでは十分ではなく、2025 年、2024 年、2023 年など、モデルが構造的にどのように異なるかを実際に考える作業を行う必要があります
例えば
みんな2年間Eloに集中し、Eloはゲームに遭い、信頼を失う
誰もが 3 年間トークンあたりの価格に焦点を当て、推論モデルにはタスクごとの出力トークンに 10-40 倍の変動があり、トークンあたりの価格は意味を失います
必要なだけデータを収集できますが、原始的な時系列を収集しているだけの場合は、全体像を見失う可能性があります
*(そして、「すべてのソフトウェアエンジニアはAIエンジニアだからAIエンジニアは存在しない」というような発言は対処であり、最も些細な意味を除いて決して正しくない理由)

Scott Huston7月22日 08:30
価格、ベンチマークスコア、アリーナeloスコアなどを示す、さまざまな企業のすべての主要なLLMモデルの公開スプレッドシートはありますか?
9.72K
swyx reposted
🆕 RL + Reasoningトラック全体をリリースします!
特徴:
• @willccbb、プライムインテリクト
• @GregKamradt、アーク賞
- @natolambert、AI2/インターコネクト
• @corbtt、OpenPipe
• @achowdhery、リフレクション
• @ryanmart3n、オーダーメイド
• @ChrSzegedy、モーフ
特別な3時間のワークショップ付き:
アンスロスの@danielhanchen!
ここから始めましょう:
楽しい週末の観戦を!そして、このトラックをサポートし、主催してくれた@OpenPipeAIに感謝します!

106.66K
swyx reposted
@sgroveが提案するように、仕様が未来のコードであるならば、デバッグとは何でしょうか?
1) 仕様コンパイルは、コーディングエージェントが仕様をコードに変換するプロセスです
2)ますます多くの「コンパイル」が無人になり、エージェントが差分ごとに動作するのを見ることが少なくなり、仕様が増え、コードが出力されます
3) タイプエラー -> 真実エラー : ほとんどのデバッグは、Markdown の調査と実装計画を掘り下げて、コーディングエージェントが実装時に成功しない原因となる誤ったコンテキストの 1 行を見つけることです。テストスイートは、とりわけ、真実性と論理的一貫性をチェックします。
4) 「ステップデバッガのアタッチ」という新しい高次のフレーバーがあり、エージェントが仕様のロジックエラーを特定するために計画を段階的に実装するのを監視しています。プログラムを行ごとにステップ実行するときにエラーが見つかった場合は、コードを変更し、プロセスを再起動し、機能するまで繰り返します。実装のステップ実行中に *spec* にエラーが見つかった場合は、上流に移動して仕様を修正し、*implementation* を再開します
10.27K
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable