熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

swyx
以意向性、強度和完整性實現雄心壯志
- @smol_ai
- @dxtipshq
- @sveltesociety
- @aidotengineer
- @coding_career
- @latentspacepod
llm 分析(以及監管和 PMing)之所以困難*
是因為相關的 DIMENSIONS 隨著每一代前沿模型不斷變化;僅僅將 x 或 y 軸設置為對數刻度並追蹤縮放法則是不夠的,你必須實際思考模型在 2025 年、2024 年、2023 年等年份的結構性差異。
eg
everyone 專注於 elo 兩年,elo 被利用並失去可信度。
everyone 專注於每個代幣的價格三年,推理模型在每個任務的輸出代幣上有 10-40 倍的變化,每個代幣的價格失去意義。
隨便收集數據,但如果你只是收集純淨的時間序列,你可能會失去更大局面的視野。
*(以及為什麼像“ai 工程師不是一個職業,因為所有軟體工程師都是 ai 工程師”這樣的說法是自我安慰,並且在最微不足道的意義上永遠不會正確)

Scott Huston7月22日 08:30
是否有一個公開的電子表格,列出來自不同公司的所有主要 LLM 模型,顯示它們的定價、基準分數、競技場 Elo 分數等?
9.71K
swyx 已轉發
如果正如 @sgrove 所提議的,規範是未來的代碼,那麼除錯是什麼?
1) 規範編譯是編碼代理將規範轉換為代碼的過程
2) 越來越多的“編譯”將是無人值守的,少看代理逐行工作,更多的是規範進,代碼出
3) 類型錯誤 -> 真理錯誤:大多數除錯將是在 markdown 中挖掘研究和實施計劃,以找到使編碼代理在實施時無法成功的那一行錯誤上下文。測試套件將檢查真理和邏輯一致性等內容。
4) 有一種新的高階“附加步驟除錯器”的風味,即觀察代理逐步實施計劃,以確定規範中的邏輯錯誤。當你在逐行執行程序時發現錯誤時,你會更改代碼,重新啟動過程,並重複直到它正常工作。當你在逐步執行實施時發現規範中的錯誤時,你會向上游回去,修正規範,然後重新啟動 *實施*。
10.22K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可