grunnen til at llm-analyse (og regulering og PMing) er vanskelig* er at de relevante DIMENSJONENE fortsetter å bevege seg med hver generasjon av grensemodeller; Det er ikke nok å bare sette X- eller Y-aksen din i logskala og spore skaleringslover, du må faktisk gjøre jobben for å tenke på hvordan modeller er strukturelt forskjellige i 2025 vs 2024 vs 2023 og så videre F.eks Alle fokuserte på Elo i 2 år, Elo blir spilt og mister troverdighet Alle fokuserte på pris per tokens i 3 år, resonneringsmodeller har 10-40x variasjon i utgangstokens per oppgave, pris per token mister mening Samle inn data så mye du vil, men hvis du bare samler inn uberørte tidsserier, kan du miste det større bildet av syne *(og hvorfor utsagn som "AI-ingeniør er ikke en ting fordi alle programvareingeniører er AI-ingeniører" er klare og aldri vil være riktige bortsett fra i den mest trivielle forstand)
Scott Huston
Scott Huston18 timer siden
Finnes det et offentlig regneark med alle de ledende LLM-modellene fra forskjellige selskaper som viser deres priser, benchmark-score, arena elo-score osv.?
8,52K