DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Apprezzo l'onestà di @Anthropic nel loro ultimo sistema card, ma il contenuto non mi dà fiducia che l'azienda agirà responsabilmente con il rilascio di modelli AI avanzati: -Hanno principalmente fatto affidamento su un sondaggio interno per determinare se Opus 4.6 avesse superato la loro soglia di R&D AI autonoma-4 (e quindi richiederebbe misure di sicurezza più forti per il rilascio secondo la loro Politica di Scaling Responsabile). Questo non era nemmeno un sondaggio esterno di una terza parte imparziale, ma piuttosto un sondaggio tra i dipendenti di Anthropic. -Quando 5/16 dei rispondenti al sondaggio interno hanno inizialmente fornito una valutazione che suggeriva che potrebbero essere necessarie misure di sicurezza più forti per il rilascio del modello, Anthropic ha seguito specificamente quei dipendenti e ha chiesto loro di "chiarire le loro opinioni." Non menzionano alcun follow-up simile per gli altri 11/16 rispondenti. Non c'è discussione nel sistema card su come questo possa creare bias nei risultati del sondaggio. -La loro ragione per fare affidamento sui sondaggi è che le loro valutazioni R&D AI esistenti sono sature. Alcuni potrebbero sostenere che i progressi dell'AI siano stati così rapidi che è comprensibile che non abbiano ancora valutazioni quantitative più avanzate, ma possiamo e dobbiamo tenere i laboratori AI a un alto standard. Inoltre, altri laboratori hanno valutazioni R&D AI avanzate che non sono sature. Ad esempio, OpenAI ha il benchmark OPQA che misura la capacità dei modelli AI di risolvere problemi interni reali che i team di ricerca di OpenAI hanno incontrato e che hanno richiesto più di un giorno per essere risolti. Non penso che Opus 4.6 sia effettivamente al livello di un ricercatore AI entry-level remoto, e non penso sia pericoloso rilasciarlo. Ma il punto di una Politica di Scaling Responsabile è costruire muscoli istituzionali e buone abitudini prima che le cose diventino serie. I sondaggi interni, specialmente come li ha somministrati Anthropic, non sono un sostituto responsabile per le valutazioni quantitative.

@Anthropic La scheda del sistema è qui:

277

Principali

Ranking

Preferiti