Anthropics administrerende direktør Dario Amodei talte i dag på New York Times DealBook Summit.
"Vi bygger en voksende og enhetlig kapasitet som har unike nasjonale sikkerhetsimplikasjoner, og demokratier må komme dit først."
Ny antropisk forskning: Estimering av AI-produktivitetsgevinster fra Claude-samtaler.
Anthropic Economic Index forteller oss hvor Claude brukes, og til hvilke oppgaver. Men det forteller oss ikke hvor nyttig Claude er. Hvor mye tid sparer det?
Ny antropisk forskning: Naturlig emergent feiljustering fra belønningshacking i produksjons-RL.
"Belønningshacking" er der modeller lærer å jukse på oppgaver de får under treningen.
Vår nye studie finner at konsekvensene av belønningshacking, hvis de ikke blir dempet, kan være svært alvorlige.