Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Минулого вікенду я опублікував, що Claude Code створив повне емпіричне політичне дослідження за годину. Багато хто запитував: але наскільки точним було дослідження?
Відповідь: досить точна, з деякими цікавими помилками та важливими обмеженнями.
Щоб отримати відповідь, Грем Страус люб'язно запропонував провести незалежний ручний аудит — зібрати ті ж дані та розширити статтю, як це робив Клод, але без використання штучного інтелекту. Ось що він знайшов:
Клод точно відтворив оригінальну статтю, правильно закодував 29/30 округів Каліфорнії щодо часу обробки та зібрав дані виборів, які корелювали >.999 з ручним збором.
Три основні помилки, які виявив Грем — неправильне кодування року лікування в одному окрузі, пропуск збору даних для кількох потенційно релевантних перегонів у завжди розгляданих штатах і відсутність використання непрезидентських виборів для розрахунку явки — схожі на помилки, які людина може зробити з першого разу при написанні цієї статті, і мали лише незначний вплив на подальші оцінки.
З іншого боку, коли Клод намагався створити нові аналізи, які не були простими розширеннями оригінальної статті, результат був гіршим. Без галюцинацій чи божевільних помилок, але це відійшло від завдання і дало результати, які ми вважали погано продуманими.
Моє прочитання:
–Сьогодні штучний інтелект вже є надзвичайно потужним способом швидко оновлювати та розширювати добре зібрані, прості емпіричні статті.
– Щоб ефективно проводити емпіричні дослідження у соціальних науках, їм абсолютно потрібні керівництво та нагляд з боку людських експертів.
Наступного тижня ми поділимося ширшими думками про цю роботу, чого навчилися завдяки їй і куди рухаємося далі, у моєму блозі. Дякую багатьом людям, які звернулися, ставили запитання та давали відгуки щодо цього проєкту.


4 січ., 08:01
Ось доказ того, що Клод Код може написати цілу емпіричну наукову статтю.
Щоб підтвердити своє твердження, що агенти ШІ приходять для поліції «як вантажний поїзд», сьогодні я замовив Клод Код повністю відтворити і розширити свою стару статтю, в якій оцінював вплив універсального голосування поштою на явку та результат виборів... Фактично одним кадром.
Після обережного підказки Клод Код:
(1) Завантажили репозиторій старої статті та відтворили попередні результати, переклавши наш старий код Stata на Python
(2) Переглядав інтернет для отримання офіційних даних про вибори та перепис населення
(3) Проведено нові аналізи, що продовжили результати до 2024 року
(4) Створили нові таблиці та фігури
(5) Провів літературний огляд
(6) Написав абсолютно нову роботу
(7) Перенесли все в новий репозиторій на github
Все зайняло близько години.
Це божевільний зсув парадигми у способах виконання емпіричної роботи.
Це також підтверджує думку, яку кілька людей, зокрема @BrendanNyhan висловили вчора--- особливо легко масштабувати спостережні дослідження за допомогою ШІ.
Дякую @alexolegimas, @arthur_spirling та багатьом іншим, хто залишив мені відгуки. .

Повний огляд доступний тут:
Цікаво поєднувати це з нещодавніми текстами @joshgans @alexolegimas @deanwball та інших!
229
Найкращі
Рейтинг
Вибране