Сучасні методи вирівнювання, здається, працюють досить добре у різних масштабах моделі, пережили перехід до перевірених винагород, і це принаймні має впливати на ваше прийняття рішень
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️17 бер., 03:26
Я чув, що деякі антропічні керівники з безпеки ходять і кажуть людям, що вирівнювання — це вирішена проблема. Мені це здається передбачуваним провалом, і я хотів би, щоб люди, які вважали, що спрямування таланту в антропічну техніку — це хороша ідея, щоб задуматися над цим.
«Це не масштабується до надінтелекту» базується на ідеї, що суперінтелект дуже відрізняється від сучасних моделей, що є аргументом про довгі часові рамки і має дати вам комфорт у іншому сенсі
77