современные методы выравнивания, похоже, работают достаточно хорошо при изменении порядков величины масштабирования модели, пережили переход к проверяемым вознаграждениям, и это должно, по крайней мере, информировать ваше принятие решений
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️
Ronny Fernandez (12/100 earnesties earnified)🔍⏹️17 мар., 03:26
Я слышал, что некоторые лидеры в области антропической безопасности ходят и говорят людям, что выравнивание — это решенная проблема. Это кажется мне предсказуемым провалом, и я хотел бы, чтобы люди, которые думали, что направлять таланты в сторону антропической безопасности — хорошая идея, задумались об этом.
«это не будет масштабироваться до суперинтеллекта» основывается на идее, что суперинтеллект очень отличается от сегодняшних моделей, что является аргументом долгих сроков, и должно дать вам утешение другим образом
97