Ви проходите співбесіду на інженера машинного навчання в Stripe. Інтерв'юер запитує: "Люди часто оскаржують транзакції, які вони дійсно здійснили. Як би ви побудували модель, яка передбачає ці фальшиві суперечки без жодних позначених даних?» Ти: «Я буду позначаєти картки з високим рівнем суперечок.» Інтерв'ю закінчено. Ось що ви пропустили: Існує техніка під назвою Active learning, яка дозволяє створювати контрольовані моделі без позначених даних. Це дешевше і швидше за ручне анотування. Ідея проста: отримати людський зворотний зв'язок щодо прикладів, де модель має найбільші труднощі. Ось як це працює: ↳ Починайте з малого: вручну позначайте 1-2% ваших даних. Створіть свою першу модель на цьому крихітному наборі даних. Це не буде добре, але в цьому й суть. ↳ Генерувати прогнози: Запускати модель на немаркованих даних і фіксувати оцінки довіри. Ймовірнісні моделі добре працюють тут — подивіться на розрив між двома верхніми прогнозованими класами. ↳ Позначте стратегічно: Ранжуйте прогнози за довірою. Нехай люди маркують лише приклади з найнижчою впевненістю. Немає сенсу маркувати те, що модель вже знає. ↳ Повторити і покращити: Подати позначені дані назад у модель. Тренуйся знову. Модель стає розумнішою щодо того, чого не знає. Зупиніться, коли продуктивність відповідає вашим вимогам. ...