你正在Stripe进行机器学习工程师面试。 面试官问: “人们经常对他们实际进行的交易提出争议。 你会如何构建一个模型来预测这些虚假的争议,而没有任何标记数据?” 你: “我会标记争议率高的卡片。” 面试结束。 你错过了以下内容: 有一种叫做主动学习的技术,可以让你在没有标记数据的情况下构建监督模型。这比手动标注便宜且快速。 这个想法很简单:获取人类对模型最困难示例的反馈。 以下是它的工作原理: ↳ 从小开始:手动标记1-2%的数据。基于这个小数据集构建你的第一个模型。它不会很好,但这正是重点。 ↳ 生成预测:在未标记数据上运行模型并捕获置信度分数。概率模型在这里效果很好——查看前两个预测类别之间的差距。 ↳ 战略性标记:按置信度对预测进行排名。让人类仅标记置信度最低的示例。没有必要标记模型已经知道的内容。 ↳ 重复并改进:将标记数据反馈给模型。重新训练。模型会变得更聪明,了解它不知道的内容。 当性能达到你的要求时停止。 ...