量子运行

图片来源：

iStock

带人类反馈的强化学习：微调人工智能

具有人类反馈的强化学习（RLHF）正在缩小技术与人类价值观之间的差距。

作者：
作者姓名
量子运行远见
2024 年 3 月 7 日

洞察总结

基于人类反馈的强化学习 (RLHF) 是一种人工智能 (AI) 训练方法，可利用人类输入对模型进行微调，使其更好地符合人类意图。这种方法涉及根据人类反馈创建奖励模型，以提高预训练模型的性能。虽然 RLHF 承诺提供负责任的人工智能，但它面临着潜在的不准确性和道德准则的需要。

具有人类反馈背景的强化学习

基于人类反馈的强化学习 (RLHF) 是一种训练人工智能模型的方法，旨在使它们更符合人类的意图和偏好。 RLHF 将强化学习与人工输入相结合，以微调机器学习 (ML) 模型。这种方法不同于监督学习和无监督学习，并且受到了广泛关注，特别是在 OpenAI 使用它来训练 InstructGPT 和 ChatGPT 等模型之后。

RLHF 背后的核心概念涉及三个关键阶段。首先，选择预训练模型作为主要模型，由于训练需要大量数据，这对于语言模型至关重要。其次，创建一个单独的奖励模型，该模型使用人类输入进行训练（向人类提供模型生成的输出，并要求根据质量对它们进行排名）。该排名信息被转换为评分系统，奖励模型使用该系统来评估主要模型的性能。在第三阶段，奖励模型评估主模型的输出并提供质量分数。然后，主模型使用此反馈来增强其未来的性能。

虽然 RLHF 有望改善人工智能与人类意图的一致性，但即使经过微调，模型响应仍然可能不准确或有毒。此外，与无监督学习相比，人类的参与相对缓慢且昂贵。人类评估者之间的分歧和奖励模型中的潜在偏差也是值得关注的问题。然而，尽管存在这些限制，该领域的进一步研究和开发可能会使人工智能模型更安全、更可靠、对用户更有利。

破坏性影响

RLFH 的一项重要意义是它有潜力培育更负责任、更道德的人工智能系统。由于 RLHF 使模型能够更好地符合人类价值观和意图，因此它可以减轻与人工智能生成的内容相关的风险，这些内容可能是有害的、有偏见的或不准确的。政府和监管机构可能需要制定在人工智能系统中部署 RLHF 的指南和标准，以确保其使用符合道德规范。

对于企业而言，RLHF 提供了增强客户体验和优化运营的宝贵机会。公司可以使用 RLHF 开发人工智能驱动的产品和服务，以更好地理解和迎合客户的偏好。例如，个性化产品推荐和量身定制的营销活动可以变得更加准确，最终提高客户满意度和更高的转化率。此外，RLHF还可以根据实时数据和用户反馈优化决策，从而简化供应链管理和资源分配等内部流程。

在医疗保健领域，人工智能驱动的诊断和治疗建议可能会变得更加可靠并且以患者为中心。此外，个性化的学习体验可以在教育中进一步完善，确保学生获得量身定制的支持，以最大限度地发挥他们的学术潜力。政府可能需要投资人工智能教育和培训项目，让劳动力具备利用 RLHF 优势所需的技能。