大语言模型对齐研究综述

刘昆麟, 屈新纪, 谭芳, 康红辉, 赵少伟, 施嵘

doi:10.11959/j.issn.1000-0801.2024151

Dianxin kexue (Jun 2024)

大语言模型对齐研究综述

刘昆麟, 屈新纪, 谭芳, 康红辉, 赵少伟, 施嵘

Affiliations

刘昆麟, 屈新纪, 谭芳, 康红辉, 赵少伟, 施嵘

DOI: https://doi.org/10.11959/j.issn.1000-0801.2024151
Journal volume & issue: Vol. 40, no. 6
pp. 173 – 194

Abstract

Read online

随着人工智能技术的飞速发展，大语言模型已在众多领域得到了广泛应用。然而，大语言模型可能会生成不准确、有误导性甚至有害的内容，这引发了人们对大语言模型可靠性的担忧，采用对齐技术来确保大语言模型的行为与人类价值观一致已经成为一个亟待解决的问题。对近年来大语言模型对齐技术的研究进展进行综述。介绍了常用的指令数据收集方法和人类偏好数据集，概述了监督调整和对齐调整的相关研究，讨论了模型评估常用的数据集和方法，总结并展望了未来的研究方向。

Published in Dianxin kexue

ISSN: 1000-0801 (Print)
Publisher: Beijing Xintong Media Co., Ltd
Country of publisher: China
LCC subjects: Technology: Electrical engineering. Electronics. Nuclear engineering: Telecommunication
Website: http://www.infocomm-journal.com/dxkx/EN/1000-0801/home.shtml

About the journal

Abstract

Keywords