第一步,教ChatGPT如何回答问题
最开始,ChatGPT其实像个小孩
智商并不高
比如你问它一个问题
↓
一个问题,可能出来A、B、C、D...个答案
其实GPT很难理解人类蕴含不同意图
也很难判断哪个答案质量更高
如何引导GPT输出更高质量的答案?
据美国《时代周刊》上月中旬的报道,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。时薪1.32~2美元,9小时阅读并标注至多20万个单词量。
但是,这远远不够
第二步,训练奖励模型
教ChatGPT如何更高质量地回答问题
系统会随机抽取一批新问题
这些问题大部分和第一阶段类似
这时候,ChatGPT
会生成了N个不同的答案,比如
↓
这时候,伟大的人类老师再次上场了
人类老师对N个输出答案质量
进行综合排序
排序的参考维度有很多
比如:关联性、法律法规、暴力、种族歧视等
然后利用人类老师的标注过的数据集
包括问题、答案、人类打分
来训练一个重要的模型
↓
【Reward Model-奖励模型】
即RM模型
这个模型有点像卡拉OK的打分系统
唱完一首歌,给你打分
RM模型对每个答案进行打分反馈
这让ChatGPT越来越能懂人类深层意思
不断打分,不断精进答案质量
到了这一步,其实还不够
如何让ChatGPT摆脱人类有限的指导
实现真正意义上的海量自我学习呢?
第三步,采用PPO强化学习算法
持续优化奖励模型
让ChatGPT持续自我进化
要脱离“人类老师”
由机器自动检查自己的学习成果
并不断做出SFT微调策略
如何自学呢?
具体这么来干
这时候,系统随机采样一批新的问题
一定是新的问题
喂给LLM(大型语言模型)
用于提高LLM的新知识的泛化能力
PPO(Proximal Policy Optimization)
是强化学习的核心算法
再把答案给到已训练好的RM奖励模型
让RM对答案质量进行评分score
这是标准的强化学习过程
这就相当于“自学”了
自己给自己出题,再对答案
根据答案,微调策略
鼓励LLM模型学习新知识并给出高质量答案
……
然后不断重复第二和第三阶段
每一轮迭代都使得LLM模型能力越来越强
通过以上三步
有人类大V说,怕它有“意识”了