panda梯子软件

从 ChatGPT 生成程式码抓错,OpenAI 开发新模型「CriticGPT」

OpenAI 研究人员微调 GPT-4 模型,训练「CriticGPT」用於找出 ChatGPT 生成程式码的错误,帮助大型语言模型生成内容更精确。

驱动 ChatGPT 背後采用了 GPT-4,OpenAI 使用基於人类意见回馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来对齐。RLHF 是一种机器学习技术,以人类的意见回馈微调模型,判断模型生成内容是否连贯、准确、不令人反感。AI 训练人员给出评分回馈到驱动模型运作的演算法。为使 ChatGPT 这类聊天机器人更可靠并防止行为不正,RLHF 扮演的角色相当重要,却使 ChatGPT 错误更加微妙、不易发现。

一篇《LLM Critics Help Catch LLM Bugs》新论文叙述,OpenAI 开发出 CriticGPT,做为 AI 训练人员的新助手,负责检视 ChatGPT 生成程式码并指出错误,帮助人们发现可能被忽略的错误。

事实上,CriticGPT 也使用 RLHF 进行训练;但与 ChatGPT 不同的是,OpenAI 研究人员故意插入大量错误程式码的资料训练 CriticGPT,教导它辨识和标记各种程式码错误,CriticGPT 必须对程式码错误做出评论。

▲ CriticGPT 找出 ChatGPT 生成程式码的错误。(Source:OpenAI Blog)

OpenAI 规划将类似 CriticGPT 的模型整合至 RLHF 标注流程中,为 AI 训练人员提供明确帮助。CriticGPT 有助於 OpenAI 训练出更强大的模型,确保生成内容值得信赖,符合人类价值观。

  • OpenAI Wants AI to Help Humans Train AI
  • OpenAI’s new “CriticGPT” model is trained to criticize GPT-4 outputs
  • OpenAI develops AI model to critique its AI models

(首图来源:Unsplash)

pandavnp合法吗

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x