引用一副特别有意思的漫画,很贴切的说明了这个问题。

漫画图片来自于知乎网友森林之歌。

 

NewBing 为了确保输出的内容有趣、顺畅、安全、合法,需要对模型输出进行限制或者增加一些规则,根据之前来自斯坦福大学的学生 Kevin Liu 用 prompt injection 方法对 NewBing 攻击,NewBing 输出泄露了很多 prompt 规则,透过这些规则让我们更好的理解作为一个大模型提供用户服务应该注意哪些问题,要做大体哪些后面的工作。具体的规则大概有下面几类:

 

NewBing 是基于 ChatGPT 基础开发的,这里简单介绍 ChatGPT 基本原理。由于 NewBing 未公开其技术方案,根据目前对 NewBing 能力体验,以及参考网络 webGPT 及 DeepMind 对话机器人技术资料大概推演的 NewBing 的技术实现方案。

ChatGPT 整体技术方案是基于 GPT-3.5 大规模语言模型通过人工反馈强化学习来微调模型,让模型一方面学习人的指令,另一方面学习回答的好不好。

ChatGPT 的训练过程分为微调 GPT3.5 模型、训练回报模型、强化学习来增强微调模型三步:

第一步:微调 GPT3.5 模型。让 GPT 3.5 在对话场景初步具备理解人类的的意图,从用户的 prompt 集合中采样,人工标注 prompt 对应的答案,然后将标注好的 prompt 和对应的答案去 Fine-tune GPT3.5,经过微调的模型具备了一定理解人类意图的能力。