针对经典的图灵测试,对比 NewBing 和 ChatGPT 的常识推理能力,我们可以发现 NewBing 的效果并不理想。虽然语言模型不擅长常识推理,但对比 NewBing 的结果我们可以看到还是略胜。这里可能与背后的机制有关,推理能力都依赖语料的学习,但是 ChatGPT 的语料经过筛选,相比 NewBing 网络搜索的答案质量更高。效果对比如下:

本图片引用自知乎网友纯乙酸

通过写故事案例 “为我 4 岁的女儿写一个关于我们的狗 Luna 的故事。” ,对比 ChatGPT 和 NewBing 的写作能力。上图为 ChatGPT 的写作答案,质量个人感觉更好,下图为 NewBing 的写作结果,感觉更多虚构和拼凑感。

对待用户的反驳,ChatGPT 和 NewBing 完全是两种态度。ChatGPT 即使坚信回答是对的,也会谦逊道歉不会怼用户。针对自己陌生的问题要么委婉回答要么回避。NewBing 针对用户反驳经常同样的态度反驳回来,看大量 case 有的当用户指出错误之后,它不仅否认,甚至说用户是错误的、粗鲁的,简直是在吵架。例如下面的案例,分别是 ChatGPT 和 NewBing 的回答。