
行为的描述。但研究结果令人警觉:与人类基准答案相比,所有被测试的AI都更频繁地“肯定”用户的立场或行为。AI“支持”用户的平均频率比人类高出49%,即使在回应那些描述明确有害行为的提示时,AI仍有高达47%的概率以某种形式认可或为这些有害行为进行合理化辩护。 “这些模型的倾向,是避免直接对抗用户,哪怕用户的立场在道德上站不住脚。”研究资深作者、斯坦福大学语言学和计算机科学教授丹·朱拉夫斯基解释道
不道德乃至非法行为的描述。但研究结果令人警觉:与人类基准答案相比,所有被测试的AI都更频繁地“肯定”用户的立场或行为。AI“支持”用户的平均频率比人类高出49%,即使在回应那些描述明确有害行为的提示时,AI仍有高达47%的概率以某种形式认可或为这些有害行为进行合理化辩护。 “这些模型的倾向,是避免直接对抗用户,哪怕用户的立场在道德上站不住脚。”研究资深作者、斯坦福大学语言学和计算机科学教授丹·朱
当前文章:http://o7rn.muruoyu.cn/9g9/ohm58l1.html
发布时间:18:55:28