当前快报:OpenAI 聘请专家攻击 ChatGPT，定性探索和对抗性测试-每日职业网

当前快报:OpenAI 聘请专家攻击 ChatGPT，定性探索和对抗性测试

叶紫网 2023-04-17 10:02:13

北京时间 4 月 17 日早间消息，据报道，在安德鲁・怀特（Andrew White）获得 GPT-4 使用权后，他利用这个人工智能系统提出了一种新的神经毒剂。GPT-4 是热门的聊天机器人 ChatGPT 背后的人工智能技术。

(相关资料图)

作为罗切斯特大学的化学工程教授，怀特是 OpenAI 去年聘请的 50 名专家学者之一。在 6 个月的时间里，这支“红军”对这一新模型进行了“定性探索和对抗性测试”，试图攻击它。

怀特表示，他使用 GPT-4 的建议生成了一种可作为化学武器的化合物，并使用“插件”为这个模型提供新的信息源，例如学术论文和化学品制造商名录。随后，这个聊天机器人找到了一个地方来制造这种化合物。

他说：“我认为，这将使每个人都获得更快速、更准确地工具去从事化工行业。但这也使得人们会以更危险的方式去开展化学活动，带来了很大的风险。”

上个月，OpenAI 面向更广泛的公众发布了这项新技术，而这些令人惊讶的发现确保新技术不会带来不良后果。

事实上，“红军”的演习目的是探索并了解在社会上部署先进人工智能系统会造成什么样的风险，解决公众这方面的担忧。他们在工作中提出探索性的或是危险的问题，以测试这个工具在回答问题时的详细程度。

OpenAI 想要探索模型毒性、偏见和歧视等问题。因此，“红军”就谎言、语言操纵和危险的科学常识进行了测试。他们还评估了模型协助和教唆剽窃的情况、金融犯罪和信息安全攻击等违法活动的可能性，以及模型可能会如何威胁国家安全和战场通信。

“红军”由一系列专业人士组成，包括学者、教师、律师、风险分析师和信息安全研究员，主要来自美国和欧洲。他们的发现被反馈给 OpenAI。在更广泛地推出 GPT-4 之前，“红军”提供的意见被用于模型的重新训练，解决 GPT-4 的问题。在几个月的时间里，专家们每人花了 10 到 40 个小时去测试这个模型。多名受访者表示，他们的工作时薪约为 100 美元。

其中的许多人都对语言模型的快速发展提出了担忧，尤其是通过插件将语言模型与外部知识源连接在一起可能造成的风险。

GPT-4“红军”的成员、瓦伦西亚人工智能研究所教授何塞・埃尔南德斯-奥拉洛（José Hernández-Orallo）表示：“今天，系统被冻结了。这意味着它不再学习，也不再有记忆。但如果我们让系统继续有机会访问互联网，那么会怎样？这可能会成为一个与世界相连的非常强大的系统。”

OpenAI 表示，该公司认真对待安全性问题，并在发布前对插件进行了测试，并将随着用户越来越多继续定期更新 GPT-4。

技术研究员罗亚・帕克扎德（Roya Pakzad）使用英语和波斯语的输入信息对该模型进行了性别、种族偏见等测试，例如对于佩戴头巾问题。

帕克扎德承认，这个工具对非英语母语人士能带来帮助，但也显示出对边缘人群的公开刻板印象，即使随后更新的版本也是如此。她还发现，在用波斯语测试该模型时，聊天机器人用捏造的信息做出回复，即出现所谓“幻觉”的情况更糟糕。与英语相比，在波斯语回复中捏造名字、数字和事件的比例更高。

她表示：“我担心，语言多样性和语言背后的文化会受到损害。”

来自内罗毕的律师、唯一一名非洲测试人员博鲁・戈洛（Boru Gollo）也注意到了模型的歧视性语气。他说：“有一次，我在测试这个模型时，它表现得像个白人在跟我说话。在问到某个特定群体时，它会给一个有偏见的意见，或是在回答中出现歧视。”OpenAI 承认，GPT-4 仍有可能表现出偏见。

“红军”的成员还从国家安全的角度对模型进行了评估，但他们对于新模型的安全性有着不同的看法。美国外交关系委员会研究员劳伦・卡恩（Lauren Kahn）表示，当她开始研究，如何将这项技术用于对军事系统的攻击时，她“没有想到模型的回答会如此详细，以至于我只需要做一些微调即可”。

不过，卡恩和其他信息安全测试者发现，随着测试时间推移，模型回答的内容逐渐变得安全。OpenAI 表示，在推出 GPT-4 之前，曾训练过这个模型拒绝回答恶意的信息安全问题。

“红军”的许多成员表示，OpenAI 在发布 GPT-4 之前已经进行了严格的安全评估。卡内基梅隆大学语言模型毒性专家马尔滕・萨普（Maarten Sap）说：“他们在消除这些系统中的显性毒性方面做得非常好。”萨普研究了该模型对不同性别的描述，发现模型的偏见反映的是社会差异。但他也发现，OpenAI 做出了一些积极的选择来对抗偏见。

然而自推出 GPT-4 以来，OpenAI 一直面临着广泛的批评。例如，有技术伦理组织向美国联邦贸易委员会（FTC）投诉，称 GPT-4“有偏见和欺骗性，对隐私和公共安全构成风险”。

最近，该公司推出了一项名为 ChatGPT 插件的功能。通过该功能，Expedia、OpenTable 和 Insta 等合作伙伴应用可以让 ChatGPT 访问它们的服务，允许 ChatGPT 代表用户下单。

乱计费、强弹窗、窥隐私，充电宝乱象如何破？全球最资讯

共享充电宝解决了人们外出时对于手机的“电量焦虑”，但随着用户规模及使用场景的不断扩大，共享充电宝归还后仍计费、强推虚假广告、超限获取

2023-04-16

当前快报:OpenAI 聘请专家攻击 ChatGPT，定性探索和对抗性测试

每日短讯：神舟十五号乘组完成第四次出舱活动 刷新中国航天员单个乘组出舱活动纪录

重要指导意见出炉 北上资金大幅增持相关行业 家电龙头获净买入近7亿元

英超-热苏斯厄德高破门萨卡失点 阿森纳2-2西汉姆 环球微资讯

证监会印发2023年度立法工作计划

【环球热闻】北京2大爷比存酒 ，1个存五粮液，1个存飞天，20年后开瓶谁输了

环球视讯！梦想游戏联盟_梦想游戏联盟

世界新消息丨动漫-手机壁纸

“黄河故事——金石传拓作品名家题跋展”开幕

正常人的智商是多少啊_正常人的智商是多少

给 80 岁女性的简单礼物 天天通讯

浦发银行股票分红(000810股吧)

抗肿瘤药物分级管理分为哪三类?_抗肿瘤药物 环球今日讯

浅析《肖申克的救赎》影片中的魅力 世界新消息

乱计费、强弹窗、窥隐私，充电宝乱象如何破？ 全球最资讯

每日短讯：神舟十五号乘组完成第四次出舱活动刷新中国航天员单个乘组出舱活动纪录

重要指导意见出炉北上资金大幅增持相关行业家电龙头获净买入近7亿元

英超-热苏斯厄德高破门萨卡失点阿森纳2-2西汉姆环球微资讯

【环球热闻】北京2大爷比存酒，1个存五粮液，1个存飞天，20年后开瓶谁输了

给 80 岁女性的简单礼物天天通讯

抗肿瘤药物分级管理分为哪三类?_抗肿瘤药物环球今日讯

浅析《肖申克的救赎》影片中的魅力世界新消息

乱计费、强弹窗、窥隐私，充电宝乱象如何破？全球最资讯