作者:京东科技 杨博
ChatGPT 才出现两个月,就已经引起了学术界的关注。
微软成为ChatGPT母公司OpenAI的合作伙伴,并确认投资百亿美元。同时,微软正计划将 OpenAI 的技术整合到其产品中,包括Bing搜索引擎和其他软件,以增强它们的能力。然而,据Insider报道,微软却警告其员工不要与人工智能 (AI) 聊天机器人(ChatGPT)共享敏感数据:“请不要将敏感数据发送到 OpenAI 端点,因为他们可能会用它来训练未来的模型”。
类似的,亚马逊最近也发出警告其员工提防 ChatGPT,一位亚马逊律师已敦促员工不要通过内部沟通形式与 ChatGPT 共享代码:“这很重要,因为您的输入可能会用作 ChatGPT 进一步迭代的训练数据,我们不希望它的输出包含或类似于我们的机密信息(目前我已经看到它的输出与现有机密材料非常匹配的实例)。”
随着大公司对数据隐私的担忧日益增加,OpenAI 已将有关公司数据和隐私政策的问题转至ChatGPT 的常见问题解答页面。OpenAI 的服务条款授予了该公司使用 ChatGPT 用户生成的所有输入和输出的权利,并规定从使用的数据中删除个人身份信息 (PII)。
然而,在华盛顿大学教授计算语言学的 Emily Bender 表示,OpenAI 几乎不可能从提供给 ChatGPT 的数据中识别并删除所有个人信息。
其实,ChatGPT背后的LLM(大型语言模型)技术中的数据隐私保护问题早已受到关注。其中一个风险是如果公开使用含有隐私敏感数据训练的模型,则有可能通过模型提取出训练数据中的隐私敏感信息。
这是因为这些训练数据集可能很大(数百 GB)并且来源广泛,即使是基于公共数据集上的训练,它们有时也可能包含敏感数据,包括个人身份信息 (PII)如:姓名、电话号码、地址等,这增加了使用此类数据训练的模型可能会在其输出中反映其中一些私人敏感信息的可能性。因此,重要的是要识别并最大程度地降低此类泄漏的风险,并制定解决未来模型问题的策略。