时事分析 | 创新及科技发展 | 2020-07-27 | 《星岛日报》

发布人工智能研究 怎做才算「负责任」?



人工智能(Artificial Intelligence,AI)叛变是科幻电影的常见桥段,虽然在现实世界尚未成真,但随着AI技术逐渐进入人类生活,大众近年开始意识到,它既能帮人亦能带来伤害。外国一个AI研究组织宣称,业界应该肩负「AI造福人类」的责任,为免新技术被人恶意利用,扬言要一改其「开源」(Open Source)文化,拒绝全面对外开放技术的源代码、数据集。[1]此举在业界引起很大争议,业界到底应如何负责任地开放AI技术?

开源文化助AI生态发展 惟技术成果利弊难衡

上段提及的「开源」,即开放源代码,指任何人均可在源代码的基础上进行学习和修改。近年AI技术发展神速,业界中的「开源」文化是其中一种助力。试想像一位程式员要查找代码中的漏洞,他可能需要几日的时间才能完成,但如果公布出来,让开发者和测试者一同检查,反建议改进的方法,开发效率自然大幅提升。开发者亦可基于前人的成果,进行更多范畴和更深入的开发。开源为AI发展生态带来长远利益,故即使以营利为目标的科技企业,同样会加入开源的行列。[2]

与之相反的是「闭源」(Closed source),由专门研究团队开发软件,不会与公众共享,闭源开发的专有软件根据许可协议分发予获授权的用户,并限制私下修改、复制及重新发布。企业因为担心泄露机密,损害公司的利益,或不想竞争者使用,都会选择闭源。[3]像是大众常用的微软Office、苹果iOS均是闭源的软件。[4]

开源文化受欢迎的另一原因,是其缩小了拥有创作者之间的「贫富差距」。举例,制作精美视觉特效的成本极为高昂,过往只有大型制作公司负担得起;但一些小型创作者凭借因开源而广为应用的深伪(deepfake)技术的合成影像能力,也制作出极具想象力的作品。[5]

2017年面世的深伪技术是一种透过AI深度学习技术所创造出的伪造讯息,可以用于影像及声音。受惠于在程式码共享平台上「开源」文化,深伪的技术门槛大幅降低,一般人只需要下载各种AI换脸软件,输入仿造对象的影音素材,便能轻易伪造出极为像真的影片。[6]

不过水能载舟,亦能覆舟,开源科技落入不同人的手中,也不保证会用于正途。大众认识深伪技术,或许是因为有不法之徒借此将国际女星的面容,合成于色情影片主角的身体,受害者包括主演《神奇女侠》的Gal Gadot及饰演黑寡妇的Scarlett Johansson;亦有不少政治人物和富豪被人利用深伪影片,指称他们说出一些从没说过的话。[7]

反开源传统 提倡分阶段「负责任发布」

深伪技术的恶果,似令业界有所反思。AI研究实验室OpenAI[8],以确保「AI是安全和造福全人类」为研发大原则,声言因不希望发布的技术会被人恶意使用,做出害人之举,决定一反其「开源」的传统,提倡「负责任发布」。 OpenAI解释,他们出品的上一代人工智能语言模型,已经能够编写看似真实的文章,担心全新模型GPT-2会被人恶意使用,例如编写误导他人的新闻文章、在线上假冒他人、自动衍生辱骂内容及网络钓鱼式攻击的内容,以获取政治或经济上的利益。

OpenAI团队认为,应该谨慎地发布新成果,于是决定分阶段,一开始只发布较小的模型,希望研究人员有更多时间减少技术带来的风险,并警醒公众需要更为警惕才能辨别真伪。[9]团队也冀成为业界的先例,供未来开发其他功能强大AI模型的研究人员参考,并与AI社群一同探讨「负责任发布」。[10]

去年2月该团队宣布,开发出全新语言模型GPT-2,用800万个网页训练而成,参数达15亿个。用家提供一小段文字作提示,模型便可以预测下一个单词,从而衍生一篇长文章。而团队当时没有对外发布经过训练的完整模型,而是分阶段先发布较小和简单、只有1.24亿个参数的模型,并于同年5月及8月发布较大、参数更多的模型,最终在11月才发布具15亿个参数的完整模型。[11]Open AI希望外界有足够时间评估这些模型的特性,讨论其对社会的影响,以及评估每个阶段后发布的影响。[12]

分阶段发布的同时,OpenAI还采取了其他措施,以达至「负责任发布」的目标,包括发表一份关于输出技术对社会影响的报告。团队内部研究GPT-2输出内容中的偏见问题,亦与四个第三方组织(大学和研究中心)合作,研究模型的潜在恶意用途、检测合成文本、人类对模型生成内容的反应,以及模型输出内容的偏见。团队声称,合作伙伴的研究结果,或发现模型遭恶意使用,将会影响他们发布下一阶段模型的决定。[13]团队又利用分阶段发布之间的空档,协助外界制订AI「负责任发布」的准则。在每次发布模型后,OpenAI持续监测有宣扬虚假资讯前科的网站和论坛,并未发现GPT-2遭滥用的有力证据。[14]

OpenAI这种理念和做法,得到部分业界的追随。AI企业Hugging Face与OpenAI商讨后,决定不对外发布其内部语言模型。该公司表示,如果没有开源,整个AI领域将面临无法进步和被少数巨头把持的风险,但自家技术并非不偏不倚,因此需要采取行动,考虑新技术的潜在恶意用途,使技术对社会能够发挥正面影响。其后他们发布最新的对话式AI语言模型时,同时公开相关技术的道德分析。[15]科技巨企Salesforce,去年完整发布包含16.3亿个参数的语言模型CTRL,他们于其技术论文加插「大型语言模型的道德操守」一节,而在程式码共享平台公开模型时,亦加入一组操守准则和一系列的问题,鼓励使用者思考生成内容的AI模型的规范和责任。[16]

 

 

反对者:怕被滥用而不开源 形同因噎废食

有人支持,当然也有人反对。部分业界人士觉得,OpenAI背弃一直以来的核心开源文化和同行评审的流程。若不共享完整的模型,独立研究人员便无法评估和验证有关技术的主张。[17]研究人员亦认为,完整公布模型有助模拟技术的威胁和找出防御方法。[18]

另有人质疑,OpenAI如担心研究成果太强大,为何要公布其存在又不接受同行审查,若怕被人滥用而不开源,倒不如一开始就别研究AI。图灵奖得主兼Facebook首席AI科学家Yann LeCun[19],更公开讽刺OpenAI「斩脚趾避沙虫」,在社交网站写道:「每个人都有可能造谣、传播谣言并影响其他人,那我们是不是该别再生小孩了?」[20]

坊间亦指控,OpenAI作为非牟利组织,过去承诺开放透明,又鼓励研究人员将研究成果以至专利与全球共享,现时已经变质迈向牟利。外界发现,OpenAI曾在一段时间内完全保密其研发和实验成果,并渐渐成为惯例,加上它去年成立一个利润设上限的牟利部门以支持营运,随即接受微软数十亿美元的投资,令人怀疑它隐藏技术,是为将来授权技术许可铺路。[21]而OpenAI之后的举动,看似证实了这一说法。OpenAI在今年6月发布最新一代语言模型GPT-3,未有开放源代码,而是释出API(应用程式介面),供外界私下付费申请使用,Reddit已率先使用。[22]OpenAI承认,发布API其中一个目的是要将技术商业化,以应付未来研究、安全和政策工作的开支。[23]

制订AI技术危害评估准则

无可否认,OpenAI的发布策略已经引发对话,讨论什么情况下,需要限制取得AI研究内容的原则和策略。[24]事实上,AI技术的伦理问题早已成为业界不得不解决的忧虑。去年英国一项调查访问了1,010位科技从业员,当中有192位从事AI研发,结果发现,AI从业员中有59%指曾经开发他们认为可能对社会或人类有害的产品,这班人中差不多每四人便有一人因此辞职(27%),高于整体从业员的约每五人有一人辞职(18%),反映AI人才重视研发AI技术的道德风险。[25]

信息安全论坛(Information Security Forum)表示,对开源安全性的担忧有时可能被夸大和缺乏根据,一刀切禁止开源只会适得其反,但提醒开发人员需了解开源的安全风险和漏洞。[26]要释除各方对AI技术开源的潜在风险的疑虑,为业界制订一套评估技术危害的准则,是可以考虑的方案。美国列治文大学法律学院副教授Rebecca Crootof提议,研发人员在权衡如何负责任地发布技术时,考虑以下十个因素[27]

  1. 源头
    研究人员应检讨技术中哪部分可能出现的潜在事故或遭人故意滥用,以及有没有可能造成其他间接危害。
  2. 受害者
    另一个因素是思考可能受到伤害的对象,包括个人、团体、社会、弱势社群、其他生物、环境,以及社会、经济或政府结构。
  3. 类型
    这种危害会以什么形式出现,例如损害人类的身体和精神健康、人权、经济稳定等方面,是具体可见还是渗透于无形。
  4. 规模
    开发人员应评估潜在受害的规模,若无法量化,便要思考避免低估危害的方法。
  5. 可能性
    评估危害出现的可能性,设想心怀不轨的人需要什么资源来恶意使用技术。
  6. 时机
    评估危害出现的时机,以及有否足够时间去提高意识、制订应对措施来减低最坏的影响。
  7. 持久力
    评估这种危害是短暂还是持续的。
  8. 反应
    评估有没有方法限制或纠正可能出现的危害。
  9. 资讯及权力不对等
    评估受害者能否得知自己受影响,追溯危害的源头并汇报,以及有没有途径讨回公道。
  10. 机会成本
    若不共享研究成果会造成危害,同时应考量不共享可能带来的好处或机会。

Crootof教授建议的评估准则,鼓励研发人员从多角度去评估开源技术的潜在风险或危害,包括造成危害的源头,危害的类型、对象、规模、可能性等,量度开源与否的好坏,亦要考虑有何预防或补救措施。

业界比普罗大众应更有能力预视,人工智能技术对人类社会的利弊。到底保留开源共享研究成果的文化,还是改变发布原则、以分阶段发布,才是对社会最负责任的做法,未来自有分晓。无论保留开源共享研究成果的文化,还是改变发布原则,均需确保人工智能技术发展合乎公众利益。

1 「为什么我们对deepfake技术又爱又恨?」。取自36氪网站:https://www.36kr.com/p/1724687695873,最后更新日期2019年11月15日。
2 国仁,「谁是AI开源世界之王?」。取自虎嗅网网站:https://m.huxiu.com/article/325865.html,最后更新日期2019年11月13日。
3 国仁,「谁是AI开源世界之王?」。取自虎嗅网网站:https://m.huxiu.com/article/325865.html,最后更新日期2019年11月13日;“Open Source vs. Closed Source Software – What’s the Difference?,” Veriday, https://www.veriday.com/blog/open-source-vs-closed-source/, last modified November 12, 2018.
4 李政霖,「开源软体的商业模式分析(一):为什么连Apple、Microsoft都逐渐把技术开源?」。取自Meet创业小聚网站:https://meet.bnext.com.tw/articles/view/44789,最后更新日期2019年4月17日。
5 Sunny Dhillon, “An optimistic view of deepfakes,” TechCrunch, https://techcrunch.com/2019/07/04/an-optimistic-view-of-deepfakes/, last modified July 5, 2019.
6 蒋曜宇,「Deepfake问世3年,为何让AI变头号网路犯罪公敌?」。取自数位时代网站:https://www.bnext.com.tw/article/57260/deepfake-ai-deep-learning,最后更新日期2020年4月15日。
7 同6。
8 “OpenAI Charter,” OpenAI, https://openai.com/charter/, last modified April 9, 2018.
9 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, pp. 22-23.
10 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 24.
11 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, pp. 20-21.
12 “Better Language Models and Their Implications,” Open AI, https://openai.com/blog/better-language-models/, last modified February 14, 2019.
13 “GPT-2: 6-Month Follow-Up,” Open AI, https://openai.com/blog/gpt-2-6-month-follow-up/, last modified August 20, 2019.
14 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, pp. 24-25.
15 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 25.
16 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 28.
17 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 26.
18 同17。
19 “Yann LeCun,” Yann LeCun, http://yann.lecun.com/, accessed May 28, 2020.
20 「LeCun:30年前知道DeepFake,我还该不该开源CNN?」。取自知乎网站:https://zhuanlan.zhihu.com/p/57425131,最后更新日期2019年2月22日;Karen Hao, “The messy, secretive reality behind OpenAI’s bid to save the world,” MIT Technology Review, February 17, 2020, https://www.technologyreview.com/2020/02/17/844721/ai-openai-moonshot-elon-musk-sam-altman-greg-brockman-messy-secretive-reality/.
21 Karen Hao, “The messy, secretive reality behind OpenAI’s bid to save the world,” MIT Technology Review, February 17, 2020, https://www.technologyreview.com/2020/02/17/844721/ai-openai-moonshot-elon-musk-sam-altman-greg-brockman-messy-secretive-reality/.
22 林妍溱,「OpenAI文字产生AI演算法限量公开API,Reddit列首批用户」。取自iThome网站:https://www.ithome.com.tw/news/138205,最后更新日期2020年6月12日。
23 “OpenAI API,” OpenAI, https://openai.com/blog/openai-api/, last modified June 11, 2020.
24 Rebecca Crootof , “Artificial Intelligence Research Needs Responsible Publication Norms,” Lawfare, https://www.lawfareblog.com/artificial-intelligence-research-needs-responsible-publication-norms, last modified October 24, 2019.
25 Miller C, Coldicutt R, “People, Power and Technology: The Tech Workers’ View,” Doteveryone, 2019, pp. 16, 17 and 24.
26 Scott Ikeda, “New Report Details the Depth of Open Source Security Issues,” CPO Magazine, https://www.cpomagazine.com/cyber-security/new-report-details-the-depth-of-open-source-security-issues/, last modified July 9, 2020.
27 同24。