時事分析 | 創新及科技發展 | 2020-07-27 | 《星島日報》

發布人工智能研究 怎做才算「負責任」?



人工智能(Artificial Intelligence,AI)叛變是科幻電影的常見橋段,雖然在現實世界尚未成真,但隨着AI技術逐漸進入人類生活,大眾近年開始意識到,它既能幫人亦能帶來傷害。外國一個AI研究組織宣稱,業界應該肩負「AI造福人類」的責任,為免新技術被人惡意利用,揚言要一改其「開源」(Open Source)文化,拒絕全面對外開放技術的源代碼、數據集。[1]此舉在業界引起很大爭議,業界到底應如何負責任地開放AI技術?

開源文化助AI生態發展 惟技術成果利弊難衡

上段提及的「開源」,即開放源代碼,指任何人均可在源代碼的基礎上進行學習和修改。近年AI技術發展神速,業界中的「開源」文化是其中一種助力。試想像一位程式員要查找代碼中的漏洞,他可能需要幾日的時間才能完成,但如果公布出來,讓開發者和測試者一同檢查,反建議改進的方法,開發效率自然大幅提升。開發者亦可基於前人的成果,進行更多範疇和更深入的開發。開源為AI發展生態帶來長遠利益,故即使以營利為目標的科技企業,同樣會加入開源的行列。[2]

與之相反的是「閉源」(Closed source),由專門研究團隊開發軟件,不會與公眾共享,閉源開發的專有軟件根據許可協議分發予獲授權的用戶,並限制私下修改、複製及重新發布。企業因為擔心洩露機密,損害公司的利益,或不想競爭者使用,都會選擇閉源。[3]像是大眾常用的微軟Office、蘋果iOS均是閉源的軟件。[4]

開源文化受歡迎的另一原因,是其縮小了擁有創作者之間的「貧富差距」。舉例,製作精美視覺特效的成本極為高昂,過往只有大型製作公司負擔得起;但一些小型創作者憑藉因開源而廣為應用的深偽(deepfake)技術的合成影像能力,也製作出極具想像力的作品。[5]

2017年面世的深偽技術是一種透過AI深度學習技術所創造出的偽造訊息,可以用於影像及聲音。受惠於在程式碼共享平台上「開源」文化,深偽的技術門檻大幅降低,一般人只需要下載各種AI換臉軟件,輸入仿造對象的影音素材,便能輕易偽造出極為像真的影片。[6]

不過水能載舟,亦能覆舟,開源科技落入不同人的手中,也不保證會用於正途。大眾認識深偽技術,或許是因為有不法之徒借此將國際女星的面容,合成於色情影片主角的身體,受害者包括主演《神奇女俠》的Gal Gadot及飾演黑寡婦的Scarlett Johansson;亦有不少政治人物和富豪被人利用深偽影片,指稱他們說出一些從沒說過的話。[7]

反開源傳統 提倡分階段「負責任發布」

深偽技術的惡果,似令業界有所反思。AI研究實驗室OpenAI[8],以確保「AI是安全和造福全人類」為研發大原則,聲言因不希望發布的技術會被人惡意使用,做出害人之舉,決定一反其「開源」的傳統,提倡「負責任發布」。 OpenAI解釋,他們出品的上一代人工智能語言模型,已經能夠編寫看似真實的文章,擔心全新模型GPT-2會被人惡意使用,例如編寫誤導他人的新聞文章、在線上假冒他人、自動衍生辱駡內容及網絡釣魚式攻擊的內容,以獲取政治或經濟上的利益。

OpenAI團隊認為,應該謹慎地發布新成果,於是決定分階段,一開始只發布較小的模型,希望研究人員有更多時間減少技術帶來的風險,並警醒公眾需要更為警惕才能辨別真偽。[9]團隊也冀成為業界的先例,供未來開發其他功能強大AI模型的研究人員參考,並與AI社群一同探討「負責任發布」。[10]

去年2月該團隊宣布,開發出全新語言模型GPT-2,用800萬個網頁訓練而成,參數達15億個。用家提供一小段文字作提示,模型便可以預測下一個單詞,從而衍生一篇長文章。而團隊當時沒有對外發布經過訓練的完整模型,而是分階段先發布較小和簡單、只有1.24億個參數的模型,並於同年5月及8月發布較大、參數更多的模型,最終在11月才發布具15億個參數的完整模型。[11]Open AI希望外界有足夠時間評估這些模型的特性,討論其對社會的影響,以及評估每個階段後發布的影響。[12]

分階段發布的同時,OpenAI還採取了其他措施,以達至「負責任發布」的目標,包括發表一份關於輸出技術對社會影響的報告。團隊內部研究GPT-2輸出內容中的偏見問題,亦與四個第三方組織(大學和研究中心)合作,研究模型的潛在惡意用途、檢測合成文本、人類對模型生成內容的反應,以及模型輸出內容的偏見。團隊聲稱,合作伙伴的研究結果,或發現模型遭惡意使用,將會影響他們發布下一階段模型的決定。[13]團隊又利用分階段發布之間的空檔,協助外界制訂AI「負責任發布」的準則。在每次發布模型後,OpenAI持續監測有宣揚虛假資訊前科的網站和論壇,並未發現GPT-2遭濫用的有力證據。[14]

OpenAI這種理念和做法,得到部分業界的追隨。AI企業Hugging Face與OpenAI商討後,決定不對外發布其內部語言模型。該公司表示,如果沒有開源,整個AI領域將面臨無法進步和被少數巨頭把持的風險,但自家技術並非不偏不倚,因此需要採取行動,考慮新技術的潛在惡意用途,使技術對社會能夠發揮正面影響。其後他們發布最新的對話式AI語言模型時,同時公開相關技術的道德分析。[15]科技巨企Salesforce,去年完整發布包含16.3億個參數的語言模型CTRL,他們於其技術論文加插「大型語言模型的道德操守」一節,而在程式碼共享平台公開模型時,亦加入一組操守準則和一系列的問題,鼓勵使用者思考生成內容的AI模型的規範和責任。[16]

 

 

反對者:怕被濫用而不開源 形同因噎廢食

有人支持,當然也有人反對。部分業界人士覺得,OpenAI背棄一直以來的核心開源文化和同行評審的流程。若不共享完整的模型,獨立研究人員便無法評估和驗證有關技術的主張。[17]研究人員亦認為,完整公布模型有助模擬技術的威脅和找出防禦方法。[18]

另有人質疑,OpenAI如擔心研究成果太強大,為何要公布其存在又不接受同行審查,若怕被人濫用而不開源,倒不如一開始就別研究AI。圖靈獎得主兼Facebook首席AI科學家Yann LeCun[19],更公開諷刺OpenAI「斬腳趾避沙蟲」,在社交網站寫道:「每個人都有可能造謠、傳播謠言並影響其他人,那我們是不是該別再生小孩了?」[20]

坊間亦指控,OpenAI作為非牟利組織,過去承諾開放透明,又鼓勵研究人員將研究成果以至專利與全球共享,現時已經變質邁向牟利。外界發現,OpenAI曾在一段時間內完全保密其研發和實驗成果,並漸漸成為慣例,加上它去年成立一個利潤設上限的牟利部門以支持營運,隨即接受微軟數十億美元的投資,令人懷疑它隱藏技術,是為將來授權技術許可鋪路。[21]而OpenAI之後的舉動,看似證實了這一說法。OpenAI在今年6月發布最新一代語言模型GPT-3,未有開放源代碼,而是釋出API(應用程式介面),供外界私下付費申請使用,Reddit已率先使用。[22]OpenAI承認,發布API其中一個目的是要將技術商業化,以應付未來研究、安全和政策工作的開支。[23]

制訂AI技術危害評估準則

無可否認,OpenAI的發布策略已經引發對話,討論甚麼情況下,需要限制取得AI研究內容的原則和策略。[24]事實上,AI技術的倫理問題早已成為業界不得不解決的憂慮。去年英國一項調查訪問了1,010位科技從業員,當中有192位從事AI研發,結果發現,AI從業員中有59%指曾經開發他們認為可能對社會或人類有害的產品,這班人中差不多每四人便有一人因此辭職(27%),高於整體從業員的約每五人有一人辭職(18%),反映AI人才重視研發AI技術的道德風險。[25]

信息安全論壇(Information Security Forum)表示,對開源安全性的擔憂有時可能被誇大和缺乏根據,一刀切禁止開源只會適得其反,但提醒開發人員需了解開源的安全風險和漏洞。[26]要釋除各方對AI技術開源的潛在風險的疑慮,為業界制訂一套評估技術危害的準則,是可以考慮的方案。美國列治文大學法律學院副教授Rebecca Crootof提議,研發人員在權衡如何負責任地發布技術時,考慮以下十個因素[27]

  1. 源頭
    研究人員應檢討技術中哪部分可能出現的潛在事故或遭人故意濫用,以及有沒有可能造成其他間接危害。
  2. 受害者
    另一個因素是思考可能受到傷害的對象,包括個人、團體、社會、弱勢社群、其他生物、環境,以及社會、經濟或政府結構。
  3. 類型
    這種危害會以甚麼形式出現,例如損害人類的身體和精神健康、人權、經濟穩定等方面,是具體可見還是滲透於無形。
  4. 規模
    開發人員應評估潛在受害的規模,若無法量化,便要思考避免低估危害的方法。
  5. 可能性
    評估危害出現的可能性,設想心懷不軌的人需要甚麼資源來惡意使用技術。
  6. 時機
    評估危害出現的時機,以及有否足夠時間去提高意識、制訂應對措施來減低最壞的影響。
  7. 持久力
    評估這種危害是短暫還是持續的。
  8. 反應
    評估有沒有方法限制或糾正可能出現的危害。
  9. 資訊及權力不對等
    評估受害者能否得知自己受影響,追溯危害的源頭並匯報,以及有沒有途徑討回公道。
  10. 機會成本
    若不共享研究成果會造成危害,同時應考量不共享可能帶來的好處或機會。

Crootof教授建議的評估準則,鼓勵研發人員從多角度去評估開源技術的潛在風險或危害,包括造成危害的源頭,危害的類型、對象、規模、可能性等,量度開源與否的好壞,亦要考慮有何預防或補救措施。

業界比普羅大眾應更有能力預視,人工智能技術對人類社會的利弊。到底保留開源共享研究成果的文化,還是改變發布原則、以分階段發布,才是對社會最負責任的做法,未來自有分曉。無論保留開源共享研究成果的文化,還是改變發布原則,均需確保人工智能技術發展合乎公眾利益。

1 「為什麼我們對deepfake技術又愛又恨?」。取自36氪網站:https://www.36kr.com/p/1724687695873,最後更新日期2019年11月15日。
2 國仁,「誰是AI開源世界之王?」。取自虎嗅網網站:https://m.huxiu.com/article/325865.html,最後更新日期2019年11月13日。
3 國仁,「誰是AI開源世界之王?」。取自虎嗅網網站:https://m.huxiu.com/article/325865.html,最後更新日期2019年11月13日;“Open Source vs. Closed Source Software – What’s the Difference?,” Veriday, https://www.veriday.com/blog/open-source-vs-closed-source/, last modified November 12, 2018.
4 李政霖,「開源軟體的商業模式分析(一):為什麼連Apple、Microsoft都逐漸把技術開源?」。取自Meet創業小聚網站:https://meet.bnext.com.tw/articles/view/44789,最後更新日期2019年4月17日。
5 Sunny Dhillon, “An optimistic view of deepfakes,” TechCrunch, https://techcrunch.com/2019/07/04/an-optimistic-view-of-deepfakes/, last modified July 5, 2019.
6 蔣曜宇,「Deepfake問世3年,為何讓AI變頭號網路犯罪公敵?」。取自數位時代網站:https://www.bnext.com.tw/article/57260/deepfake-ai-deep-learning,最後更新日期2020年4月15日。
7 同6。
8 “OpenAI Charter,” OpenAI, https://openai.com/charter/, last modified April 9, 2018.
9 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, pp. 22-23.
10 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 24.
11 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, pp. 20-21.
12 “Better Language Models and Their Implications,” Open AI, https://openai.com/blog/better-language-models/, last modified February 14, 2019.
13 “GPT-2: 6-Month Follow-Up,” Open AI, https://openai.com/blog/gpt-2-6-month-follow-up/, last modified August 20, 2019.
14 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, pp. 24-25.
15 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 25.
16 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 28.
17 Jessica Cussins Newman, “Decision Points in AI Governance: Three Cases Studies Explore Efforts to Operationalize AI Principles,” Centre for Long-term Cybersecurity of UC Berkeley, p. 26.
18 同17。
19 “Yann LeCun,” Yann LeCun, http://yann.lecun.com/, accessed May 28, 2020.
20 「LeCun:30年前知道DeepFake,我還該不該開源CNN?」。取自知乎網站:https://zhuanlan.zhihu.com/p/57425131,最後更新日期2019年2月22日;Karen Hao, “The messy, secretive reality behind OpenAI’s bid to save the world,” MIT Technology Review, February 17, 2020, https://www.technologyreview.com/2020/02/17/844721/ai-openai-moonshot-elon-musk-sam-altman-greg-brockman-messy-secretive-reality/.
21 Karen Hao, “The messy, secretive reality behind OpenAI’s bid to save the world,” MIT Technology Review, February 17, 2020, https://www.technologyreview.com/2020/02/17/844721/ai-openai-moonshot-elon-musk-sam-altman-greg-brockman-messy-secretive-reality/.
22 林妍溱,「OpenAI文字產生AI演算法限量公開API,Reddit列首批用戶」。取自iThome網站:https://www.ithome.com.tw/news/138205,最後更新日期2020年6月12日。
23 “OpenAI API,” OpenAI, https://openai.com/blog/openai-api/, last modified June 11, 2020.
24 Rebecca Crootof , “Artificial Intelligence Research Needs Responsible Publication Norms,” Lawfare, https://www.lawfareblog.com/artificial-intelligence-research-needs-responsible-publication-norms, last modified October 24, 2019.
25 Miller C, Coldicutt R, “People, Power and Technology: The Tech Workers’ View,” Doteveryone, 2019, pp. 16, 17 and 24.
26 Scott Ikeda, “New Report Details the Depth of Open Source Security Issues,” CPO Magazine, https://www.cpomagazine.com/cyber-security/new-report-details-the-depth-of-open-source-security-issues/, last modified July 9, 2020.
27 同24。