研究人員於1月29日星期四表示,駭客和其他犯罪分子可以輕易劫持運行開源大型語言模型的電腦,這些電腦不受主要人工智慧平台的防護措施和限制約束,從而造成安全風險和漏洞。
研究人員表示,駭客可能會鎖定運行大型語言模型的電腦,並指示它們執行垃圾郵件操作、網路釣魚內容創建或虛假資訊宣傳活動,從而規避平台安全協議。
這項研究由網路安全公司SentinelOne和Censys聯合進行,歷時293天,並獨家分享給路透社,為數千個開源大型語言模型部署的潛在非法使用案例規模提供了新的視角。研究人員表示,這些使用案例包括駭客攻擊、仇恨言論和騷擾、暴力或血腥內容、個人資料竊取、詐騙或欺詐,在某些情況下還包括兒童性虐待材料。
研究人員指出,雖然存在數千種開源大型語言模型變體,但在可訪問互聯網的主機上,很大一部分大型語言模型是Meta的Llama、Google DeepMind的Gemma等的變體。雖然一些開源模型包含防護措施,但研究人員發現了數百個明確移除防護措施的實例。
SentinelOne情報與安全研究執行總監Juan Andres Guerrero-Saade表示,人工智慧產業關於安全控制的討論「忽視了這種明顯被用於各種不同用途的過剩容量,其中一些是合法的,一些顯然是犯罪的」。Guerrero-Saade將這種情況比作「冰山」,整個產業和開源社群並未妥善考慮這個問題。
該研究分析了通過Ollama部署的可公開訪問的開源大型語言模型部署,Ollama是一個允許個人和組織運行各種大型語言模型自有版本的工具。
研究人員能夠在他們觀察到的大約四分之一的大型語言模型中看到系統提示,系統提示是指示模型行為方式的指令。在這些模型中,他們確定7.5%可能會促成有害活動。
研究人員觀察到的主機中,大約30%在中國運營,約20%在美國運營。
全球人工智慧治理中心執行長兼創辦人Rachel Adams在一封電子郵件中表示,一旦開放模型發布,接下來發生的事情的責任就會在整個生態系統中分擔,包括原始實驗室。
Adams表示:「實驗室不對每一個下游濫用負責(這些很難預測),但它們保留著重要的注意義務,以預測可預見的危害、記錄風險並提供緩解工具和指導,特別是考慮到全球執法能力不均衡。」
Meta發言人拒絕回答有關開發者在解決開源模型下游濫用問題方面的責任以及如何報告相關問題的提問,但提到了該公司為Llama開發者提供的Llama Protection工具,以及該公司的Meta Llama負責任使用指南。
Microsoft人工智慧紅隊負責人Ram Shankar Siva Kumar在一封電子郵件中表示,Microsoft認為開源模型在各個領域「發揮著重要作用」,但「與此同時,我們清楚地認識到,開放模型就像所有變革性技術一樣,如果在沒有適當防護措施的情況下發布,可能會被對手濫用」。
他表示,Microsoft會進行發布前評估,包括評估「互聯網暴露、自行託管和工具調用場景的風險,這些場景中濫用的可能性很高」的流程。該公司還監控新興威脅和濫用模式。「最終,負責任的開放創新需要創建者、部署者、研究人員和安全團隊的共同承諾。」
Ollama未回應評論請求。Alphabet旗下的Google和Anthropic未回應提問。– Rappler.com

