前 言
本文要點(diǎn):
落地路線圖
落地模式及選擇(策略)
安全防護(hù)構(gòu)架
安全落地技術(shù)方案
私域安全部署全流程示例
大模型安全評估
網(wǎng)絡(luò)安全運(yùn)營大模型參考架構(gòu)與賦能
其它場景及應(yīng)用案例
相關(guān)資料獲取
請文末評論留言
落地 路線圖
遵循原則
需求拉動、問題驅(qū)動、創(chuàng)新推動
四個階段
現(xiàn)狀診斷、能力建設(shè)、應(yīng)用部署、運(yùn)營管理
五個層面
基礎(chǔ)設(shè)施、數(shù)據(jù)資源、算法模型、應(yīng)用服務(wù)、安全可信
三個關(guān)鍵維度
安全、可靠、可控
工程實(shí)施方面
(1)基礎(chǔ)設(shè)施側(cè)
構(gòu)建高性能和高可靠的訓(xùn)練和推理基礎(chǔ)設(shè)施
根據(jù)行業(yè)屬性或企業(yè)性質(zhì),明晰技術(shù)路徑,如選擇大模型部署方式等
(2)數(shù)據(jù)構(gòu)建側(cè)
全流程數(shù)據(jù)治理
構(gòu)建數(shù)據(jù)隱私和安全保護(hù)體系
(3)服務(wù)能力側(cè)
實(shí)現(xiàn)大模型與現(xiàn)有業(yè)務(wù)數(shù)據(jù)和信息系統(tǒng)對接
開展提示工程
開發(fā)人工智能原生應(yīng)用等實(shí)施方案
技術(shù)選型方面
(1)技術(shù)指標(biāo)側(cè)
明確技術(shù)指標(biāo):涉及基礎(chǔ)設(shè)施、數(shù)據(jù)資源、算法模型、應(yīng)用模式和風(fēng)險控制等方面
(2)評估方法側(cè)
在模型應(yīng)用的全生命周期,開展技術(shù)能力先進(jìn)性和應(yīng)用場景適用性等評估。
應(yīng)用前,評估現(xiàn)有模型的性能水平
應(yīng)用中,評估算法模型與實(shí)際業(yè)務(wù)需求的匹配程度
應(yīng)用后,跟進(jìn)模型使用效果,制定改進(jìn)方案
落地 三種主要模式
端側(cè) 部署模式
部署位置:用戶終端設(shè)備,如智能手機(jī)、個人電腦或?qū)I(yè)工作站。
主要優(yōu)點(diǎn):實(shí)現(xiàn)高度個性化的用戶體驗,最小化數(shù)據(jù)傳輸延遲。
適用場景:對隱私保護(hù)和實(shí)時性極高,如離線語音識別、即時翻譯和全知個人助理等。
邊緣 計算模式
部署位置:接近用戶的邊緣服務(wù)器。
主要優(yōu)點(diǎn):融合云計算強(qiáng)處理能力與端側(cè)低延遲特性。
適用場景:適合處理計算和數(shù)據(jù)要求高、需快速響應(yīng)的應(yīng)用。
其它優(yōu)點(diǎn):減少數(shù)據(jù)遠(yuǎn)端云傳輸,降低帶寬需求,提升數(shù)據(jù)安全性。
云平臺 服務(wù)模式
部署位置:云端基礎(chǔ)設(shè)施。
主要優(yōu)點(diǎn):存儲和計算資源充足,支持復(fù)雜算法及大量數(shù)據(jù)處理;升級維護(hù)靈活,訪問便利。
風(fēng)險問題:網(wǎng)絡(luò)延遲、數(shù)據(jù)隱私問題等。
應(yīng)對方式:系統(tǒng)設(shè)計和改進(jìn)策略。
大模型設(shè)施 安全風(fēng)險框架
落地安全 防護(hù)構(gòu)架
基于合規(guī)框架和技術(shù)風(fēng)險矩陣,可分為三個層次:
底層(運(yùn)行環(huán)境):
保障基礎(chǔ)設(shè)施安全,涵蓋通信網(wǎng)絡(luò)、區(qū)域邊界、計算環(huán)境、云及容器的安全設(shè)計與實(shí)現(xiàn)。
中層(技術(shù)與管理):
技術(shù)上實(shí)現(xiàn)供應(yīng)鏈安全、數(shù)據(jù)安全、運(yùn)營安全三類關(guān)鍵業(yè)務(wù)安全場景;管理上完成合規(guī)評估備案,納入組織機(jī)構(gòu)總體風(fēng)險管理、安全監(jiān)測預(yù)警及應(yīng)急響應(yīng)框架。
頂層(目標(biāo)):
實(shí)現(xiàn)基座、模型、數(shù)據(jù)與算法、運(yùn)行的安全技術(shù)目標(biāo),以及模型風(fēng)險可控、合法合規(guī)的管理目標(biāo)。
安全落地 技術(shù)方案
落地的 安全性
(1)內(nèi)生安全防御
1 ) 數(shù)據(jù)安全防御
大模型數(shù)據(jù)隱私保護(hù):數(shù)據(jù)脫敏、數(shù)據(jù)匿名化、數(shù)據(jù)加密
大模型分布式訓(xùn)練:聯(lián)邦學(xué)習(xí)和區(qū)塊鏈技術(shù)
2 ) 模型安全防御
大模型越獄防御:模型生成優(yōu)化、系統(tǒng)提示優(yōu)化、輸入輸出檢測
提示語泄露防御:輸入檢測、輸入處理、輸出處理
硬件層面防御:涵蓋漏洞修復(fù)防范技術(shù)、被動檢測防范技術(shù)和主動防范技術(shù)。防范對模型存儲介質(zhì)的威脅。
軟件層面防御:涵蓋用戶數(shù)據(jù)防范技術(shù) 、模型數(shù)據(jù)防范技術(shù)。防范對用戶及模型數(shù)據(jù)的威脅。
框架層面防御:深度學(xué)習(xí)框架及其依賴的大規(guī)模第三方軟件包漏洞會威脅模型安全。防范對深度學(xué)習(xí)框架及依賴庫的威脅。
操作系統(tǒng)層面防御:涵蓋訪問控制防范技術(shù)、加密防范技術(shù) 與其他防范技術(shù)。防范對操作系統(tǒng)調(diào)度過程的威脅。
網(wǎng)絡(luò)傳輸層面防御:涵蓋端設(shè)備地址防范技術(shù)、傳輸路徑防范技術(shù)、網(wǎng)絡(luò)服務(wù)防范技術(shù)。從網(wǎng)絡(luò)安全角度保障生成式 AI 安全。
(2)外生安全防御
1 ) 面向隱私安全攻擊的防御:
包含對抗訓(xùn)練、提示工程策略,正則化、Dropout、數(shù)據(jù)增強(qiáng)、差分隱私、隱私風(fēng)險檢測、生成內(nèi)容過濾審查等技術(shù)。
2 ) 針對毒化數(shù)據(jù)的防御:
采用數(shù)據(jù)溯源和對齊技術(shù)。
發(fā)展高級對抗算法(用復(fù)雜數(shù)據(jù)分析識別異常模式、開發(fā)自動排除或修正此類數(shù)據(jù)的機(jī)制)。
構(gòu)建統(tǒng)一安全風(fēng)險防御策略:針對多模態(tài)數(shù)據(jù)(對文本、圖像、聲音等)。
3 ) 面向惡意后門的防御
檢查神經(jīng)元激活特征,識別并消除可能被惡意操縱的神經(jīng)元。
通過模型微調(diào)和再訓(xùn)練清除后門。
持續(xù)監(jiān)控和定期安全評估。
4 ) 針對提示注入攻擊的防御
常用防御技術(shù):對抗訓(xùn)練,即迭代收集攻擊樣本,通過指令微調(diào)等優(yōu)化模型,使其能以拒絕等方式應(yīng)對新型惡意提示。
注意事項:過于保守的防御策略會影響內(nèi)容多樣性和趣味性。
(3)衍生安全防御
1 ) 偏見和毒性內(nèi)容生成風(fēng)險防范
預(yù)訓(xùn)練數(shù)據(jù)排毒
基于強(qiáng)化學(xué)習(xí)的對齊
推理階段的安全風(fēng)險防控
2 ) 虛假新聞防范
大模型直接識別
微調(diào)的 AIGC 文本檢測模型識別
依據(jù)困惑度與可信度
基于事實(shí)核查的虛假新聞檢測關(guān)鍵技術(shù):
聲明檢測
證據(jù)檢索
聲明核查
3 ) 版權(quán)侵犯風(fēng)險防范
面向 AI 訓(xùn)練數(shù)據(jù)安全的水印技術(shù):后門攻擊。
面向 AI 生成內(nèi)容溯源的水印技術(shù):
數(shù)字水印技術(shù)
快速微調(diào)技術(shù)
有效水印提取技術(shù)
4 ) 電信詐騙風(fēng)險防范
深度偽造檢測技術(shù):
基于空間域信號
基于頻域
基于生物信號
深度偽造主動防御技術(shù):
基于主動干擾
基于主動取證
落地的 可靠性
(1)大模型的對抗魯棒性
數(shù)據(jù)增強(qiáng):針對不同內(nèi)容模態(tài)設(shè)計策略以提升訓(xùn)練樣本多樣性。
訓(xùn)練優(yōu)化:跨模態(tài)數(shù)據(jù)構(gòu)建針對性對齊 loss 訓(xùn)練;采用預(yù)設(shè)攻擊函數(shù)對樣本變換進(jìn)行對抗訓(xùn)練。
增強(qiáng)用戶指令精細(xì)理解力,檢測攻擊誘導(dǎo)意圖并前置干預(yù)。
(2)大模型的真實(shí)性
幻覺主要緩解方案:
訓(xùn)練階段改進(jìn):涉及預(yù)訓(xùn)練、微調(diào)等所有模型參數(shù)更新。
推理階段干預(yù):根據(jù)用戶輸入生成回復(fù)時進(jìn)行干預(yù)。
提示語優(yōu)化:通過優(yōu)化提示語提升生成效果。
輸出后處理:對初步生成文本進(jìn)一步編輯、修改。
結(jié)合外部知識檢索:結(jié)合外部知識源的信息檢索單元加強(qiáng)生成質(zhì)量。
多智能體交互:引入多個大語言模型參與生成過程。
(3)大模型的價值對齊
1 ) 基礎(chǔ)優(yōu)化手段:
清洗訓(xùn)練樣本中的 " 毒性 " 數(shù)據(jù)
引入基于強(qiáng)化學(xué)習(xí)的對齊技術(shù)
2 ) 基于人類偏好的強(qiáng)化學(xué)習(xí)技術(shù)(RLHF):
包含三個子階段:
指令微調(diào)
獎勵模型訓(xùn)練
生成策略優(yōu)化
3 ) 基于 AI 反饋的強(qiáng)化學(xué)習(xí)技術(shù)(RLAIF):
特點(diǎn):用 LLM 代替人類標(biāo)記偏好,對齊效果有限。
優(yōu)化方向:結(jié)合人工反饋,兼顧成本與模型效果。
落地的 可控性
(1)大模型的可解釋性
基于過程信息的解釋性
基于 CoT(思維鏈)提示的解釋性
基于模型內(nèi)生的機(jī)制可解釋性
(2)大模型的可標(biāo)識和可追溯
數(shù)字水印追溯
AIGC 檢測技術(shù)
(3)大模型的指令遵循
監(jiān)督微調(diào)
強(qiáng)化學(xué)習(xí)
指令優(yōu)化
落地 安全測評
(1)試題的全面性:
要求:安全評估需覆蓋多模態(tài)和各種應(yīng)用場景,且評測試題需全面覆蓋可能的安全問題類型。
(2)對抗樣本的多樣性:
方法:在已有試題基礎(chǔ)上通過生成算法構(gòu)建多樣化測試樣本。
(3)評估研判的自動化:
新方向:
基于商業(yè)化大模型服務(wù)構(gòu)建研判策略,但存在成本高、數(shù)據(jù)隱私、可控性差等問題。
構(gòu)建專用研判大模型
私域安全部署 全流程示例
以下內(nèi)容僅供參考
具體需根據(jù)實(shí)際情況進(jìn)行調(diào)整和優(yōu)化
獲取完整版
請文未評價留言
大模型 安全評估
網(wǎng)絡(luò)安全運(yùn)營 大模型
參考架構(gòu)與賦能
其它場景及應(yīng)用 案例
參考資料:《大模型落地路線圖研究報告》《大模型安全實(shí)踐白皮書》《私有化部署必看 ! 大模型設(shè)施的安全風(fēng)險框架和防護(hù)方案》《專題 · 人工智能安全 | 大模型安全風(fēng)險分析與防護(hù)架構(gòu)》《超云 2025 私域大模型部署白皮書》《生成式大模型安全評估白皮書》《工業(yè)大模型白皮書》《金融行業(yè)大模型應(yīng)用探索與實(shí)踐》《網(wǎng)絡(luò)安全運(yùn)營大模型參考架構(gòu)》《大模型安全研究報告》
來源:重慶信通設(shè)計院天空實(shí)驗室