发展大模型的前提是安全可控
大模型发展安全可控的必要性
面临的风险与挑战
大模型在带来前所未有的发展机遇的同时,也带来了前所未遇的风险挑战。在模型自身方面,存在易受欺骗、违背主流价值观等问题,如ChatGPT曾出现“奶奶漏洞”,有知名模型回答违背主流价值观的内容,若应用于儿童产品,影响严重。在发展落地方面,还存在新的滥用风险,例如AIGC合成内容用于造谣、诈骗,包括合成假的地震小孩视频、某地着火视频误导公众,以及利用AI生成虚假人物视频进行诈骗等。
特定领域的高要求
在金融、医疗等关键领域,对数据隐私保护、模型行为可控性及伦理合规提出了更高的要求。这些领域的数据涉及个人隐私和重大利益,一旦模型出现安全问题,可能导致严重的后果,因此大模型在这些领域应用时,安全可控是产业落地的先决条件。
实现安全可控的举措
建立量化评价体系
中国网络空间安全协会理事长赵泽良表示,在网络安全领域要建立可度量、可比较、可考核的量化评价体系。不仅要用人工智能解决安全问题,更要以人工智能引领科研范式变革,敢于突破现有理论体系,探索新的方法框架,最终实现网络安全与科技创新的深度融合,推动行业高质量发展。
数据安全升级
在数据要素化发展新阶段,数据安全要从静态安全向动态安全迭代升级,需要对数据、业务和行为意图进行更为深入的理解,安全智能体是解题的关键核心。在可信数据空间领域,AI原生可信数据空间可实现可信数据空间与AI的双向赋能。
遵循相关原则与理念
360智脑总裁张向征指出,大模型的发展要遵循“安全、向善、可信、可控”四大原则。360集团还提出“以模制模”的理念,用专业知识训练的大模型做大模型的安全识别、评估和管控。具体通过大模型生态链安全检测系统确保模型环境安全,利用AISE人工智能系统安全检测平台进行多种安全风险测评并提供加固方案,智脑风控引擎保障大模型内容安全等。同时,引入微调和强化学习技术提升大模型回复安全,基于幻觉检测Agent提升大模型输出可信度。该方案支持多种部署或交付方式,满足企业不同需求。
从系统层面提升可控性
可以从系统层面利用像Agent这样的技术,提升模型的可控性和安全性。例如瑞莱智慧通过开展长期实践,有一系列的平台和产品落地,针对提升AI自身可靠性,有AI安全与应用平台、AI安全与支撑平台以及上层更安全可控的垂类大模型;围绕防范AI滥用,推出先进的AIGC检测平台;针对AGI安全发展,开展前沿研究,如搭建超级对齐平台、探索用AI监管AI,以实现安全的超级智能。
进行风险评估检测
必须将大模型风险评估检测列为关键任务,让大模型在安全可控的前提下,才能实现敢用、可用、好用。
相关研究与报告推动
在2025中国数谷·西湖论剑大会上发布了《安全智能体魔方:成熟度模型评价研究报告》,该报告创新性地构建了安全智能体的多维度成熟度评估框架,通过剖析高价值场景案例,前瞻性研判安全大模型及智能体的发展趋势与挑战,推动AI应用向“可信可控”升级,为数字经济发展筑牢智能化安全根基