中国科学院&蚂蚁安全实验室:2024年生成式大模型安全评估白皮书.pdf |
下载文档 |
资源简介
该白皮书系统整合梳理了包括GPT、LLaMA、Moss、文心一言等近20个生成式大模型的发展现状与安全风险,并通过实践案例深入剖析了当前技术面临的关键挑战及应对策略。白皮书还总结了包括伦理风险、技术安全风险及内容安全风险在内的三大生成式大模型安全风险类别,伦理性、隐私性、事实性、鲁棒性在内的四大安全评估维度以及指标衡量、模型攻击两类安全评估方法,旨在为学术研究、产业实践和政策制定提供重要参考。
其中,白皮书特别介绍了蚂蚁集团“支小宝”的三重安全保障框架,其背后是蚂蚁自主研发的大模型安全一体化解决方案“蚁天鉴”。该方案包含大模型安全检测平台“蚁鉴”和大模型风险防御平台“天鉴”两大产品,分别定位在AI评测与安全防御,从而保障大模型在生产和使用过程中的安全、可控、可靠,展示了国内机构和企业在探索大模型安全应用方面的优秀实践。
本文档仅能预览20页