News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

清华大学与瑞莱智慧结合团队推出 RealSafe

IT之家 2 月 24 日新闻,经研讨发明,DeepSeek R1 在多项指标中表示冷艳,但与其余开源年夜言语模子雷同,抵御逃狱攻打的才能能够进一步晋升。针对这一情形,清华年夜学与瑞莱聪明结合团队推出年夜言语模子 RealSafe-R1。该模子基于 DeepSeek R1 停止深度优化与后练习,在确保机能稳固的基本上,实现了保险性的明显晋升。RealSafe-R1 各尺寸模子及数据集将于一周后连续开放下载。▲ StrongReject 数据集保险性得分瑞莱聪明方面表现,RealSafe-R1 系列年夜模子比拟 DeepSeek-R1 保险性年夜幅晋升,优于国际上被以为保险性较好的闭源年夜模子 Claude3.5、GPT-4o 等,为 DeepSeek 生态添砖加瓦。此中,RealSafe-R1 7B 基于 DeepSeek-R1-Distill-Qwen-7B 后练习失掉,RealSafe-R1 32B 基于 DeepSeek-R1-Distill-Qwen-32B 后练习失掉。为了加强模子的保险认识跟推理才能,研讨团队提出了 STAIR 框架(SafeTy Alignment with Introspective Reasoning),采取三阶段的方式,体系性晋升基本模子在庞杂的保险对齐场景中表示。论文试验成果标明,基于 Llama-3.1-8B-Instruct、Qwen-2-7B-Instruct 等基本模子,STAIR 框架无效晋升了年夜言语模子的保险性,并坚持了通用机能。保险方面,STAIR 谢绝歹意成绩的才能失掉显明加强,不只在直接讯问的情景下能坚持保险性,还能经由过程深刻剖析晋升针对逃狱攻打的鲁棒性。在 StrongReject 数据集上,STAIR 相较基本模子良性分数相对值晋升了 0.47(0.40- 0.87),保险性晋升一倍不足,明显高于其余基线方式。通用性方面,STAIR 在 GSM8k、SimpleQA、AdvGLUE、AlpacaEval 等通用机能测试中,仍然坚持乃至进步了模子的推理才能、现实性跟鲁棒性,具体测试数据见论文。IT之家附论文地点:https://arxiv.org/pdf/2502.02384v1
Tel
Mail
Map
Share
Contact