来源:BB贝博APP体育 发布时间:2025-02-09 01:17:21
为了应对AI东西中存在的乱用自然言语提示的问题,Anthropic公司推出了一项名为“宪法分类器(constitutional classifiers)”的新概念。该技能将类似于人类价值观的宪法植入大型言语模型中,以避免模型逾越安全防护规模生成超出预期的输出内容。
这项安全保证研讨团队在最新学术论文中发布了这一新的安全办法。他们发现,在施行宪法分类器后,针对Claude3.5 Sonnet(即 Anthropic 公司最新的大型言语模型)的成功越狱状况减少了81.6%。一起,宪法分类器对功能的影响极小,“出产流量回绝率仅肯定添加0.38%,推理开支添加23.7%”。
Anthropic公司还发布了一个演示项目,向用户建议应战,让他们测验打破8个与化学、生物、放射和核(CBRN)相关联的内容相关的越狱关卡。但是,这一行动也引发了一些批判声响,有的人觉得这相当于众包安全志愿者或“红队队员”。有人质疑:“所以你是让社区无偿为你作业,好让你在闭源模型上赚取更多赢利?”
Anthropic公司指出,成功越狱的模型是绕过了宪法分类器的防护办法,并非直接躲避它们。他们列举了两种越狱办法:良性释义和长度使用。良性释义是指经过改动表述方法来诈骗大型言语模型;长度使用则是经过无关细节误导模型。
但是, Anthropic 公司也供认,在测验期间提交的提示“回绝率高得离谱”,意识到其根据规矩的检测体系存在误报和漏报的可能性。
总归,Anthropic公司的新安全办法在遏止大型言语模型越狱方面取得了必定效果,并展示出宪法分类器在处理自然言语提示乱用问题上的潜力。但是,必需要分外留意的是这些技能并不能彻底处理一切问题,而且要进一步的研讨和改善。
产品推荐