防备AI模型越狱新技能维护的办法来了

来源：BB贝博APP体育发布时间：2025-02-09 01:17:21

防备AI模型越狱新技能维护办法来了

为了应对AI东西中存在的乱用自然言语提示的问题，Anthropic公司推出了一项名为“宪法分类器（constitutional classifiers）”的新概念。该技能将类似于人类价值观的宪法植入大型言语模型中，以避免模型逾越安全防护规模生成超出预期的输出内容。

这项安全保证研讨团队在最新学术论文中发布了这一新的安全办法。他们发现，在施行宪法分类器后，针对Claude3.5 Sonnet（即 Anthropic 公司最新的大型言语模型）的成功越狱状况减少了81.6%。一起，宪法分类器对功能的影响极小，“出产流量回绝率仅肯定添加0.38%，推理开支添加23.7%”。

Anthropic公司还发布了一个演示项目，向用户建议应战，让他们测验打破8个与化学、生物、放射和核（CBRN）相关联的内容相关的越狱关卡。但是，这一行动也引发了一些批判声响，有的人觉得这相当于众包安全志愿者或“红队队员”。有人质疑：“所以你是让社区无偿为你作业，好让你在闭源模型上赚取更多赢利？”

Anthropic公司指出，成功越狱的模型是绕过了宪法分类器的防护办法，并非直接躲避它们。他们列举了两种越狱办法：良性释义和长度使用。良性释义是指经过改动表述方法来诈骗大型言语模型；长度使用则是经过无关细节误导模型。

但是， Anthropic 公司也供认，在测验期间提交的提示“回绝率高得离谱”，意识到其根据规矩的检测体系存在误报和漏报的可能性。

总归，Anthropic公司的新安全办法在遏止大型言语模型越狱方面取得了必定效果，并展示出宪法分类器在处理自然言语提示乱用问题上的潜力。但是，必需要分外留意的是这些技能并不能彻底处理一切问题，而且要进一步的研讨和改善。

上一篇:光伏巨子专利战再晋级晶科动力在日本申述隆基绿能

返回列表

下一篇:强化科研伦理规范防止AI技术滥用

产品推荐

新闻推荐