开源许可获得 AI 升级
2025-02-13 | Poplar at twilight | CC-BY-SA-4.0

openSUSE 社区的开发人员继续致力于提高法律合规性和软件透明度,在 Hugging Face 上发布了 Cavil 法律文本数据集。
该数据集旨在加强自动法律文本分类,从而减少人工审核工作,提高识别软件项目中法律片段的准确性。
该项目的开发者之一 Sebastian Riedel 说:“将数据集开源比仅仅将我们微调的模型的权重开源更酷,因为每个人都可以使用它,根据他们想要的任何开放权重模型制作自己的版本。”
Cavil 法律文本数据集支持 Cavil,这是一个用于自动提取和分类软件包中潜在法律文本的系统。通过利用人工智能,Cavil 在检测许可信息、版权声明和合规相关内容时可将误报率降至最低;这可确保法律专家专注于关键案件,而不是对大量无关数据进行分类。
该数据集拥有 150,000 个标注样本,有助于训练人工智能模型,以高精度区分法律和非法律文本。它通过改进文本分类、模式匹配和减少对人工干预的依赖,实现了法律审查工作流程。
Cavil 由三个关键部分组成:带有 REST API 的用户友好型网络应用程序、用于处理模式匹配和分析等后台任务的作业队列,以及不断提高法律文本识别能力的人工智能文本分类服务器。所有这些组件都通过 PostgreSQL 和 HTTP 进行无缝交互;这使得人类专家和律师能够高效地大规模验证软件许可证。
目前,Cavil 在生产中采用了字符级卷积神经网络(CNN)模型,这是因为它效率高,而且与现有基础设施兼容。 不过,我们正在探索使用微调 LLM 的替代方法。 LLM-lawyer 实验表明,大型语言模型可以提供适应性更强、更能感知上下文的分类,而不需要频繁地重新训练。
该数据集采用 GPL-2.0 或更高版本授权,可在 Hugging Face 上免费获取,供研究人员、开发人员和合规团队探索和贡献。 开源贡献者可以完善人工智能分类模型,提出新的法律文本模式,并支持软件项目中自动法律合规性的持续改进。
感兴趣的人可以访问 Hugging Face 上的数据集,阅读 Cavil 文档,通过 Llama-Lawyer 存储库试用 Llama-3,并通过 GitHub 为 openSUSE 的合规工作做出贡献。
原文:Open-Source Licensing Gets AI Upgrade,作者:Douglas DeMaio