开源许可获得 AI 升级

2025-02-13 | Poplar at twilight | CC-BY-SA-4.0

openSUSE 社区的开发人员继续致力于提高法律合规性和软件透明度，在 Hugging Face 上发布了 Cavil 法律文本数据集。

该数据集旨在加强自动法律文本分类，从而减少人工审核工作，提高识别软件项目中法律片段的准确性。

该项目的开发者之一 Sebastian Riedel 说：“将数据集开源比仅仅将我们微调的模型的权重开源更酷，因为每个人都可以使用它，根据他们想要的任何开放权重模型制作自己的版本。”

该数据集拥有 150,000 个标注样本，有助于训练人工智能模型，以高精度区分法律和非法律文本。它通过改进文本分类、模式匹配和减少对人工干预的依赖，实现了法律审查工作流程。

Cavil 由三个关键部分组成：带有 REST API 的用户友好型网络应用程序、用于处理模式匹配和分析等后台任务的作业队列，以及不断提高法律文本识别能力的人工智能文本分类服务器。所有这些组件都通过 PostgreSQL 和 HTTP 进行无缝交互；这使得人类专家和律师能够高效地大规模验证软件许可证。

目前，Cavil 在生产中采用了字符级卷积神经网络（CNN）模型，这是因为它效率高，而且与现有基础设施兼容。不过，我们正在探索使用微调 LLM 的替代方法。 LLM-lawyer 实验表明，大型语言模型可以提供适应性更强、更能感知上下文的分类，而不需要频繁地重新训练。

该数据集采用 GPL-2.0 或更高版本授权，可在 Hugging Face 上免费获取，供研究人员、开发人员和合规团队探索和贡献。开源贡献者可以完善人工智能分类模型，提出新的法律文本模式，并支持软件项目中自动法律合规性的持续改进。

感兴趣的人可以访问 Hugging Face 上的数据集，阅读 Cavil 文档，通过 Llama-Lawyer 存储库试用 Llama-3，并通过 GitHub 为 openSUSE 的合规工作做出贡献。

原文：Open-Source Licensing Gets AI Upgrade，作者：Douglas DeMaio

分类: 社区新闻

标签: 翻译作品官方新闻

分享帖子: