本体论在人工智能训练数据中呼吁人类验证，且不牺牲隐私

2026-05-20 23:04:39

本体正关注人工智能领域日益突出的一个问题：如何在不让整个过程变成隐私噩梦的情况下，证明一份训练数据来自真实的人？

在最近的一篇文章中，该项目认为答案不应是增加监控。与其要求贡献者交出自拍、身份证、生物识别扫描和其他个人信息，本体表示行业应依赖可验证的凭证和选择性披露，让人们可以证明自己是人类，而无需泄露所有个人信息。

这个想法比一年前更为重要。人工智能训练数据的讨论显然已经发生了转变。过去主要关注规模、数据量以及能收集到多少数据。现在更大的问题是这些数据来自哪里，是否真正由人类创造，以及其中有多少已经被合成内容污染。

这个担忧不再是一个小众问题。它已成为AI团队试图构建更清洁、更可靠模型时面临的最大难题之一。Ontology表示，市场已经开始将“证明身份”视为一种宝贵资产。经过验证的人类数据正变得可能需要公司支付额外费用。

需求在增加，但供应有限，而且许多平台计划验证人的方式在该公司看来是深度有缺陷的。大多数平台最简单也是最具侵入性的方法是：

如果他们想知道某人是否是人类，通常会要求提供越来越多的个人信息。他们可能需要自拍、政府身份证、活体检测、行为追踪、设备指纹，或上述所有的组合。

每一层都可能增强验证的可信度，但也意味着用户会放弃更多隐私。随着时间推移，试图证明自己是真实的人的过程会被拆解成一组存储在他人系统中的数据点。Ontology认为这是错误的权衡。

该公司表示，问题不在于人们需要被验证，而在于当前模型假设验证必须伴随永久曝光。这就是行业使用旨在收集尽可能多数据的集中式工具时发生的事情。实际上，人类成为了信任的成本。

真正的突破

Ontology所指向的替代方案是基于W3C可验证凭证数据模型2.0，该模型于2025年5月被宣布为推荐标准。这个想法非常简单，即使其背后的密码学并不复杂：可信的发行者，比如政府、银行或验证提供者，可以确认某个人的某些信息一次，而该凭证可以存储在用户自己的设备上。

当平台后来需要知道那个人是否是人类时，用户可以出示一个密码学证明，而不是交出整个基础记录。这意味着验证者得到它所需要的信息，而没有多余的内容。

它知道可信发行者已确认该人为人类，但不会看到该人的完整身份档案、生物识别数据或其他额外细节。发行者无需在每次使用凭证时联系，用户也不会在不同平台之间留下可链接的标识符轨迹。

Ontology表示，真正的突破在于选择性披露。这正是使系统真正隐私保护的关键。凭证可以包含大量信息，但用户只披露与特定请求相关的部分。因此，如果平台只需要证明身份，它就只会得到那一部分，而不会得到其他信息。

没有额外的个人数据，没有生物识别信息，也没有可以后续拼接的可重用的个人资料片段。该公司还提到其在去中心化身份方面的工作，包括ONT ID和ONTO Wallet，作为实践中的示例。

据Ontology称，这些工具旨在将凭证保留在设备上，让用户在本地生成证明，而无需向发行者或验证者暴露私人数据。更大的意义在于，这不仅关乎Ontology，而是关于人工智能基础设施的未来方向。

随着公司竞相清理训练数据，试图确定哪些数据仍然可信，验证人类贡献者的压力只会增加。真正的问题在于行业是否通过在技术堆栈中增加更多监控来解决这个问题，还是通过使用让人们在不牺牲隐私的情况下证明自己是真实的系统。

显然，Ontology押注于第二种选择。而随着AI公司越来越关注数据的来源而非纯粹的数量，这一押注可能不再只是一个隐私的边缘话题，而是迈向下一阶段AI数据收集的实际需求。

ONT4.93%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论

热门话题