当前位置：首页 > TMT > 正文

YouTube未授权数据使用引关注，苹果、英伟达等科技企业陷“偷用”争议？

2024-07-17 15:35:46 来源：中华网财经 A+A-

文｜罗曾

随着人工智能技术的飞速发展，数据已成为AI训练不可或缺的资源，如何合法、合规地获取和使用数据，已成为行业发展的重要课题。而近期媒体曝光的“偷用”事件，将苹果、英伟达在内的科技巨头推至风口浪尖。

7月17日，据媒体报道，苹果、英伟达、Salesforce和Anthropic等知名公司被指在训练其AI模型时，使用了未经授权的YouTube视频字幕数据。

据悉，该数据集名为“YouTube Subtitles”，规模庞大，总大小达到5.7GB，包含4.89亿个单词，覆盖了超过4.8万个频道中的17.35万个视频。这些数据不仅包括视频博主上传的字幕，还有YouTube自动生成的转录文本，语言种类丰富，包括英语、日语、德语和阿拉伯语等。

值得注意的是，这些数据并非由科技公司直接从YouTube上抓取，而是来源于一个名为Eleuther AI的非营利组织。Eleuther AI下载并整合了这些字幕文件，作为其发布的“大数据集”——「The Pile」的一部分。尽管Eleuther AI的初衷可能是为小型开发者和学者提供训练材料，但其行为实际上违反了YouTube禁止未经许可抓取内容的规定。

此事件引发了关于数据使用方面的相关讨论，例如内容创作者的版权和隐私权保护、数据共享与开放获取等。

盘古智库高级研究员江瀚向中华网财经指出，首先，这一事件暴露了人工智能行业在数据合规方面的几个关键漏洞：一是数据来源的合法性验证不足，企业可能过于追求数据的丰富性和多样性，而忽视了数据获取的合法性和授权问题；二是数据使用规范的缺失，即便企业获取了合法数据，但在使用过程中也可能存在超出授权范围或未经许可的用途变更；三是隐私保护机制的不足，未能充分保护数据主体的隐私权，尤其是在处理涉及个人信息的敏感数据时。

就科技公司而言，苹果、英伟达等作为事件的主要参与者，虽然并未直接参与数据的非法获取，但其使用这些数据的行为，也暴露了在数据来源审核和合规性方面的不足。

因此，江瀚认为，科技公司应建立严格的数据审核机制，明确数据审核的标准和流程，确保所有用于AI训练的数据都经过严格的筛选和验证。这包括对数据来源的合法性、数据内容的准确性、数据质量的可靠性等方面进行全面审查；其次，科技公司应加强与数据提供方的沟通与合作，确保在获取数据前明确数据使用的目的、范围、期限等，并获取必要的授权。同时，在数据使用过程中，应定期与数据提供方进行沟通和确认，确保数据使用的合规性；此外，科技公司应引入先进的数据审核技术和工具，如自然语言处理、机器学习等技术，辅助人工审核，提高数据审核的效率和准确性，同时加强对数据审核人员的培训和管理，提高他们的数据合规意识和审核能力；最后，科技公司应建立数据合规的监督和问责机制，对违反数据合规规定的行为进行严肃处理，并公开透明地披露数据合规情况，接受社会监督。通过不断完善数据审核流程和管理机制，科技公司可以确保未来使用的AI训练数据符合法律法规要求，为人工智能行业的健康发展贡献力量。

那么，在AI技术发展迅速的当下，企业如何平衡数据的开放性和个人隐私权的保护？江瀚建议：“一是加强数据合规意识，建立健全的数据合规管理体系，明确数据获取、使用、存储和销毁的全流程规范；二是加强数据隐私保护，采用加密技术、匿名化处理等手段，确保个人数据在传输、存储和使用过程中的安全性；三是推动数据共享与合作的合规化，与数据提供方明确数据使用的目的、范围、期限等，并获取必要的授权；四是加强技术创新，研发更加高效、精准的数据处理和分析技术，减少对数据量的过度依赖，降低数据合规风险。”

(责任编辑：zx0600)