GitHub 决定使用用户数据来训练人工智能
发布时间:2026-03-28 20:13 浏览量:1
导读:昨天还说GitHub不容易,今天就开始准备使用用户数据训练AI了。
微软的 GitHub 计划在4月24日开始使用用户交互数据,举例来说有:“输入、输出、代码片段和相关上下文”来训练其人工智能模型。
GitHub Copilot Free、Pro 和 Pro+ 用户将适用修订后的代码库政策。Copilot Business 和 Copilot Enterprise 用户遵守原合同条款的限制,不受此政策影响。使用 Copilot 的学生和教师也不受影响。
GitHub 的首席产品官马里奥·罗德里格斯 (Mario Rodriguez) 称:
“通过参与,你将帮助我们的模型更好地理解开发工作流程,提供更准确、更安全的代码模式建议,并提高它们帮助你在潜在错误进入生产环境之前将其捕获的能力。”
GitHub在其常见问题解答中指出,Anthropic、JetBrains和其母公司微软都实行类似的退出与数据使用政策。
罗德里格斯表示,此次变更的理由是,交互数据能够提升公司人工智能模型的性能。他声称,添加来自微软员工的交互数据带来了显著的改进,例如提高了人工智能模型建议的接受率。
GitHub 需要的用户数据包括:
已被接受或修改的模型输出;模型输入(包括所示代码片段);光标位置周围的代码上下文;你撰写的评论和文档;文件名和仓库结构;与 Copilot 功能(例如聊天)的交互;反馈(例如点赞/点踩评分)。
这项政策在一定程度上改变了 GitHub私有仓库的含义,其概念上“仅对你、你明确共享访问权限的人以及(对于组织仓库而言)某些组织成员可见”。更准确的描述或许应该是“GitHub 私有仓库”。
对此微软也为受影响的用户提供了退出或选择项,可以访问https://github.com/settings/copilot/features,并在“隐私”标题下禁用“允许 GitHub 使用我的数据进行 AI 模型训练”。