GitHub 决定使用用户数据来训练人工智能

发布时间：2026-03-28 20:13 浏览量：65

导读：昨天还说GitHub不容易，今天就开始准备使用用户数据训练AI了。

微软的 GitHub 计划在4月24日开始使用用户交互数据，举例来说有：“输入、输出、代码片段和相关上下文”来训练其人工智能模型。

GitHub Copilot Free、Pro 和 Pro+ 用户将适用修订后的代码库政策。Copilot Business 和 Copilot Enterprise 用户遵守原合同条款的限制，不受此政策影响。使用 Copilot 的学生和教师也不受影响。

GitHub 的首席产品官马里奥·罗德里格斯 (Mario Rodriguez) 称：

“通过参与，你将帮助我们的模型更好地理解开发工作流程，提供更准确、更安全的代码模式建议，并提高它们帮助你在潜在错误进入生产环境之前将其捕获的能力。”

GitHub在其常见问题解答中指出，Anthropic、JetBrains和其母公司微软都实行类似的退出与数据使用政策。

罗德里格斯表示，此次变更的理由是，交互数据能够提升公司人工智能模型的性能。他声称，添加来自微软员工的交互数据带来了显著的改进，例如提高了人工智能模型建议的接受率。

GitHub 需要的用户数据包括：

已被接受或修改的模型输出；模型输入（包括所示代码片段）;光标位置周围的代码上下文；你撰写的评论和文档；文件名和仓库结构；与 Copilot 功能（例如聊天）的交互；反馈（例如点赞/点踩评分）。

这项政策在一定程度上改变了 GitHub私有仓库的含义，其概念上“仅对你、你明确共享访问权限的人以及（对于组织仓库而言）某些组织成员可见”。更准确的描述或许应该是“GitHub 私有仓库”。

对此微软也为受影响的用户提供了退出或选择项，可以访问https://github.com/settings/copilot/features，并在“隐私”标题下禁用“允许 GitHub 使用我的数据进行 AI 模型训练”。

标签：训练微软人工智能 jetbrains github