社会模拟迈入可控、可量化时代：为AI Agent加上「认知滑条」

发布时间：2026-03-27 16:57 浏览量：32

用大模型做社会模拟，你能保证换个模型， Agent 还会做出一样的决策吗？在 LLM-based 社会模拟中，研究者通常用一段自然语言描述来定义 Agent 的行为，例如「John Lin 是一个社区药店老板，他热心助人……」。这种基于人设的 Agent 定义方式已被广泛采用，几乎成为社会模拟领域的标准范式。然而：

这些描述究竟是在「定义 Agent 」，还是只是提供了一种松散且无法稳定复现的行为暗示？

UCSD 团队在 CHI 2026 Best Paper 论文

CoBRA （眼镜蛇）

中提出了一套可量化、可验证、可复现的 Agent 控制框架。它

将经典社会科学实验转化为可复用的校准环境，使 Agent 行为可被测量、反馈与收敛，建立类似实验科学的变量控制机制

，并在输入、激活与参数空间实现定量化控制。

CoBRA 标志着

AI 社会模拟从经验式叙述走向可控、可复现的实验科学范式。

论文标题

：CoBRA: Programming Cognitive Bias in Social Agents Using Classic Social Science Experiments

论文链接

：https://arxiv.org/abs/2509.13588

代码链接

：https://github.com/AISmithLab/CoBRA

项目主页

：https://cobra.clawder.ai

自然语言人设的可控性困境

研究者首先做了一组先导实验。他们用经典社会科学实验——亚洲疾病问题——来测试 Agent 的框架效应。这是行为决策研究中的经典范式：当同一个结果被描述为「 200 人被救活」或「 400 人将死亡」时，人类会系统性地改变决策偏好。

他们设计了三种 Agent 人设——经济学家、普通人和空白（无描述）——并在 Mistral 7B 、 Gemma2 9B 、 GPT-4o Mini 、 DeepSeek-v3 四个模型上进行了测试。

结果令人反思：

同一描述，不同模型，行为完全不同。

结果显示所有条件下跨模型行为差异显著。例如， Mistral 7B 的回答严重偏向正面框架，而 Gemma2 9B 的回答接近中性。

隐式描述无法可靠地产生预期行为。

社会科学研究表明，经济学专家往往比普通人更不容易受到框架效应的影响。但四个模型中，只有 GPT-4o 的结果勉强符合这一预期； DeepSeek 中经济学家反而比普通人更容易受影响； Mistral 三种人设几乎没有区别。

一句话总结：用自然语言给 Agent 写人设，在科学意义上是不可控的、不可复现的。

CoBRA：用经典实验为 Agent 行为「标定刻度」

图：CoBRA 工作流

CoBRA 的核心思路出奇地优雅：

把经过几十年验证的经典社会科学实验当作 Agent 的「考试」，测完再调，调到达标。

例如，我们希望精确指定一个 Agent 受到「框架效应」这种认知偏差的影响程度，就可以让它参加经典的「亚洲疾病问题」等实验，测量其决策差异，将这种差异量化为偏差指数，并根据目标水平调节控制系数，再次测量，直至其偏差程度达到预设值。

CoBRA 以「认知偏差」作为试点。认知偏差不同于抽象的价值观或道德判断，它具有明确的实验定义、可计算的行为指标以及可验证的干预路径，因此更适合作为构建可量化调节的工程起点。

具体来说， CoBRA 包含两个核心组件：

1. 认知偏差指数——量化 Agent 的偏差程度

CoBRA 的认知偏差指数建立在经典社会科学实验范式之上，系统性地覆盖四类具有代表性的认知偏差（权威效应、从众效应、确认偏差与框架效应），每类偏差均对应两种经典实验范式，用于交叉校准与验证。 Agent 在这些实验中的表现被量化为一个 0-4 的连续分数。同一偏差类型的两个范式相互验证——在一个范式上校准的控制系数，在另一个范式上也应产生一致的效果。

2. 行为调节引擎——从三个层次调控 Agent

行为调节引擎覆盖 LLM 的三个基本干预空间：

输入空间（Prompt Numerical Control）：

用数值化指令（如「你的权威偏差程度是 65% 」）替代模糊的定性描述，无需训练。该方法适用于所有模型。

激活空间（Representation Engineering）：

通过三组对比样本（偏差正例 / 中性 / 反例），提取出干净的偏差方向向量，并与安全拒绝信号分离，在推理时注入隐藏状态。注入方式有两种： Linear Control 像是均匀放大或减弱偏差强度，表达范围更广； Projection Control 则根据当前语境自适应调节，控制曲线更平滑稳定。该方法适用于开源模型。

参数空间（Fine-tuning with Task Vectors）：

分别训练一个「有偏差」和「无偏差」的 LoRA ，然后用 task vector 差值作为控制信号，通过控制系数精确调节。

每种方法都通过一个控制系数与认知偏差指数形成闭环： CoBRA 自动扫描控制系数，测量 Agent 在实验中的表现，直到达到目标指数。

跨模型一致性与鲁棒性验证

论文在多类开源与闭源系统上开展系统评测，验证了 CoBRA 的

跨模型、跨推理模式与跨场景稳定性：

其显著降低行为方差，在 0.1–1.0 温度区间内保持统计等价，并在不同推理模式下呈现高度一致的控制曲线。

在此基础上，作者进一步从单调性、平滑度、表达范围与泛化性四个维度系统评估其可控性。结果显示，激活空间的控制在单调性与平滑度上表现最佳，输入空间控制则提供更大的表达范围。同时，控制系数可在不同实验范式间迁移，并在不同人设设定下保持高度一致，展现出良好的泛化能力。

开放任务验证

论文进一步模拟了经典的情绪传染场景，以展示 CoBRA 的实际应用价值。在实验中， Agent 浏览包含不同比例负面帖子的社交媒体信息流，随后生成新的内容。研究者通过分析其生成文本的情绪变化，衡量情绪传染的强度。

基线方法仅通过自然语言描述调节偏差强度，结果显示不同偏差等级的 Agent 情绪传染曲线几乎完全重叠，难以有效区分。相比之下， CoBRA 呈现出清晰的剂量——响应关系：从众效应认知偏差指数越高， Agent 表现出的情绪传染程度也越强，不同等级之间具有明确且稳定的区分度。

该情绪传染实验基于开放式任务，体现出 CoBRA 明确的实际应用价值。

从「像那么回事」到「可控和可复现」

这项工作的意义，可以概括为从「看起来像那么回事」到「可控、可复现的科学研究」的跨越。过去的 LLM 社会模拟依赖自然语言人设来塑造行为，直观却缺乏稳定的控制结构。 CoBRA 将经典社会科学实验转化为可复用的校准环境，使 Agent 行为能够被持续测量与调节，从而建立起类似实验科学的变量控制机制。

CoBRA 让 Agent 拥有清晰的刻度与调节旋钮。当 Agent 行为可以被标定和收敛，社会模拟也就真正进入了可复现的工程阶段。

作者信息

刘萱：

加州大学圣地亚哥分校（UCSD）博士生， 2025 年本科毕业于香港理工大学。研究方向聚焦人工智能与人机交互，关注 AI 系统的类人认知与社会智能机制，构建面向科学研究的 AI 工具，以及其隐私与安全问题。个人主页：https://xuanl17.github.io/

商昊暘：

独立学者， 2025 年本科毕业于上海交通大学，将于 2026 年秋季加入英属哥伦比亚大学（UBC）深造。

金浩健：

加州大学圣地亚哥分校（UCSD）助理教授，博士毕业于卡内基梅隆大学人机交互研究所（CMU HCII），本科就读于华中科技大学。研究方向涵盖人机交互、隐私与安全及人本系统设计。个人主页：https://www.haojianj.in/

标签： cobr agent aiagent 滑条认知滑条

社会模拟迈入可控、可量化时代：为AI Agent加上「认知滑条」

相似文章

资讯分类

热门资讯

热门标签

热门产品