社会模拟迈入可控、可量化时代:为AI Agent加上「认知滑条」
发布时间:2026-03-27 16:57 浏览量:1
用大模型做社会模拟,你能保证换个模型, Agent 还会做出一样的决策吗?在 LLM-based 社会模拟中,研究者通常用一段自然语言描述来定义 Agent 的行为,例如「John Lin 是一个社区药店老板,他热心助人……」。这种基于人设的 Agent 定义方式已被广泛采用,几乎成为社会模拟领域的标准范式。然而:
这些描述究竟是在「定义 Agent 」,还是只是提供了一种松散且无法稳定复现的行为暗示?
UCSD 团队在 CHI 2026 Best Paper 论文
CoBRA (眼镜蛇)
中提出了一套可量化、可验证、可复现的 Agent 控制框架。它
将经典社会科学实验转化为可复用的校准环境,使 Agent 行为可被测量、反馈与收敛,建立类似实验科学的变量控制机制
,并在输入、激活与参数空间实现定量化控制。
CoBRA 标志着
AI 社会模拟从经验式叙述走向可控、可复现的实验科学范式。
论文标题
:CoBRA: Programming Cognitive Bias in Social Agents Using Classic Social Science Experiments
论文链接
:https://arxiv.org/abs/2509.13588
代码链接
:https://github.com/AISmithLab/CoBRA
项目主页
:https://cobra.clawder.ai
自然语言人设的可控性困境
研究者首先做了一组先导实验。他们用经典社会科学实验——亚洲疾病问题——来测试 Agent 的框架效应。这是行为决策研究中的经典范式:当同一个结果被描述为「 200 人被救活」或「 400 人将死亡」时,人类会系统性地改变决策偏好。
他们设计了三种 Agent 人设——经济学家、普通人和空白(无描述)——并在 Mistral 7B 、 Gemma2 9B 、 GPT-4o Mini 、 DeepSeek-v3 四个模型上进行了测试。
结果令人反思:
同一描述,不同模型,行为完全不同。
结果显示所有条件下跨模型行为差异显著。例如, Mistral 7B 的回答严重偏向正面框架,而 Gemma2 9B 的回答接近中性。
隐式描述无法可靠地产生预期行为。
社会科学研究表明,经济学专家往往比普通人更不容易受到框架效应的影响。但四个模型中,只有 GPT-4o 的结果勉强符合这一预期; DeepSeek 中经济学家反而比普通人更容易受影响; Mistral 三种人设几乎没有区别。
一句话总结:用自然语言给 Agent 写人设,在科学意义上是不可控的、不可复现的。
CoBRA:用经典实验为 Agent 行为「标定刻度」
图:CoBRA 工作流
CoBRA 的核心思路出奇地优雅:
把经过几十年验证的经典社会科学实验当作 Agent 的「考试」,测完再调,调到达标。
例如,我们希望精确指定一个 Agent 受到「框架效应」这种认知偏差的影响程度,就可以让它参加经典的「亚洲疾病问题」等实验,测量其决策差异,将这种差异量化为偏差指数,并根据目标水平调节控制系数,再次测量,直至其偏差程度达到预设值。
CoBRA 以「认知偏差」作为试点。认知偏差不同于抽象的价值观或道德判断,它具有明确的实验定义、可计算的行为指标以及可验证的干预路径,因此更适合作为构建可量化调节的工程起点。
具体来说, CoBRA 包含两个核心组件:
1. 认知偏差指数——量化 Agent 的偏差程度
CoBRA 的认知偏差指数建立在经典社会科学实验范式之上,系统性地覆盖四类具有代表性的认知偏差(权威效应、从众效应、确认偏差与框架效应),每类偏差均对应两种经典实验范式,用于交叉校准与验证。 Agent 在这些实验中的表现被量化为一个 0-4 的连续分数。同一偏差类型的两个范式相互验证——在一个范式上校准的控制系数,在另一个范式上也应产生一致的效果。
2. 行为调节引擎——从三个层次调控 Agent
行为调节引擎覆盖 LLM 的三个基本干预空间:
输入空间(Prompt Numerical Control):
用数值化指令(如「你的权威偏差程度是 65% 」)替代模糊的定性描述,无需训练。该方法适用于所有模型。
激活空间(Representation Engineering):
通过三组对比样本(偏差正例 / 中性 / 反例),提取出干净的偏差方向向量,并与安全拒绝信号分离,在推理时注入隐藏状态。注入方式有两种: Linear Control 像是均匀放大或减弱偏差强度,表达范围更广; Projection Control 则根据当前语境自适应调节,控制曲线更平滑稳定。该方法适用于开源模型。
参数空间(Fine-tuning with Task Vectors):
分别训练一个「有偏差」和「无偏差」的 LoRA ,然后用 task vector 差值作为控制信号,通过控制系数精确调节。
每种方法都通过一个控制系数与认知偏差指数形成闭环: CoBRA 自动扫描控制系数,测量 Agent 在实验中的表现,直到达到目标指数。
跨模型一致性与鲁棒性验证
论文在多类开源与闭源系统上开展系统评测,验证了 CoBRA 的
跨模型、跨推理模式与跨场景稳定性:
其显著降低行为方差,在 0.1–1.0 温度区间内保持统计等价,并在不同推理模式下呈现高度一致的控制曲线。
在此基础上,作者进一步从单调性、平滑度、表达范围与泛化性四个维度系统评估其可控性。结果显示,激活空间的控制在单调性与平滑度上表现最佳,输入空间控制则提供更大的表达范围。同时,控制系数可在不同实验范式间迁移,并在不同人设设定下保持高度一致,展现出良好的泛化能力。
开放任务验证
论文进一步模拟了经典的情绪传染场景,以展示 CoBRA 的实际应用价值。在实验中, Agent 浏览包含不同比例负面帖子的社交媒体信息流,随后生成新的内容。研究者通过分析其生成文本的情绪变化,衡量情绪传染的强度。
基线方法仅通过自然语言描述调节偏差强度,结果显示不同偏差等级的 Agent 情绪传染曲线几乎完全重叠,难以有效区分。相比之下, CoBRA 呈现出清晰的剂量——响应关系:从众效应认知偏差指数越高, Agent 表现出的情绪传染程度也越强,不同等级之间具有明确且稳定的区分度。
该情绪传染实验基于开放式任务,体现出 CoBRA 明确的实际应用价值。
从「像那么回事」到「可控和可复现」
这项工作的意义,可以概括为从「看起来像那么回事」到「可控、可复现的科学研究」的跨越。过去的 LLM 社会模拟依赖自然语言人设来塑造行为,直观却缺乏稳定的控制结构。 CoBRA 将经典社会科学实验转化为可复用的校准环境,使 Agent 行为能够被持续测量与调节,从而建立起类似实验科学的变量控制机制。
CoBRA 让 Agent 拥有清晰的刻度与调节旋钮。当 Agent 行为可以被标定和收敛,社会模拟也就真正进入了可复现的工程阶段。
作者信息
刘萱:
加州大学圣地亚哥分校(UCSD)博士生, 2025 年本科毕业于香港理工大学。研究方向聚焦人工智能与人机交互,关注 AI 系统的类人认知与社会智能机制,构建面向科学研究的 AI 工具,以及其隐私与安全问题。个人主页:https://xuanl17.github.io/
商昊暘:
独立学者, 2025 年本科毕业于上海交通大学,将于 2026 年秋季加入英属哥伦比亚大学(UBC)深造。
金浩健:
加州大学圣地亚哥分校(UCSD)助理教授,博士毕业于卡内基梅隆大学人机交互研究所(CMU HCII),本科就读于华中科技大学。研究方向涵盖人机交互、隐私与安全及人本系统设计。个人主页:https://www.haojianj.in/