大脑奖惩系统自上而下的神经调控机制

为了更好的生存，人和动物往往需要把奖赏最大化，把惩罚和威胁最小化。这个过程是由大脑中的前扣带皮层（anterior cingulate cortex, ACC）来调控的。ACC位于前额叶，是高级认知中枢所在。然而，ACC对奖惩的调控机制并不清楚。根据目前的研究结果，对于ACC的作用机制，科学家们提出了四种假说。

1. ACC会根据奖惩信息的价值进行排序，单个ACC中的神经元既编码奖励信息，又编码惩罚信息。然后把这些价值信号传递给其他的脑区，进而做出行动。

2. ACC更倾向于编码惩罚信息。

3. ACC会编码预测误差（即理想与现实的差距），而非绝对的价值信息。

4. ACC会处理一些不确定的信息和其他的学习相关变量。

以上假说之间既有相同之处，又看似矛盾。我认为这是典型的“盲人摸象”现象。由于大脑中神经元众多，结构复杂，研究方法多种多样，不同的研究有不同的倾向性，得到的也只是在某一个研究方法中某一尺度下的研究结果。因此，我们需要整合不同的研究信息，即整合所有盲人认为大象的样子，试图还原大象的真实面目，也就是ACC的综合调控机制。

为了更清楚的认识ACC，Monosov设计了一个经典的条件反射实验。实验中，猴子会建立图片刺激与奖赏（Juice）、惩罚（Airpuff）或者不确定信息之间的关系，同时记录了猴子ACC区域中329个神经元的电活动。

通过分析每个神经元对刺激的响应，科学家惊奇的发现，有的神经元对惩罚响应强烈，对奖赏毫无反应，有的神经元对奖赏响应强烈，而对惩罚毫无反应。

总结下来，ACC中至少存在四种不同响应模式的神经元，分别是惩罚正相关编码型（Punishment (+) coding），奖赏正相关编码型（Reward (+) coding），奖赏负相关编码型（Reward (-) coding）和动机强度编码型（Motivational intensity(+)）。

我们来进一步看看一个典型的惩罚正相关编码型神经元的电活动：

以及一个典型的奖赏正相关编码型神经元的电活动：

写到这里，我觉得我们的大脑真是太奇妙了。为了编码奖励和惩罚信息，ACC中包含了多种不同偏好的神经元，这些神经元构成了不同的神经环路，可以在不同的时间尺度上对奖赏、惩罚和不确定性状态起到自上而下的调控作用。这个研究结果整合并统一了开始提到的四个假说，让我们对ACC的“真实形象”有了更加清楚和深刻的认识。

参考文献：
IIya E. Monosov, Anterior cingulate is a source of valence-specific information about value and uncertainty. Nature Communications. 2017.

本文为原创编译，转载请注明出处