450 毫秒神经放电预测“人性”

在复杂环境中生存的奥秘，或许就藏在大脑那簇神秘的多巴胺能神经元(dopaminergic neurons)里。最新研究发现，这些位于中脑的"奖励信使"竟能像精密的并行计算机，通过多时间尺度强化学习(multi-timescale RL)系统来解码未来奖励。

当小鼠执行行为任务时，科学家捕捉到令人惊叹的神经编码多样性——有的神经元像急性子的短线交易员，用高折扣因子(discount factor)快速响应即时奖励；有的则像深谋远虑的战略家，用低折扣因子规划长期收益。这种细胞特异性(cell-specific)的时间计算特性，完美解释了为何短暂线索诱发的瞬时反应(transient responses)与缓慢波动的多巴胺斜坡(dopamine ramps)能和谐共存。

更妙的是，这些神经元的"性格特征"在不同任务中保持稳定，就像每颗细胞都带着独特的生物钟。这一发现不仅破解了人类和动物为何常采用非指数折扣(non-exponential discounting)的古老谜题，更为设计新一代多时间尺度强化学习算法提供了仿生蓝图——毕竟，大自然用了亿万年优化的神经算法，或许正是突破当前人工智能瓶颈的钥匙。