在复杂环境中生存的奥秘,或许就藏在大脑那簇神秘的多巴胺能神经元(dopaminergic neurons)里。最新研究发现,这些位于中脑的"奖励信使"竟能像精密的并行计算机,通过多时间尺度强化学习(multi-timescale RL)系统来解码未来奖励。

当小鼠执行行为任务时,科学家捕捉到令人惊叹的神经编码多样性——有的神经元像急性子的短线交易员,用高折扣因子(discount factor)快速响应即时奖励;有的则像深谋远虑的战略家,用低折扣因子规划长期收益。这种细胞特异性(cell-specific)的时间计算特性,完美解释了为何短暂线索诱发的瞬时反应(transient responses)与缓慢波动的多巴胺斜坡(dopamine ramps)能和谐共存。

更妙的是,这些神经元的"性格特征"在不同任务中保持稳定,就像每颗细胞都带着独特的生物钟。这一发现不仅破解了人类和动物为何常采用非指数折扣(non-exponential discounting)的古老谜题,更为设计新一代多时间尺度强化学习算法提供了仿生蓝图——毕竟,大自然用了亿万年优化的神经算法,或许正是突破当前人工智能瓶颈的钥匙。

提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.