91porn 东谈主工智能接洽院杨耀东课题组建议去中心化高效多智体强化学习次第
日前91porn,北京大学东谈主工智能接洽院助理教育杨耀东课题组及配合团队在东谈主工智能顶级学术期刊Nature Machine Intelligence上发表题为“Efficient and scalable reinforcement learning for large-scale network control”的论文。该论文建议了基于模子的去中心化政策优化次第,这一效力初次在多智能体系统中结束了高效的去中心化协同锤真金不怕火和方案,权臣莳植了东谈主工智能方案模子在大领域多智能体系统中的膨大性和适用性。
论文截图
在大领域多智能体系统中结束高效的可膨大方案是东谈主工智能领域发展的攻击主张之一。多智能系统主要以精深的智能体交互数据为基础,诓骗多数狡计资源启动每个智能体学习怎样与其他智能体配合推论复杂任务,其中枢范式是多智能体强化学习。连年来,这一领域获得了权臣的显露,出身了以游戏东谈主工智能为代表的一系列应用。
现阶段两种主要的学习范式是中心化学习和寂寥学习,中心化学习条目每个智能体齐具有全局不雅察智商,这大幅度加多了算法复杂性和通讯资本,缩短了在大领域系统中的可膨大性,而寂寥学习天然缩短了系统和算法的复杂性,但学习经由经常不平稳,导致方案性能较差。值得重视的是,在游戏除外的愈加真确的场景中,齐存在一些客不雅的交互截至和不得不探讨的资本成分,这使得现存次第难以膨大到大领域真确天下多智能体系统中。一个简短的例子是,当在城市交通系统中规章交通讯号灯时,时时的大领域通讯操作容易加多功率损结怨被信号侵扰的概率,况兼狡计复杂性将跟着交通灯数目的增多而指数级加多。因此,有必要设想概况在有限数据和客不雅通讯敛迹下,将方案智商膨大到包含多数智能体的复杂真确系统中的多智能体强化学习次第。
这项接洽恰所以此为起点,缩短了现存多智能体学习次第对全局通讯和多数交互数据的依赖性,结束了强化学习算法在复杂的大领域系统中的粗俗部署与高效膨大,朝着可膨大到大领域系统的方案范式迈出了攻击一步。
图1 中心化学习和寂寥学习的分手及该接洽的起点和所触及的网罗化系统类型
在这项接洽中,接洽团队对大领域多智能体系统进行了以智能体为单元的能源学特质的解耦,将智能体之间的议论描摹为一种拓扑不息结构下的网罗化议论,其中包括线状、环状、网状等多样同构/异构节点,缩短了系统惩办的复杂性。在此之前,也有一些接洽者以网罗化的时势建模智能体之间的议论从而莳植算法膨大性。但这种对系统的理会具有较强的假定,不一定稳当真确天下系统的特质。因此,团队进一步建议了一种更通用的网罗化系统模子用来刻画解耦后多智能体系统的能源学和真确系统能源学之间的议论,其上风在于概况惩办更粗俗的配合多智能体任务。该成见弥合了轨范网罗系统和一般多代理系统之间的差距91porn,为去中心化多智能体系统的接洽提供了必要的表面框架和分析器用。
进一步,基于这种更一般化的网罗系统,接洽团队将单智能体学习中的模子学习表面膨大到多智能体系统中,使智能体概况寂寥学习局部状态篡改、邻域信息价值和去中心化政策,将复杂的大领域方案艰难篡改为更容易求解的优化问题。这么,大型东谈主工智能系统即使在样本数据和信断交互受限的情况下,也能结束令东谈主舒畅的方案性能。早在20世纪90年代,强化学习教父Richard Sutton就建议了基于模子的次第学习系统内在的动态特质来援助政策学习,莳植样本效力。在这项使命中,接洽团队将土产货化模子学习与去中心化政策优化相耦合,建议了一个基于模子的去中心化政策优化次第。该次第是高效且可膨大的,在较小的土产货信息大小(当单个智能体与其他智能体之间的信断交互受到截至)下就能类似单调地莳植智能体政策。具体而言,智能体概况使用经过充分锤真金不怕火得到的土产货化模子来展望昔时状态,并使用土产货通讯来传递该展望。
图2 多智能体模子学习经由
为了缓解模子展望的舛错问题,接洽团队罗致了分支推出政策,用很多短时刻线推出替换了少数永劫刻线推出,以减少模子学习和展望中的复合舛错,促进了政策学习经由中的类似单调莳植智商:
接洽团队从表面上进一步证实注解了系统解耦后所产生的膨大值函数和政策梯度是接近真确梯度的类似值,这在去中心化模子学习和单调政策莳植之间修复了攻击的表面桥梁。
多项测试扫尾标明,该次第概况膨大到具罕有百个智能体的大领域电网和交通等网罗化系统中,在较低的通讯资本下结束较高的方案性能。
图3 接洽次第在智能交通规章场景中的效果
使用了该次第规章的信号灯概况仅通过收受相邻路口的车流信息调控复杂的交通流。这是因为在网罗化结构的设想下,举座交通气象一经通过城市路网转折地传递并汇总到相邻路口,通过分析这些相邻路口的不雅测信息,就能估计和展望所有城市的车流变化,从而作出最优方案。在智能电网上的效果也考据了次第的可膨大性,概况在具有上百个节点的电力网罗中结束较低的电能损耗。
图4 接洽次第在智能电网规章场景中的效果
论文第一作家是北京大学东谈主工智能接洽院博士生马成栋,通讯作家为杨耀东。工学院、东谈主工智能接洽院多智能体接洽中心接洽员李阿明和伦敦国王大学教育杜雅丽为共同第一作家。
信息起首:北京大学新闻网91porn