当前位置: 首页 » 行业资讯 » 智能制造»从概念上看看智能机器人的新范式:深度强化学习;
   

从概念上看看智能机器人的新范式:深度强化学习;

 46.1K
     [点击复制]
放大字体  缩小字体 发布日期:2016-08-30   浏览次数:332
核心提示:近两年机器智能取得重大突破,像围棋九段高手李世石败北Alpha Go,DeepMind团队研发的机器人在Atari多项游戏上超越人类水平。这
       近两年机器智能取得重大突破,像围棋九段高手李世石败北Alpha Go,DeepMind团队研发的机器人在Atari多项游戏上超越人类水平。这些突破主要得益于从基于深度学习的视觉、语音、语义感知到动作反馈的激励惩罚强化训练模式。本文从概念上分析深度强化学习的要点,部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的报告。

  强化学习,即机器人根据环境里动作得到的惩罚和激励去自动调整策略。通过训练,机器人学到一组策略:在环境状态S下应采取动作A,(可)能获得最大累积奖励V。

  强化学习有丰富的交叉学科背景,包括经济学、工程学、神经科学里的博弈论、优化控制,条件反射系统。


       深度学习,使用深度神经网络实现机器人的记忆,视觉感知,语音语义理解和生成。

  深度强化学习以深度学习做感知,强化学习训练策略,并且以深度神经网络作为策略载体。相比于传统的多模块组合,深度强化学习实现了从感知到控制的端到端直接训练,减少了模块间信息损失。

  最近两年在学术理论上,GoogleDeepMind团队在连续性动作控制[2],异步训练[3],训练框架[4],分布式训练[5]等都有重要突破,为智能机器人的研发奠定理论和实践基础。

  在特定任务的应用上,深度增强学习已有广泛实践尝试,例如流水线机器人。

  在集成应用上,深度强化学习在自动驾驶,聊天机器人[6][7]都有良好的前景。例如,使用分布式训练或异步训练,自动驾驶汽车可以多辆同时在各种环境学习,并且相互交换知识,加速学习过程。聊天机器人可以通过对话过程中用户的反馈来调整自己的语言表达,逐步成长。

  深度强化学习为智能机器人提供了新的计算范式:提供环境、激励和惩罚、神经网络结构即可训练得到最大化奖励的智能机器人。


 
 
 
[ 行业资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]
 
 
展会更多+
视频更多+
点击排行
 
网站首页 | 网站地图 | 排名推广 | 广告服务 | 积分换礼 | 网站留言 | RSS订阅