当前位置: 首页 » 行业资讯 » 智能制造»从概念上看看智能机器人的新范式：深度强化学习;

从概念上看看智能机器人的新范式：深度强化学习;

[点击复制]

发布日期：2016-08-30 浏览次数：543

核心提示：近两年机器智能取得重大突破，像围棋九段高手李世石败北Alpha Go，DeepMind团队研发的机器人在Atari多项游戏上超越人类水平。这

近两年机器智能取得重大突破，像围棋九段高手李世石败北Alpha Go，DeepMind团队研发的机器人在Atari多项游戏上超越人类水平。这些突破主要得益于从基于深度学习的视觉、语音、语义感知到动作反馈的激励惩罚强化训练模式。本文从概念上分析深度强化学习的要点，部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的报告。

　　强化学习，即机器人根据环境里动作得到的惩罚和激励去自动调整策略。通过训练，机器人学到一组策略：在环境状态S下应采取动作A，（可）能获得最大累积奖励V。

　　强化学习有丰富的交叉学科背景，包括经济学、工程学、神经科学里的博弈论、优化控制，条件反射系统。

深度学习，使用深度神经网络实现机器人的记忆，视觉感知，语音语义理解和生成。

　　深度强化学习以深度学习做感知，强化学习训练策略，并且以深度神经网络作为策略载体。相比于传统的多模块组合，深度强化学习实现了从感知到控制的端到端直接训练，减少了模块间信息损失。

　　最近两年在学术理论上，GoogleDeepMind团队在连续性动作控制[2]，异步训练[3]，训练框架[4]，分布式训练[5]等都有重要突破，为智能机器人的研发奠定理论和实践基础。

　　在特定任务的应用上，深度增强学习已有广泛实践尝试，例如流水线机器人。

　　在集成应用上，深度强化学习在自动驾驶，聊天机器人[6][7]都有良好的前景。例如，使用分布式训练或异步训练，自动驾驶汽车可以多辆同时在各种环境学习，并且相互交换知识，加速学习过程。聊天机器人可以通过对话过程中用户的反馈来调整自己的语言表达，逐步成长。

　　深度强化学习为智能机器人提供了新的计算范式：提供环境、激励和惩罚、神经网络结构即可训练得到最大化奖励的智能机器人。

下一篇：社交机器人Jibo：贴心的厨房小帮手;
上一篇：我国借助机器人为“貔貅人”做手术;

[ 行业资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 关闭窗口 ]

• 驭新而行驱动产业升级，生态京津冀迈向全球高端	• 京津冀智能网联新能源汽车主题对接活动盛大亮相
• 上市公司骄成超声总部基地开工，助力线束超声波	• 格力与优傲达成战略合作助力制造业智能化迈上
• 加速向工业智能化转型运机集团拟收购永磁电机	• 目标产业规模达3000亿元江苏推动仪器仪表产业
• 转型升级再提速制造业蓄势聚力向“新”而行	• 施耐德电气以AI加持预测性维护解决方案，打造设
• AI技术加速企业数字化转型	• 推动职业本科教育高质量发展迎接人工智能和机

2026集成电路展（	ROBOTWORLD2026(
2026第26届中国国	2027北京国际人工

中舟智能固守科技	玉沣科技：精研滑
新松机器人自动化	罗克韦尔自动化（

我的供应

我的求购

商铺管理

工业机器人及行业应用

智能机器人

工业自动化

智能装备

从概念上看看智能机器人的新范式：深度强化学习;