热搜: 高山  史光荣  榜单  优秀晋商  张文泉  侯计香  李亚斌  郝金玉  赵一弘  吴沪先 
 
 
当前位置: 首页 » 晋商资讯 » 晋商学院 » 正文

成立两年,传说中的阿里达摩院都做了什么?

放大字体  缩小字体 发布日期:2019-07-23  来源:中国企业家杂志  阅读数:1411
核心提示:2017年10月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过1000亿人民币用于基础科学和颠覆式技术创新研究。达摩院官网正式上线后,我们看到达摩院重点布局机器智能、数据计算、机器人、金融科技以及X实验室五大领域,相应设置有14个实验室,共有近70名海内外专家坐镇。AI技术是达摩院目前重金押注的技
免责声明:本文版权归原作者所有,如有侵权,请您立即联系通知我们及时删除.联系电话15300248390,谢谢.

2017年10月的杭州云栖大会上,阿里巴巴正式宣布成立达摩院,未来三年将投入将超过1000亿人民币用于基础科学和颠覆式技术创新研究。达摩院官网正式上线后,我们看到达摩院重点布局机器智能、数据计算、机器人、金融科技以及X实验室五大领域,相应设置有14个实验室,共有近70名海内外专家坐镇。

AI技术是达摩院目前重金押注的技术领域之一,即将成立两年,人们可能都比较好奇达摩院在AI上到底布局了哪些技术领域?又在哪些技术方向上取得了突破?本文将一一盘点达摩院在AI技术上的重大进展。

阿里AI的技术发展及平台建设

阿里拥有全面的AI技术布局,涵盖语音智能、语言技术、机器视觉、决策智能等方向,建成了完善的机器智能算法体系, 不仅囊括语音、视觉、自然语言理解、无人驾驶等技术应用领域,还不断深化AI基础设施建设,重金投入研发AI芯片、超大规模机器学习平台,并建成了单日数据处理量突破600PB的超大计算平台。 

下面,我们主要围绕语音智能、语言技术、机器视觉三大技术领域与平台化建设的最新发展与成绩,一览阿里AI技术这两年的进展。

语音智能

语音识别

2018年6月,阿里达摩院开源了自主开发的新一代语音识别模型(DFSMN),在世界最大的免费语音识别数据库 LibriSpeech 上进行公开测试。对比目前业界使用最为广泛的LSTM模型,DFSMN语音识别模型训练速度更快、识别准确率更高。基于DFSMN模型,阿里AI又研发了DFSMN-CTC模型,语音错误率大幅下降,解码效率提升6倍。

此外,阿里巴巴机器智能技术实验室正在研发高工业噪声环境下的语音识别及传输技术。以后,众多车间工人将告别“通讯靠吼”的境况,简单的交流言语会转换成文字。目前,在85分贝工业噪声下,可以实现将一米处正常音量语音转换为文字,准确率达94.6%,能够解决大部分工厂里的噪声聋问题。这项工作仍在继续,未来团队希望可以实现 95分贝工业噪声下进行语音识别。

语音交互

目前,阿里语音 AI 每日调用量已达1.8亿次。

2019 年7月,阿里开源人机对话模型ESIM。ESIM 是一个解决多轮对话回复问题的原创模型,通过给对话机器人装上实时搜索并理解人类真实意图的“雷达”系统,实现对对话历史的实时检索,自动去除多余信息的干扰,给出人类期待的回复。

例如当人们线上购物时,提出要一件M号的黑色裙子,智能机器人通过对库存情况的实时检索,发现并答复用户没有黑色M号的裙子。用户接着问,“那有白色的吗?”此时传统模型训练出的AI客服很难判断用户是要问“这件裙子是否有白色款”还是“有没有白色的M号裙子”,无法给出准确回复。 

阿里AI通过对用户对话上下文的检索,明确用户的核心在于尺寸而非颜色,很快给出有没有白色M号裙子的准确回复。 

这项技术未来将会被应用到人机交互的多个场景:智能语音点餐机能够更准确地理解人们的真实意图,提高点单成功率;导航软件能更容易听懂人们的语音请求,少走冤枉路;家里的智能音箱能够更快做出反应,节省等待时间。

语音合成

阿里达摩院机器智能实验室自主研发的基于翻译的合成技术 Knowledge-Aware Neural TTS(KAN-TTS)深度融合了目前主流的端到端TTS技术和传统TTS技术,同时系统构建了基于不同领域的深层知识。并针对CPU部署的框架设计进行优化,提供高效、便捷的部署能力,另外还改进了20多项关键算法,从多个方面改进了语音合成。

传统语音合成定制需要10小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。阿里利用Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。

这也意味着,普通用户定制“AI声音”的门槛更低。只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里AI做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。阿里已经对外提供开箱即用的TTS解决方案,共有通用、客服、童声、英文和方言5个场景的34种声音供选择。基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的TTS服务中非常有用,比如当人们驾车行驶于信号微弱区域时避免语音导航“掉线”。 

除了在语音识别、语音交互与语音合成等领域的进展,在声纹识别领域,阿里达摩院研发了声纹无监督聚类技术,推出分布式语音交互模组,用于阿里云IoT联合阿里达摩院发布的分布式语音交互解决方案中,方案除了语音交互模组外,还包括语音自学习平台、对话平台以及阿里云IoT智能人居平台,打通了上下游平台串联、端云一体能力,缩短智能人居环境开发周期,同时还具备强扩展能力。

自然语言处理

机器翻译

2017年的WMT竞赛,大多数系统是基于RNN和LSTM,包括最终获得冠军的系统也是基于此。仅仅过了一年时间,各大机构都争先使用Transformer。达摩院机器智能技术实验室资深算法专家陈博兴带领的达摩院机器翻译团队,在此次比赛中,基于Transformer结构, Self-Attention、Multi-head Attention等技术,进行了网络结构的改进,充分利用词语位置信息,提出高度并行化、能捕捉层次化信息的神经网络,全面提升了机器翻译的性能。

去年,AI科技大本营也邀请了阿里巴巴机器智能技术实验室阿里巴巴翻译平台翻译模型组负责人于恒做了公开课分享:《Transformer 新型神经网络在机器翻译中的应用 | 公开课笔记》。

目前,达摩院机器翻译技术团队已实现了48个语言翻译方向,支持俄、西、法、阿、土,泰、印尼、越南等多种语言翻译;其中电商覆盖了大部分语向和场景,超越谷歌和亚马逊,日调用量达到17.9亿次。阿里的机器翻译技术除了应用于电商全链路服务之外,还广泛应用于菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译等一系列产品。

       QA 任务 & 机器阅读

传统AI阅读需要某一领域的专业人士准备好问答数据,AI回答也仅限于该领域,例如金融领域的人工智能无法回答物流领域的问题。阿里研究团队提出的“基于分层融合注意力机制”的深度神经网络模型能够模拟人类在做阅读理解问题时的一些行为,包括结合篇章内容审题,带着问题反复阅读文章,避免阅读中遗忘而进行相关标注等。模型可以在捕捉问题和文章中特定区域关联的同时,借助分层策略,逐步集中注意力,使答案边界清晰;另一方面,为避免过于关注细节,采用融合方式将全局信息加入注意力机制,进行适度纠正,确保关注点正确。

比如,4300万字的《大英百科全书》,阿里AI可以在毫秒内阅读完,并根据自己的理解快速回答涉及书中不同领域的不同问题。例如亚洲有多少个国家?美国第五任总统是谁?恐龙是什么时候消失的?机器人可以分别迅速给出答案,无惧“连环追击”。

阿里还提出了基于“融合结构化信息BERT模型”的“深度级联机器阅读模型”,可以模仿人类阅读理解的过程,先对文档进行快速浏览,判断,然后针对相应段落进行精读,并根据“自己的理解”回答问题。

常识推理可以说是难度最高的NLP任务之一,深度学习领军人物之一、图灵奖获得者Yann LeCun曾有断言:最聪明的AI在常识方面也不如猫。

阿里巴巴达摩院语音实验室还提出了AMS方法,显著提升BERT模型的常识推理能力。AMS方法使用与BERT相同的模型,仅预训练BERT,在不提升模型计算量的情况下,将CommonsenseQA数据集上的准确率提升了5.5%,达到62.2%。

语义识别

2019 年 4 月 1 日愚人节之际,阿里巴巴发布了这项旨在粉碎网络谣言和假新闻的AI技术——“AI谣言粉碎机”。其算法模型由阿里巴巴达摩院机器智能实验室研发,依靠深度学习和神经网络技术,通过对信息的多维度和多角度分析,团队设计了一整套包含发布信息、社交画像、回复者立场、回复信息、传播路径在内的综合判定系统,首次把谣言识别和社交用户观点识别打通,并做交叉分析,目前在特定场景中的准确率已经达到81%,最快能够在1秒内判定新闻的真实性。

机器视觉

医疗影像分析 

2017年7月,国际权威肺结节检测大赛LUNA16 要求选手对888份肺部CT样本进行分析,寻找其中的肺结节。样本共包含1186个肺结节,75%以上为小于10mm 的小结节。最终,阿里云ET在7个不同误报率下发现的肺结节平均召回率达到89.7%。(召回率指在样本数据中成功发现的结节占比,下图显示了ET在不同误报次数下的召回率情况。)

FROC曲线。

其背后的技术由阿里巴巴 iDST视觉计算团队完成,负责人华先胜介绍,与常用的两阶段检测方法不同,他们创新性地使用了单阶段方法,全程无须人工干预。机器全自动读取病人的CT序列,直接输出检测到的肺结节。在模型结构设计上,ET针对CT切片的特性,采用多通道、异构三维卷积融合算法、有效地利用多异构模型的互补性来处理和检测在不同形态上的肺结节CT序列,提高了对不同尺度肺结节的敏感性;同时使用了带有反卷积结构的网络和多任务学习的训练策略,提高了检测的准确度。比赛中,团队克服了一系列挑战:如结节模态复杂问题,早期的结节小(小于10mm),传统的机器学习和用于自然图像的深度学习网络通常难以凑效。 


        肝结节的准确测量可以辅助医生做出决策和治疗方案。但肝结节形态多样,即使是同一个病人,结节的大小、形状都不一样,从而导致结节间灰度分布差异大、或与周围组织灰度相似,甚至没有清晰的边界。

阿里则通过对 CT 图像层间信息和层内信息融合的网络结构分析,解决肝结节类别多样性的问题。采用基于原子卷积的空间金字塔池化(Atrous Spatial Pyramid Pooling)、亚像素卷积(Sub Pixel Convolution)及多特征融合等技术。华先胜表示,目前团队研究范围已经覆盖肺、肝、骨、心脏、脑等部位的疾病,涉及影像分析、自然语言处理、设备信号处理等相关技术,部分技术已经落地到实际的医疗诊断中。

超大规模图像识别&图像搜索

2019年6月,在被誉为人工智能世界杯的WebVision竞赛要求参赛的 AI 模型将 1,600万张图片精准分类到 5,000个类目中。相比于经过人工标注完毕的ImageNet数据集,WebVision所用数据集直接从互联网爬取,没有经过人工标注,含有较多噪音,且数据类别的数量组成极大不平衡,AI的识别难度更高。 

阿里AI引入了构建类别语义标签关系的模型,并采用辅助信息模型进行图像去噪的深度学习技术,以及阿里自研的可以支持数十亿图片分类训练的超大平台。最终,阿里AI以82.54%的识别准确率,击败全世界150多支参赛队获得冠军,目前该技术可以识别超过100万种物理实体。

2019年7月,在CVPR 2019举办的LPIRC(低功耗图像识别挑战赛)中,阿里AI获得在线图像分类任务第一名,以23ms的单张图片分类速度,在10分钟内分类 20,000张图像。在挑战赛使用的训练数据集上,实现了67.4%的分类精度,比官方提供的基准线高3.5%。

视觉对话

视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术,让机器具备了视觉能力;那么视觉对话技术,则使机器拥有了对真实视觉世界的理解与推断能力,意味着AI的认知能力将迈上新的台阶。

视觉对话中,AI可以从容应对人类提问,左为AI,右为人类。

传统的视觉AI主要针对目标的检测和识别,例如识别出图片是否是一只猫,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题,也难以将图片信息转化为人类理解的语言输出。

阿里AI提出了“递归探索对话模型”,综合集成了图像识别、关系推理与自然语言理解三大能力,通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式,能够有效识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,理解人类提出的问题及真实意图,给出自然准确的回复。

未来,视觉对话技术将被应用在人机交互的诸多场景中。地震后在废墟中寻找幸存者的救援机器人,能更加及时、高效地综合指挥指令和场景信息作出行动;视障人士可以通过提问AI理解网络照片中的内容,了解自身所处的周围环境;无人驾驶车辆对影响因子的意图理解会更为准确,乘客的乘坐体验更好。

阿里AI的基础平台建设

机器学习平台PAI3.0 

在AI应用技术上的不断探索之外,阿里不断深化AI基础设施建设。机器学习平台为人工智能发展提供深度学习数据处理和模型训练的一站式服务,阿里研发了大规模分布式机器学习平台PAI,让企业和开发者拥有便捷的人工智能开发能力,大幅降低使用人工智能的成本。该平台是国内首个集数据处理、建模、离线预测、在线预测为一体的机器学习平台,提供100余种算法组件,支持千亿特征、万亿模型和万亿样本乃至PB级的数据训练,为传统机器学习提供上百种算法和大规模分布式计算的服务。 

分布式深度学习框架XDL

2018 年杭州云栖大会上,针对广告、搜索、推荐等典型数据处理场景,发布自研新一代工业级分布式深度学习框架——XDL,关注的核心是这些场景下高维稀疏数据的性能。 

分布式计算引擎Maxcompute

大规模算力是支撑的机器智能高效应用的基础。阿里拥有丰富的异构计算平台和自研的大规模分布式计算引擎(Maxcompute),包括超大规模批量计算、超高并发实时计算、复杂图数据推理计算三类,综合性能上领先现有开源引擎30%,整体成本降低20%。在2018年双十一,MaxCompute单日数据处理量突破 600PB。

移动端轻量级的深度神经网络推理引擎MNN

基于淘宝和达摩院的研究成果,阿里 2017 年开始组建MNN团队。2019 年 5 月,阿里开源了首个移动AI项目——轻量级的深度神经网络推理引擎MNN(Mobile Neural Network),具有轻量、通用、高性能、易用性特征。MNN 提供模型转换和计算推理两大功能,模型转换功能帮助开发者兼容不同的训练框架,如TensorFlow(Lite)、ONNX等;计算推理部分应用了多种优化方法,高效推理。MNN可用在智能手机、IoT设备等端侧加载深度神经网络模型,可应用于阿里手机淘宝、手机天猫、优酷等20多个应用,覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。

       达摩院:阿里AI发展的“总枢纽”

虽然阿里在人工智能赛道的起步不算最早,不过等到AI风口在2015年前后起势,阿里也储备了相当分量的AI人才。两年前,阿里组建达摩院,全面升级人工智能的技术、商业布局。某种程度上,达摩院的组建是阿里人工智能组织力量的重大升级,奠定了这两年阿里AI技术飞速发展的基础。

当然,技术能否带来经济社会生活的改变,能否带来商业化场景大规模落地,才是技术价值的最终体现。在人工智能领域,技术应用的商业化是衡量价值的唯一标准,而阿里产业AI目前已遍及医疗、金融、制造、司法、交通、环保、教育、零售等领域。

领先的算法技术、AI应用的系统集成能力、AI产业生态构建能力、海量用户场景、开源技术生态、大规模研发投入和顶级人才团队以及自身的AI商业化模式是阿里AI取得现有成绩的关键组成部分,而阿里达摩院无疑是将这些因子串联起来的“总枢纽”。

免责声明:本文版权归原作者所有,如有侵权,请您立即联系通知我们及时删除.联系电话15300248390,谢谢

0条 [查看全部]  相关评论
 


 
[ 晋商资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]


 
晋商生态推荐
中国晋商俱乐部-(副)理事长
中国晋商俱乐部-发起理事
中国晋商俱乐部-产业合伙人
推荐图文
推荐晋商资讯
点击排行
 

中国晋商俱乐部愿景:致力于建设服务创新型商业化晋商生态

中国晋商俱乐部实行理事会员制:

立即加盟为中国晋商俱乐部理事,享受全国最好的晋商资源服务请联系中国晋商俱乐部秘书处15300248390.

中国晋商俱乐部

2018年轮值单位主席团:主席单位-珠海市山西商会,副主席单位-美国晋商总会、福建省山西商会、新疆山西商会、山西省民营经济促进会;

2017年轮值单位主席团: 主席单位-内蒙古晋商联合会,副主席单位-山西省物流商会、深圳市山西商会、淄博市晋商商会、广东省山西商会、山西省古玩协会;

发起人和秘书处:山西商人网

联合发起机构:

1.北京山西企业商会;2.天津山西商会;3.太原新晋商联盟;4.湖北省晋商商会;5.河南省晋商会;6.深圳市山西商会;7.河北省山西商会;8.陕西省晋商商会;9.昆明市晋商商会;10.辽宁省山西商会;11.苏州市山西商会;12.鄂尔多斯山西商会;13.山东省山西商会烟台办事处(分会);14.甘肃省晋商商业联合会;15.重庆市山西商会;16.吉林省山西商会;17.南京市晋商商会;18.新疆山西商会;19.青海省山西商会;20.福建省山西商会;21.海南省山西商会;22.宁波市山西商会;23.满洲里山西商会;24.四川省山西商会;25.黑龙江山西商会; 26.日本山西商会;27.山东省山西商会;28.广东省山西商会;29.贵州省山西商会;30.内蒙古晋商联合会;31.晋商联盟控股股份有限公司;32.华夏晋商投资股份有限公司;33.山西省陕西商会;34.江阴市山西商会;35.山西省广东商会;36.青岛市山西商会;37.淄博市晋商商会;38.长治新晋商联合会;39.临汾市新晋商联合会;40.山西老乡会文化传媒有限公司;41.日照市山西商会;42包头市山西商会;43.蒙古国晋商总商会;44.新加坡晋商商会;45.山西省徽商商会;46.哈尔滨市山西商会;47.普洱市山西商会;48.山西省鞋业商会;49.山西省重庆商会;50.太原市西安商会;51.太原市宝鸡商会;52.山西省甘肃商会;53.山西省福建商会;54.太原市成都商会;55.晋城市民营经济联合会;56.浙江省山西商会;57.山西省民营经济促进会;58.中华晋商会;59.山西省物流商会;60.太原市永嘉商会;61.山西省企业在线交流协会;62.太原市网络营销协会;63.山西省黑龙江商会;64.山西省古玩协会;65.中国旗袍专业委员会;66.太原市新平遥商会;67.山西省吕梁商会;68.太原市昔阳商会;69.连云港市山西商会;70.大连市山西商会;71.山西省民间工艺美术家协会;72.廊坊市山西商会;73.山西省民营科技促进会;74.宁夏山西商会;75.加拿大晋商联谊会;76.榆林市晋商商会;77.太原市原平商会;78.山西省果品流通协会;79.太原职业经理人协会;80.山西省国际商会特色产业分会;81.太原市阳泉商会;82.德国国际企业家商会太原代表处;83.山西省民营企业资产置换协会;84.加拿大晋商会(CanadaShanxiBusinessAssociation);85.太原市高新技术产业协会;86.美国晋商总会;87.太原市果品协会;88.徐州市山西商会;89.山西省食品冷链行业协会;90.阳城县中小微企业创新联合会;91.山西省沐浴健康养生行业协会;92.太原市大众创业万众创新协会;93.山西省互联网农商企业联合会;94.珠海市山西商会;95.山西省湖南商会;96.厦门市山西商会;97.太原市平定商会;98.无锡市山西商会;99保定市山西商会;100.葫芦岛市山西商会;101.澳大利亚山西总商会(澳洲晋商总会);102.洛阳市晋商会;103.山西省四川商会。

荣誉顾问

1. 李建国 晋商联盟控股股份有限公司董事长、北京山西企业商会会长

2. 远勤山 大运集团董事长、广东省山西商会会长

3. 樊建川 建川博物馆馆长、四川省山西商会会长

4. 张勇 鑫苑(中国)置业有限公司董事长、河南晋商会会长

5. 杨志刚 《天下山西名人》执行总编

6. 刘之强 博鳌书院院长

高级顾问:

1. 王雪野 中国传媒大学MBA学院副院长

2. 侯宁 知名财经专家、天使投资人

3. 崔满红 山西金融职业学院院长

4. 张跃华 著名书画艺术家

5. 高育新 山西省委直接联系的高级专家正高级工程师、山西平安谷信息技术有限公司董事长

荣誉理事长:振东集团总裁李安平

荣誉副理事长中国石油流通协会秘书长王文澜

发起理事

陈明亮 北京福阅投资有限公司 总裁

郝鸿峰 酒仙网 董事长

李亚斌 中投亿星新能源投资有限公司 董事长

赵贵廷 北京金典永恒公关策划有限公司 总裁

王向东 北京山西企业商会常务副会长

宋文斌 山西领先大屏传媒 总经理

李亚栋 山西汇银安盛投资有限公司 总裁

常务副理事长:

山西上党振兴现代农业集团有限公司董事长 牛扎根

信通中国董事长兼CEO 郝金玉

副理事长:

赵一弘 碧生源董事长

张文泉 戎子酒庄董事长

卫江峰 临汾新晋商联合会会长

高山 广州世腾环保包装有限公司|山西龙腾鑫悦食品有限公司(品牌产品:高山五谷纯粮酿正宗山西老陈醋) 董事长

吴沪先 长治市北方富泰投资有限公司董事长(中国晋商俱乐部长治市运营管理中心主任)

彭晋峰 晋城市长江实业集团董事长(中国晋商俱乐部晋城市运营管理中心主任)

龙雪松 白鹭南沙总部董事长(中国晋商俱乐部广东省运营管理中心主任)

史光荣 蒙古国晋商总商会会长 北京晋华投资有限公司董事长

段晓辉 众创空间科技集团总裁(双创与投融资委员会主席)

侯计香 中德橡树园董事长/德国晋商俱乐部主席

石勇 山西晋源通能源科技有限公司董事长

--秘书处--

刘文斌:晋商生态研究院院长,中国晋商俱乐部秘书长,全面负责晋商生态的战略规划设计。

石磊:副秘书长,兼任文化传媒委员会主任,以委员会资源为依托,负责俱乐部文化传媒产业类项目组织、调研、风控、执行。同时兼任晋商年会导演。

赵锐:副秘书长,兼任媒体工作委员会主任,负责以俱乐部为基础、以媒体工作委员会媒体专业资源为依托,以发现传播当代晋商之美为起始,传播当代民营企业家之美,负责运营管理和维护“商帮网”。

穆志明:副秘书长,兼任养生委员会主任,负责为中国晋商俱乐部联合发起机构及理事提供健康养生方案。

李志:副秘书长,负责中国晋商俱乐部北京总部日常联络工作。

 

加盟联系秘书处晋商客服电话:15300248390

京ICP备13017153号