【CSDN现场报道】2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。
12月9日下午13:20,BDTC 2016人工智能分论坛,由中国科学院计算技术研究所研究员郭嘉丰主持,他就人工智能与大数据之间的关系进行了扼要介绍,并介绍了在场的参会嘉宾,并致以热烈的欢迎。现场早在不到1点就已经坐满,大家对人工智能技术的关注和学习使得论坛爆棚。
中国科学院计算技术研究所研究员 郭嘉丰
华为诺亚方舟实验室(香港)研究员、项目经理耿彦辉:华为网络大脑:基于机器学习的下一代网络智慧
通信网络中的网元数量、数据流量、业务类型,随着5G、物联网、SDN、AR/VR等技术的出现,都在飞速增长,网络复杂度远超出人工可以通过规则进行控制的范围。因此,利用机器学习的强大自动建模能力来解决网络控制与管理智能化问题是很多机构的研究重点。耿彦辉介绍说,2016年华为诺亚方舟实验室发布了业界首个Network Mind原型系统,现正在与运营商联合测试。
华为Network Mind的技术核心是在线深度强化学习以及大数据实时分析挖掘,充分利用深度学习的强大抽象表达能力以及强化学习的自我适配、自我进化能力,让网络具有基于数据自我学习、自我更新的特性,进而实现网络控制管理的自动化和智能化。网络是复杂动态的过程,需要强化学习方式满足网络的需求。用户体验反馈提供给强化学习,从而训练模型。
Network Mind的重要研究成果已经在Sigcomm、Infocom等*网络学术会议发布。耿彦辉相信,Network Mind原型的研发成功将促进机器学习、人工智能技术在通信网络中的应用,推动下一代通信网络自动化、智能化的进程,为用户带来更好的体验。
微软亚洲互联网工程院资深总监曹文韬:微软人工智能黑科技-微软小冰
曹文韬表示,小冰之所以受到人们喜爱,是因为她清晰的产品定位——一个18岁的少女。Chatbot很早就有,但是2014年小冰出现,还是引起了业内很大的波动。在小冰之前,绝大多数人工智能产品偏向理性,小冰是第一个解决了人类情感上沟通需求的产品。微软在情感计算方面花了很多的功夫,我们希望用户和小冰的交流就像人与人的交流一样。
对于小冰的训练,绝大多数人首先想到的,是需要一个强大的语料库。我们利用搜索引擎以及互联网公开的数据构建了一个数据模型,这些信息能够构建一个非常庞大的语料库。最开始我们得到了一个7000多万接近一亿的语料库,将无用信息删除后,语料库的总量缩减为1300万。
小冰之所以能像人一样交流,有几点特别之处。
1. 视觉能力,而不仅仅是图片识别能力。例如小冰在看到一张崴了的脚踝的图片后,会询问伤得是否严重,而不只是给出回应“这是脚”。
2. 富有人类情感的语音能力,这不仅包括声音的流畅度与自然度(对于声音自然程度的评判系数,5分满分,人类4.72、小冰4.38、百度3.75、讯飞3.33、Siri 3.20,可以说小冰在语音自然程度方面已经做得很好)。更主要在于其模糊识别技术,即着眼点不在准确率,而在即使机器没有完全听清对方的每一个字,依然能知道他说的是什么意思。
3. 全时感官,小冰在业内第一次实现了全时感官的技术,之前所有在智能硬件上的交互产品都是半时感官技术,是串行的。机器在处理完用户这条语音的Vedio Clip之前,是没有能力做回应的。有了全时感官技术,小冰能够像人一样,像朋友跟你打电话一样,能够提前判断,甚至能够进行打断。
4. 技能卡系统,像超能陆战队里面的大白一样,插入不同的技能卡,会赋予小冰不同的能力,已经拥有跟你聊电影、聊运动等等六项技能。
提问:小冰的用户定位不是智能助手,那么她的用户粘性来自哪里?
曹文韬说:“如果你希望做一个人工智能助理,第一步是建立信任。你要能知道你的助理是什么样的一个人,才能一步一步地信任她。”
京东集团研究总监殷大伟:网页搜索引擎中的排序相关度
京东集团研究总监殷大伟发表了《网页搜索引擎中的排序相关度》的报告。殷大伟博士曾任雅虎研究院高级研究经理,并负责雅虎搜索的核心搜索相关性技术,搜索引擎在我们日常生活中发挥至关重要的作用,相关性问题是商业搜索引擎的核心问题。现代商业搜索引擎中,相关性问题已经远超越文本匹配,涉及巨大挑战。Query和URL之间的语义差距是改善搜索相关性的主要障碍。用户点击行为可作为重要信息帮助提高搜索相关性,但对于大多数长尾Query,都存在点击信息太稀疏、嘈杂或完全丢失的问题。在报告中,殷大伟讲解了商业搜索引擎中相关性的解决方案,介绍了几种关键的机器学习技术:核心排序函数,点击相似度特征,深度语义匹配和关键词重写。总结了商业搜索引擎中的最新进展以及一系列实用相关性的解决方案。
今日头条首席算法架构师曹欢欢:人工智能时代的媒体技术革命
首先,曹欢欢向与会者介绍了媒体形式的历史变迁,进而引出从人工到智能算法的媒体革命。
从2012年3月字节跳动(今日头条前身)成立,到2016年8月用户规模超过5.5亿,今日头条发展不可谓不快。现如今,除了以今日头条为代表的新兴智能推荐平台,传统新闻APP,浏览器,搜索应用,社交平台(Facebook,微博)也纷纷上线资讯智能推荐功能。
推荐系统的核心算法为:根据用户标签,内容标签和情景信息,计算用户对内容感兴趣的概率。该算法存在两个维度:环境维度、用户维度。
以下两图描述了典型的推荐算法以及推荐特征:
目前,人工智能已经可以在财经报道,体育赛事报道等领域自动创作内容,可读性完全可以媲美人工编辑;智能算法还可以自动给出封面建议,以减少视频上传者的选择成本;智能算法也可以从体育比赛,MV等长视频中自动抽取精彩片段,甚至生成gif,可以节省用户时间和流量。
氪信CreditX首席数据科学家闵薇:人工智能在金融科技中的实践
人工智能时代,在金融这样一个数据密集的多金行业,数据的应用还停留在比较原始的阶段。新形势下,传统金融领域面临两个挑战,一个是(有价值)数据太少,一个是新数据(维度)太多。氪信的数据科学家主要致力于把人工智能技术,譬如深度学习、集成模型、复杂网络挖掘应用在金融问题中,解决金融客户在互联网化的过程中的风控挑战。集成模型在处理稀疏、高维、非线性数据建模及领域知识迁移上有成熟的应用,是解决互联网金融风控的利器,使用先进的统计方法和建模技术,解决集成模型训练各个环节的痛点。
所有数据都可以是风险数据,只是大部分都是无label、弱金融属性的数据且人工难以加工特征。利用深度学习特征提取框架,解决不同类型弱金融属性数据特征提取,充分的深度时序关系学习,文本语义多义性学和语义环境的判断,超越了人工特征提取的深度和广度。通过DNN文本类数据特征提取框架,DNN时序类数据特征提取框架,DNN特征提取框架与人工特征有效融合,机器生成特征对模型效果的明显提升。
谈到为什么要使用社交网络分析做反欺诈,闵薇认为在当前市场环境下,欺诈风险频繁演化,以往单一的个体风险已迅速变成有组织、有规模的团体欺诈风险
传统的反欺诈局限于个人风险识别,无法有效应对群体欺诈和关联风险。我们需要基于社交网络分析技术的反欺诈风险引擎,实现个人风险到全局网络风险的识别。融合适用于欺诈识别的图挖掘算法及图结构指标。
智课教育首席科学家李曙光:自然语言处理、深度学习等技术在英语教育中的应用
李曙光表示,我们希望通过人工智能技术提高学生的做题效率,将精力放在自己真正薄弱的环节。智课教育的产品包括:智能作文批改、智能口语批改、基于离线手写识别的作文批改、以及自适应学习几个模块。在现场,李曙光先生向我们展示了其基于离线手写识别的作文批改Demo,并同与会者进行热烈探讨。
智能作文批改:
- 自动语法检测引擎:基于极智批改网海量人工批改数据研发;在语法错误检测数量和精准度上远远领先于同类产品。
- 自然语言处理分析引擎:分析和统计学生作文中的文本特征,包括用词复杂度,用词搭配使用,语篇组织结构,论述连贯性和是否离题等。
智能口语批改:
- 语音分析引擎:对语音应答中的发音、韵律(重音和语调)、语速和流利度等方面进行分析和特征提取。
- 语音识别引擎(DL):中国学生英语语音的自适应技术结合深度学习方法,更准确识别口语内容。
- 自然语言处理分析引擎:对识别的内容在话题相关性,语义连贯性,语法错误,词汇使用,用词搭配等多维度上进行分析和特征提取。
- 打分引擎:DL;大量口语训练语料(人工打分和标注过的)。
- 在多种考试的口语评测上非常接近人工打分水平。
- 针对不同的题目,系统可以生成反馈内容,提供改进意见。
现场图片
更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。