热搜:区块链应用比特币人工智能

区块链媒体
我要投稿
链头条 /人工智能 /语言处理

简说阿里巴巴的自然语言处理生态系统

评论量评论量(8)
浏览量浏览量(749)
来源:语言处理
2017-11-2313:28

说到自然语言处理,估计很多人很陌生,甚至完全不知所云。但如果大家在APP里输入关键词得到APP回复的所需信息时,这个过程其实就是自然语言处理系统。当然,这是非常简单的处理。

阿里巴巴自然语言处理

自然语言处理(简称NIP)的四大经典“AI完全”难题:问答、复述、文摘、翻译,只要解决其中一个,另外三个就都解决了。问答就是让机器人很开放的回答你提的各种各样问题,就像真人一样;复述是让机器用另外一种方式表达出来;文摘就是告诉你一篇很长的文章,让你写一个100字的文摘,把它做出来是非常难做的;翻译也是很困难的,英语思维方式和中文思维方式转换过来,中间会涉及到很多复杂的问题。

阿里巴巴的自然语言生态又是怎样的呢?这里我们简单介绍一下。

阿里NLP平台核心价值

阿里NLP平台核心价值就是解耦。通过做这样一个平台,去面对整个阿里巴巴的生态系统:

算法超市。平台是NLP算法超市,业务方可以清晰看到分门别类的NLP算法;

工程小白。平台解决一切工程问题,算法工程师可以是工程小白只需专注算法研发;

系统生态。对于系统,以此为中心形成一个系统生态体系,从各个环节切入服务NLP算法和业务;

服务底线。对于产品运营,平台只做底层模型的服务输出,不直接对接业务。

经过各种各样的迭代、打磨、思考、反思,做持续的改进。平台中最核心的三个概念如下:

1.模型:最基本的算法逻辑复用单元,如果用算法超市的概念解释,模型就是原材料,模型是算法工程师的主要产出成果;

2.方案:是多个模型的组合,用于真正解决某一方向的具体问题,类似于待售的超市商品。方案是业务、算法的结合之处,而负责“算法售卖”的技术人员会应用手头已有的模型通过不同的组合配置,产生出不同的商品供最终业务方的用户使用;

3.场景:是多个方案在线上部署的最终形态,是最终服务的提供者,是业务方真正使用阿里的算法大礼包的地方。按目前的设计,不同的业务方可以在相互隔离的多个场景中使用算法服务。

只有理解这三个概念,才会知道平台怎么去很好的使用。

NLP算法举例

下面对阿里的算法做一些比较简单的举例。

1.词法分析(分词、词性、实体):

–算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表

–应用:优酷、YunOS、蚂蚁金服、推荐算法、资讯搜索等

2.句法分析(依存句法分析、成分句法分析):

–算法:Shift-reduce,graph-based,Bi-LSTM

–新闻领域、商品评价、商品标题、搜索Query

–应用:资讯搜索、评价情感分析

3.情感分析(情感对象、情感属性、情感属性关联):

–算法:情感词典挖掘,属性级、句子级、篇章级情感分析

–应用:商品评价、商品问答、品牌舆情、互联网舆情

4.句子生成(句子可控改写、句子压缩):

–算法:Beam Search、Seq2Seq+Attention

–应用:商品标题压缩,资讯标题改写,PUSH消息改写

5.句子相似度(浅层相似度、语义相似度):

–算法:Edit Distance,Word2Vec,DSSM

–应用:问大家相似问题、商品重发检测、影视作品相似等

6.文本分类/聚类(垃圾防控、信息聚合):

–算法:ME,SVM,FastText

–应用:商品类目预测、问答意图分析、文本垃圾过滤、舆情聚类、名片OCR后语义识别等

7.文本表示(词向量、句子向量、篇章向量、Seq2Seq):

–Word2Vec、LSTM、DSSM、Seq2Seq为基础进行深入研究

8.知识库

–数据规模:电商同义词,通用同义词,电商上下位,通用上下位,领域词库(电商词、娱乐领域词、通用实体词),情感词库

–挖掘算法:bootstrapping,click-through mining,word2vec,k-means,CRF

–应用:语义归一、语义扩展、Query理解、意图理解、情感分析

9.语料库

–分词、词性标注数据,依存句法标注数据

有这样一句话叫“我要买秋天穿的红色连衣裙”,这句是电商领域中比较常见的,词法分析结果会把中间“我要”拆开。分词要分的很准,它不是每个单字都是一个词,比如秋天是一个词,连衣裙是一个词。下面这一层标签是对应的词性。上面这一层就是句子树型结构,它会比较深入的把句子比较深度的结构化。只有把它结构化之后才能导到数据库里面去,才能做后续的各种机器学习研究和应用,这种叫结构句法分析。

对于电商而言,光有句法分析是不够的,比如我要知道秋天的含义是说这是个适用季节,红色是一个颜色分类,连衣裙是一个产品,要做到这一步才会使得真正在电商里面用起来。

比如阿里用的是通用领域依存分析器,针对商品标题决定某一个依存句法分析器,假设某一个商品标题写的是“我要买秋天穿的红色连衣裙”,只需要把“秋天”、“红色”、“连衣裙”这几个关键的成分标出来,“我要买”和“穿的”对电商而言是没有意义的,但会去做进一步的组合。

如果这个句子是一个query,对于某些核心成分一点都不需要,完全不用看,直接会把它输出“秋天”、“红色”、“连衣裙”三个串,中间依存关系标出就可以了。这样可以做很好的信息凝练。这是阿里针对三种不同类型的文本做的很深入的底层自然语言处理分析。

商品中有另外一个很有趣的产品叫问大家。以买奶粉为例,假如你有五个邻居,有三个邻居买过同一款奶粉,你要买奶粉可能希望多问两家,如果三个人都买过A奶粉,三个人的回答结果综合看一看,做最终的决策。阿里把它做成产品化,做一个问题的拆解分为四类:无效问题、相似问题、问答排序、智能分发。

问大家3个问题解析如下:

无效问题过滤

–专业的外包同学标注无效问题,Active Learning筛选待标注样本

–分类采用LR+GBDT,定制特征

–无效问题会不断变种,算法和标注迭代推进

相似问题识别

–Doc2Vec然后计算相似度,人工评测

页面问答排序

–内容丰富度、点赞数、过滤词表匹配数等加权求和

–Detail页透出的一条问大家CTR 提升

内容资讯分析

针对内容阿里需要做大量的分析,比如说底层我们有各种各样的数据库要汇总,中间有一些文本算法,比如说相关性、时效和质量、CTR预估、个性化、分类、打标、质量和去重等等,中间也有一些系统工程,还有服务体系。上面是业务场景,比如淘秘籍、微淘、淘宝头条、知识卡片、社区问答等等,会让你迅速进入一个很好的购物背景知识状态,使你做更好的购物决策。

自然语言处理难在哪呢?

它涉及到人的认知,知识<=>语言<=>思考<=>行动,左边专注到知识,右边专注到思考和行动。它是非常复杂的,最难的问题有两个:第一就是歧义,自然语言与计算机语言是完全不可调和的,计算机语言是精确的、可枚举的、无歧义的。第二是变化,变化是非常剧烈的。它的语法是群体一致,个体有差异,语言每天都在发生变化,新词总在不断的产生,无法穷举, 不同上下文不同含义,甚至随时间推移,词义也在发生变化,例如Apple->公司,甚至词性也在发生变化,如Google ->to google

自然语言处理的未来?

如果人类没能完全搞清人脑机制的话,估计自然语言处理的研究始终还是停留在模拟上,只是这个模仿会越来越尽善尽美,只有当自然语言处理与机器视觉、触觉、听觉等多维度科技融合贯通,或许才会迎来自然语言处理质的飞跃




免责声明:本文仅代表作者本人观点,并不代表链头条之观点,链头条对作者观点不承担任何担保责任。
顶(0)
踩(0)
收藏
举报
文章标签:

8条评论/8人参与

最新评论
倾城

2017-12-2109:59:02

阿里自然语言系统还是存在太多进步空间,很好的挖掘算法,也是阿里多次站台演讲的得意之作

顶(0)
|
踩(0)
yayajing

2017-12-1515:31:43

阿里爸爸这是要抢度娘生意啊

顶(0)
|
踩(0)
qing731zhua

2017-12-0901:33:52

真是没有想到呀,能不能在具体的解释下哈。

顶(0)
|
踩(0)
kun699song

2017-12-0900:38:16

厉害呀,大企业果然是有实力的。

顶(0)
|
踩(0)
fensha

2017-12-0823:44:38

一点也不容易呀,都没看明白呀

顶(0)
|
踩(0)
youxiong2854

2017-12-0820:55:23

难怪能做的如此的好,原来有这个的呀,真是好强大的。

顶(0)
|
踩(0)
kaochun232

2017-12-0819:27:51

阿里巴巴可真是厉害的。

顶(0)
|
踩(0)
caishi

2017-12-0817:23:18

原来是这样的呀,现在真是了解明白了。

顶(0)
|
踩(0)
提示
X
收藏成功
提示
X
取消成功
举报原因
X

链头条建立于2017年,聚焦于区块链,区块链+,物联网,AI人工智能等多领域的新闻报道与深度解读,新鲜、及时、准确,为广大行业参与者提供专业、准确、快速、有价值的前沿科技资讯服务,同时向中国大众普及专业的区块链、区块链+、物联网、AI人工智能领域的知识,与同行一起推动中国区块链,区块链+,物联网,AI人工智能领域方面的快速成长。

商务合作
业务垂询业务垂询 400—101—6364

版权所有 © 上海米灿信息科技有限责任公司

阿里云提供计算与安全服务

沪ICP备17012875号-3