str2

Clients and Solutions

新闻排行

百度技术沙龙第51期回顾:语义分析技术(含资料下载

2018-05-31 22:41

  区块链与自主主权身份赋予了我们使用数字身份在保持个人隐私的同时建立信任的能力。

  区块链与自主主权身份赋予了我们使用数字身份在保持个人隐私的同时建立信任的能力。

  2014年6月28日,在由@百度主办、@InfoQ负责策划组织和实施的第51期百度技术沙龙活动上,来自百度自然语言处理部高级研究员赵世奇,和中国科学院软件研究所计算机科学国家重点实验室副研究员韩先培,中国科学院计算技术研究所助理研究员姜文斌,各自分享了语义分析技术方面的实战经验。

  三位语义技术方面的博士分享的话题分别为:《自然语言对话式搜索打开智能生活的钥匙》、《实体链接:从文本到概念》和《标注适应:以中文分词和依存分析为例》,本文将对两位专家各自的分享做简单的回顾,同时提供相关资料的下载。

  “像这种大学的分数线,紧接着从人的交互中会出现这样的语言,那的,大学的分数线呢?这就是在自然语言处理中一种典型的技术叫消解,他要消解的是,你要的是大学的分数线。”赵世奇针对考霸的这个功能解释说,这是人的对话中不经意的行为,需要通过技术让计算机也学会和人交流。

  像需求补全的环节,要判断这里面缺省的部分,以及这里面的代词指代的是前文中的什么东西,最后是对用户在整个聊天过程中他全局信息的抽取利用和修改。

  语言的歧义性是指什么,就是同一个词语、词组、句子在不同的上下文中有多种不同的意义。韩先培解释了自然语言表达的多样性,统一意语言可以以多种不同的方式表达,很难找全信息,首先第一个自然语言表达是富有弹性的。

  我们用的知识是水果苹果和苹果电脑的上下文,以及中关村和水果苹果的相关度,基于这些知识,我们需要推测出中关村的苹果不错是指苹果电脑,而不是水果苹果。现在主流的方法有两种,一种是局部推理,一种是全局推理。

  姜文斌总结,标注适应的问题和方法,问题就是适应或融合不同标注标准的语料库的知识,方法就是基于经典分类器进行切换。在词法分析和句法分析问题上验证,显著提升词法分析和句法分析的性能,在大家的产业化做实用的产品需要处理大规模语料的时候有用途。应用场景是融合不同的人工标注语料,联合领域适应和标注适应,它的应用场景应该常广泛的。

  百度语音合成”,欢迎关注@InfoQ@百度技术沙龙获取后续的活动信息。感谢郭蕾对本文的审校。

Technical Support

网站统计