笔者:杨夕
项目地址:https://github.com/km1994/nlp_paper_study
论文:A User-Centered Concept Mining System for Query and Document Understanding at Tencent
个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
- 介绍:"概念"是事物的抽象;
- 作用:认识“概念”(concept)是人类认识世界的重要基石;
- 应用:对于自然语言理解,提取概念(extract concept)和对文本进行概念化(conceptualization)是至关重要的研究问题。
- 举例:
- 本田思域(Honda Civic)/现代伊兰特(Hyundai Elantra)-联想-> 油耗低的车(fuel-efficient cars)/经济型车(economy cars)-联想-> 福特福克斯(Ford Focus)/尼桑骐达(Nissan Versa)
- Query短且不规范,传统的Hearst pattern不管用;
- 人工标注过于主观,无法捕获用户兴趣及意图;
- 一般关键词抽取方法只能抽取连续字符串,而用户感兴趣的概念可能是非连续字符串;
- 传统方法时效性较差
- 用以提取符合用户兴趣和认知粒度的概念;
- ConcepT系统从大量的用户query搜索点击日志中提取概念;
- 并进一步将主题、概念和实体联系在一起,构成一个分层级的认知系统。
- 提出两种无监督模型,bootstrapping和query-title alignment,从大量搜索日志中提取出以用户为中心(user-centered)的概念;
- 基于以上策略提取的种子概念,进一步训练有监督模型(条件随机场CRF + 分类器)来从query和点击title中进一步提取概念短语;
- 提出了两种策略来对长文章打上概念标签,丰富对文章主题的刻画;
- 通过提取主题、概念、实体之间的 isA关系,我们构建了一个三层的分级系统,来保存它们之间的联系。
- 实验证明,ConcepT系统能精确地从query中提取高质量的概念短语,以及将长文章打上相关的概念标签。在线A/B test证明,ConcepT系统能相对提升6.01%的信息流曝光效率。