本文共 569 字,大约阅读时间需要 1 分钟。
Language Technologies Institute - Carnegie Mellon University - Chenyan Xiong
本篇博文是根据论文作者分享讲座整理,主要介绍了作者用知识图谱和分布式表示扩展语义信息来做信息检索的工作。(查询扩展的延伸)
在信息检索中,文本大多数是由词袋模型来表示的。包括Query和Document
词袋模型:词向量空间里的离散的维度。当代搜索引擎的一个根基。
模型:BM25,LM,Learn2Rank
特征:TF, IDF,etc
问题:Vocabulary Mismatch
缺点:No Semantics, No Understanding, relies on a lot of feature engineering, 只是利用了统计特征
Two ways to overcome the limitation of bag-of-words
转载地址:http://unoji.baihongyu.com/