视索引第用户输入的查询请求非常问短, 查询的平均长度是 2.7个单调。如何从如此知的查询请求里供知隐藏儿的真实用广需求7这是搜索引擎首需要解决的非常原要的问题。如果不能在取用户真正的搜索意图,搜索的准确性无从谈起,即使续内容匹配算法再精巧也无济于事,
从另外,个角度看,即使是同个查询词,不同用户的搜索目的是不同的,如何识别这种差异7如果更进步, 即使是间个用户发出的网 个查询词 也可能因为用户所处场景不同,其目的存在差异,义如何识别?所有这些把是搜索引繁需要解决的核心问题,即用户在此时此地发出某个查询,他的真实搜索意图到是什么。
哪些信息是和用户需求真正相关的?
上述第个核心问题是从用户需求角度出发的,另外两个核心问题则是从数据角度考虑的。搜索引擎本质上是个匹配过程, 即从海量数据里面找到能够匹配用户需求的内容。 所以,在明确用户真实意图这个前提条件做到,如何找到能够满足用户需求的信息则成为关键因素。
判断内容和用户查询关键词的相关性,直是信息检索领域的核心研究课题,不断提出的信息检索模型即在试图解决这个问题。相关研究历时近60年,尽管不断有方法提出,检效果总体而言也在逐步改进,但是这个领域的基本指导思想还是基于关键词的匹配,包括现在所有搜索引擎的相关性计算部分,其基本计算思路和几十年前相比并无本质差异。
如何能够在这个核心问题上有所突破?这个问题将会越来越重要,而从关键词匹配到让机器真正理解信息所代表的含义是解决这个问题必须迈过的门槛。从目前来看,尽管包括人I工智能在内的很多相关研究领域对此有所进展,但是短期内还未能看到解决这问题的清晰技术思路。
哪些信息是用户可以信赖的?
搜索本质上是找到能够满足用户需求的信息,尽管相关性是衡量信息是否满足用户需求的个重要方面,但并非全部,信息是否值得信赖是另个重要的衡量标准。