传统搜索引擎与无线搜索引擎(下)

2008年08月26-11:51  |  浏览数(16)

传统搜索引擎存在问题:

1、相关搜索

“相关搜索”的作用:(1)、提示给网友其它网友搜索的词汇[帮助不太会选择关键词的用户选择关键词、提供用户之间的一种交互](2)、推荐提供效果更好的更相关的相关搜索词汇第一个功能基本上满足了。第二个搜索引擎基本上还很不到位。如何完成第二个功能,很难。

2、潜在相关性

搜索“土豆"出现“马铃薯”,但是并没有“土豆”这个关键词。这个技术好像还不是很成熟。

3、破解用户搜索之意,优先排序

用户在搜索用到“最新”“XXXX政府”、“官方网站”等关键词的时侯并不是一定需要网页中有这个关键词,而是找到这类信息。
用户在找“最新”的时候实际上是希望获取其它词汇的最新相关内容,而不一定是需要含有“最新”这两个词汇的。所以在排序的时候考虑见新的网页排列在靠前位置更满足了用户的需求。
用户搜索“广州桦清”是想找在广州桦清的地址或电话。
用户搜索“广州桦清信息科技有限公司 电话”的时候是想找到电话号码。
在处理这类请求需要多地理位置信息和电话电话”这类词汇进行前端分析,在索引的时候识别电话号码、地址信息,在排序的时候将有相关信息的页面放置在前面、并且在做摘要提取的时候直接体现用户需要。

4、 网页库内容分类

用户在搜索“SEO”,那有几种可能需求:a、SEO相关资料;b、SEO服务公司;c、SEO最新新闻;d、其他
如果用户搜索“SEO”出来的全部是SEO 相关的信息,这显然不能代表不同网民的需求。很大程度上这个是为个性化搜索提供准备。作为一个入口而言,如果将不同类型(行业不同、知识类型不同)的信息排列在首页,满足了多样性的需求。

5、 基于视觉网页块分析

这项技术激动人心,对于优化网页的排序、自动摘要的质量很有帮助。网页搜索引擎可以全文检索一样在几乎纯净的数据中处理,再加上网页中富有的其它信息,你说网页搜索的相关性能不大幅度提升吗?

6、 网页结构化信息抽取类技术,网页上文本内容的相关性分析

结构化信息抽取实在是未来应用前景最好的一种技术,自动的抽取任意网页上的结构化数据。主要可用垂直搜索引擎:对网页数据进行采集、抽取、深度加工后为用户提供更好的、更专业的服务。结构化信息抽取可以识别网页中文本之间的相关度,可用于改善多词汇检索的关联度(计算偏移量不仅仅在文本距离上而且在表格单元格的相关性上);改善链接的相关性;改善文件和文本的相关性……地图搜索、黄页搜索、mp3搜索、图片搜索、bbs搜索等等各种搜索都离不开网页结构化信息抽取。

7、 重复识别

互联网的数据冗余实在太厉害了,一篇文章可能会被转载数千数万次。
识别重复的网站、网页、重复的正文、重复的段落识别…………
让用户感觉到“哇噻!这里的内容不重复!”
同时对重复的信息进行调权,装载量大的信息一般比较受欢迎,应该具有更高的权值。但是要对新闻类的内容进行识别,一定时间内加权、一定时间后降权。

8、 行业优化

搜索引擎的行业化是不可避免的。唯一影响搜索引擎行业化的门槛就是技术还是存在难度(这里说的技术不是那种小儿科的基于模板的元数据采集分词索引)。但是网页搜索引擎可以最大程度的行业化,在这点百度显得卓有远见。建立百度知道不仅仅可以丰富内容、语料库、拴住用户、甚至盈利。更大的用处可以用百度知道的各个行业的专业搜索用户群来改善百度搜索对各个行业的效果的用户分析,确解各行业用户之意百度可以很低成本的通达,调动专业人员来优化效果百度可以做到。

9、自然语言处理、简单的语意语法分析

搜索引擎可以根据内容来进行简易的语法分析,将某些呈现在用户面前。比如google的“DEFINE:“就用到了这种方法、同义词的识别等都可以用到这种简单的语法分析来搞定!还可以对具有某类语法的形式的正文进行关键词调权,改善检索效果。

10、细节上的优化,来自互联网的变化。

搜索引擎是和互联网各网站、网民密切相关的一个应用,其数据的全面性和数据源、采集系统密切相关。针对网页的结构变化、内容变化,网民的需求变化,需要不断的改善。对各种各类细节的改善都是搜索引擎的难点,也是必须走的道路,搜索引擎的发展就是关注细节,一个一个问题解决。

作者:王富升
原载:桦清科技
版权所有,转载时必须以链接形式注明作者和原始出处及本声明。
本文链接地址:http://www.gzhuaqing.com/blog/sem/search-engine-end.html

上一篇:如何防止E-mail地址被采集    下一篇:传统搜索引擎与无线搜索引擎(上)

阅读本文 “传统搜索引擎与无线搜索引擎(下)” 相关话题还有

传统搜索引擎与无线搜索引擎(上)
  1. “传统搜索引擎与无线搜索引擎(下)” 目前被评论过4次

  2. 如果我们能开发出个搜索引擎并正常运营,那该多好啊

    By jae on 2008年08月26-12:08

  3. 不断的改善搜索体验,是关系搜索引擎官方饭碗的问题。谁能做到更智能,谁就是胜利者。
    据说,谷歌已经开始着重着方面的研究。比如对图片的检索,还可以根据用户的搜索习惯提供用户最想要的信息。
    因为实际上两个用户搜索同一个关键词,也许想要的是不同的信息。但这些都不是一件简单的事情。
    单单上面提到“7、 重复识别”已经是一件很了不起的事情,如果能做到的话。(如果是“维基”模式就好处理,多人维护一条信息,只让信息更齐全而不是使其重复。)
    总之,如果说无线搜索是打破用户搜索环境的另一种搜索方式;那么“智能搜索”将是整个搜索引擎界里的发展趋势。

    By 匿名 on 2008年08月27-15:26

  4. 搜索改变生活,搜索连接世界。

    By jaunt on 2008年08月28-12:00

发表评论