为垂直搜索技术正名
引
工作和爱好的原因,经常读一些垂直搜索方面的文章,经常看到的一句话就是“垂直搜索引擎准入门槛低,技术开发简单”,于是很受打击,毕竟自己苦苦研究的技术在别人看来不值一哂是比较郁闷的一件事。庆幸个人爱好在此,便也能继续坚持前行。
日前读
个人以为搜索引擎准入门槛低有一点道理,因为如果只是分析抓取一两个网站的数据,好的程序员可以在一个晚上完成这项工作,但如果你想做一个通用的,适合各行业的垂直搜索引擎,则并不是一件那么容易的事情,以下简单介绍垂直搜索技术,个人开发心得,仅作参考。
技术原理
垂直搜索有搜索引擎的共性,即需要抓取大量的网页,分析其中的数据,特性是通用搜索更着重于正文内容的分离,关键字索引,链接关联权重分析,是一种非结构化分析,而垂直搜索更着重于正文内容模式分离,数据调整,相关链接分析,是一种结构化分析过程。
垂直搜索技术框架
垂直搜索的模块主要有以下几部分:
网站分析——你需要设定自己需要的网站资料,并设定行业统一模板。
站点初始化——不同于通用搜索,很多垂直搜索需要登录到站点内部才能拿到有效信息或完整信息,所以你需要一个模拟登录的过程,很多时候你甚至需要一个模拟的注册过程。
页面爬虫——抓取页面数据。
图片爬虫——鉴于负载分摊原则,这是一个独立模块,并衍生出MP3爬虫,Flash爬虫,视频爬虫等等模块。
数据分析——模式分离正文内容,分析有用链接,为爬虫产生新的数据URI。
迁移完整——数据拷贝集中,修改部分数据格式,使之适应行业统一模板,并做一些数据挖掘和深加工工作。垂直搜索还没有形成大的气候,不要奢望有行业站点主动去做垂直搜索引擎优化,我们能做的只能是优化垂直搜索引擎。
数据发布——发布到你的外网服务器,对关键数据进行分词,建立合适的索引。
外网查询——最快的检索速度,一个更好的UI,更多的应用,可行的盈利模式。
一部分技术难点
代理内核——在2000年到2003年间,笔者曾经用各种现成组件、类来抓取网页,最终逐步放弃直至想到用代理的方式来获得数据,其间遇到种种情况,最后才确认代理模式是能捕获所有网页的唯一方式。有正在研究的朋友希望本文能让你少走弯路。2005年,偶尔看到Google的简介里明确说明了Google爬虫的原理也是代理模式,大郁闷,浪费那么多时间精力。
线程管理——多线程是提高效率的很好方法,但线程管理却是噩梦,直到去年,笔者还经常为线程死锁、溢出,服务器当机而频发噩梦。
汉语分词——这是一个积累的过程,通用的词库很容易在网上可以Down到,但一些行业专用的词语,如地理位置、公司名、商品型号等,需要自己慢慢在采集的过程中用统计的方法积累。
万能模板——垂直搜索比较有争议的部分是所谓的万能模板和定制模板的区别,个人认为其实可以综合万能模板的效率和定制模板的质量,概念上的东西,没必要争议太多,好用有效才是当前唯一原则,当然,更智能化的万能模板则是将来研究的方向。
图片识别——这是一个比较有意思的分支,有时候你需要在模拟登录的时候突破验证码,有时候你也需要识别图片化的联系方式来为下一步数据挖掘做准备,解决方案是你可以用现成的文字识别组件,也可以自己研究算法,写一个识别类,仔细研究下去,其实也没有想象中的那么难,而且终于有机会在编程中用上初中以后的数学知识。
海量数据查询——相对通用搜索,垂直搜索在这个方面弱了很多,大部分行业数据时效性都很强,所以数据条目过亿的查询很少,但对初学者,也需要去好好学习一下更有效的数据索引。
分布式架构设计——这或者是一个垂直搜索引擎所处级别最重要的特征,一个好的设计应该是一个可以无限扩展的设计,原则只有一个:数据级别上升,访问量上升,只需要增加服务器数量即可应对。一个合理的树形结构应该是一个良好的选择。
合作思路
说了这么多技术,只是想为垂直搜索技术正名,垂直搜索并不是一个很简单的工程,有一定的技术难度,要想做好的门槛也并不很低。前一段谈公司并购,整理财务数据,才发现这些年花在技术研发上的钱居然快有小一百万了,自己都大吃一惊,虽然走了不少弯路,但是,谁又能保证自己不走弯路呢。
其实像稻苗网这样只是因为技术原因最终放弃一个有益的应用是很可惜的,因为这也许是一种全新的用户体验,可以创造全新的盈利模式。术业有专攻,没必要每个网站都要精通所有技术,而且在创业初期,为此付出高昂的时间、经济成本,有失明智。而我们这种专门的技术公司,其实不可能有精力、能力同时运营很多行业或区域,而一项在某个行业或区域闲置的技术却有公司为之投入大量人力物力,这对社会发展来说,也是一种极大的浪费。所以有行业优势的公司与有技术优势的公司的合作,也许是更好的解决方案。这或者也是垂直搜索相比与通用搜索的一个特性所在吧。
本文原发于艾瑞网,欢迎转载,但请注明作者搜搜看(SouSouKan.com)影子
点击查看该普通作者更多的文章
| 艾瑞网友 | 发表于:2008-3-7 13:54:00 IP:60.32.133.241 |
![]() |
使用搜索软件多年,作软件也多年,今天才对搜索软件的技术有个了解。为多年致力于搜索行业的垂直搜索技术研究的笔者致敬。 |
- 艾瑞特别策划:网页游戏困境与突围 网页游戏市场的最大问题是同质化产品问题严重,随着玩家对游戏产品和用户体验的要求不断提高,内容过于简单又重复雷同的产品逐渐失去吸引力。
- 专栏搜索
- 我的存档
- 最新评论
- 友情链接




影子



