组合聚醚厂家
免费服务热线

Free service

hotline

010-00000000
组合聚醚厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

一种搜索结果的排序算法

发布时间:2020-07-24 11:12:19 阅读: 来源:组合聚醚厂家

一种搜索结果的排序算法

Jun 26 2005 来源:未详

浊世用重典,搜索引擎在与spam的长时间战争中总是处于不利地位(这很容易理解,搜索引擎公司真正斟酌搜索结果相关性和排序的只有几个人,而互联网上整天揣摩怎样对付搜索引擎的有几万几十万webmaster),所以对spam的惩罚很严厉,事实上,所有的搜索引擎对它们认定的spam行动,通常只有一种惩罚:永久屏蔽。现在流行的太极链、凤凰链这些超链群,就存在被当作spam的可能性。国内的搜索引擎注册还没有构成市场,但在国外是很发达的产业,每一年以200%的速度增长,它们叫SEO,即search engine optimization。

从某种角度来讲,几近是spam在推动着搜索引擎的进步,很久很久以前的一天,搜索引擎们为了搜索结果能更准确,为了能把最相干的搜索结果排在前面,发明了meta tag。起初,meta tag是很好用的,那时候,诚实的webmaster们照实的填写网站摘要,照实的列出跟他的网站最相干的关键字,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要根据,然后,是一段相安无事的甜蜜时光。

岁月迅速流逝,甜蜜时光挡不住资本的气力。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,乃至冒绞首的危险。” 愈来愈多的网站开始寻求收入寻求pageview,它们开始欺骗搜索引擎,它们在meta tag中塞进成堆的关键字,塞进跟自己的网站内容无关的但是流行的关键字。大众的气力是巨大的,搜索引擎的相关性被破坏了。。。

搜索引擎们对做弊者开始第一轮反击,但是无力的,它们的做法是:在排序时更多的依赖网页正文而不是meta tag。

做弊者以进为退,开始第二轮攻击,他们在正文中大量使用与网页背景相同色彩的关键字,在image tags中塞进关键字,在网页代码加入“看不见的注释”。

搜索引擎开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字,取得了小小的成功。

仁慈是仁慈者的墓志铭,卑鄙是卑鄙者的通行证”,做弊者眼见常规武器无效,开始利用搜索引擎的真诚。搜索引擎的spider是互联网上的谦谦君子,它们访问任何网站都会自报身份,并且查阅网站的访问规定,完全依照各网站的规矩来办事。因而,做弊者精心制作了两个网站,一个专供网友访问,一个专供搜索引擎访问,每当发现访问要求来自搜索引擎时,就返回专供搜索引擎看的能令搜索引擎满意的网页,而正常访问者只能看到另一个截然不同的网站。这种方法叫做cloaking。这第三轮攻击,做弊者大胜。

1998年3月1日,分别在AltaVista、Excite、HotBot、Infoseek、Lycos搜索当时的热门辞汇“Monica Lewinsky”,各搜索引擎首页竟然分别有50%、30%、30%、10%、50%的搜索结果是spam。因而可知当时做弊者们猖獗至何等程度!

搜索引擎们,由于它们道德上的弱点,由于有些手段不愿用,所以没法完全辨别cloaking网站,也就没法完全对付做弊者。搜索引擎能做的只是严厉的惩罚被发现的spam,以正告做弊者,发展到今天的结果是,所有的搜索引擎对它们认定的spam行动,只有一种惩罚:永久屏蔽。

但是,严厉的惩罚历来只是无能者推卸责任的借口,而不能真正的改良状态。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,乃至冒绞首的危险。” 做弊者历来就不怕惩罚,当互联网狂潮来临,寻求pageview的做弊者们更是肆无忌惮。

无可奈何的搜索引擎,只有去寻觅新的相关性排序根据,只有去寻觅做弊者不能控制的排序根据,只有去网站之外寻觅排序的根据,搜索引擎,真的别无选择。

因而,开始出现了超链分析,出现了Pagerank。一个网页,说它自己是什么,它就是甚么吗?物以类聚,如果它说的是真的,那末指向这个网页的链接应当来自具有同类内容的网页,所以指向这个网页的链接可以被用来验证这个网页的相关性。

谁,最不可能出于贪婪而做弊?谁,最可能照实提供网页内容?是政府网站,和教育网站。所以,在超链分析中,gov和edu网站通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。

但是PageRank也带来了一些不请自来的毛病排序因素:新站不如旧站,小站不如大站,专业站不如通俗站。一个新网站,一个小网站,一个专业网站,它的内容再好,由于不可能迅速得到大量的超链,所以没法得到适合的排名,即便它的内容是无与伦比的。而一个历史悠久的老网站、大网站、通俗网站,即便它已久不更新,或内容远不如某些小网站,却可以获得很高的排名。

当超链分析刚出来时,SEO界一片悲观论调,认为这是没法做弊的,SEO业完蛋了(就象近期各搜索引擎纷纭收费,SEO业更觉得自己前景惨淡,其实虽然搜索引擎排名市场的大头要给搜索引擎们,但SEO还是有钱赚的,毕竟,只有劳动模范有下岗的可能,历来没听说骗子会失业的),但是,道高一尺魔高一丈,很快SEO们发现了对付超链分析的方法:你不是喜欢链接么,好,我就做大量的网站,准备大量的链接,哪一个客户出钱,我所有的网页都给它一个链接。这类SEO方法被称为link firm。这种方法刚出现时还算有效,不过很快就不行了,由于一个网站是不是有大量来自内容不相干网页的链接,或一个不是搜索引擎的网站给出大量不相干的链接还不难判断。而每当发现一个link firm,那些使用了该link firm的网站就全部死翘翘。我在wmw的论坛上看过一个家伙的帖子,说他的网站被封了,但他觉得自己很干净,没有做spam,所以主动去问Google封他网站的缘由,原来仅仅是由于他用了一个link firm,真是可怜

一种搜索结果的排序算法,如果更多的是基于概念、主题、基于网页内容的质量,而不是网络上相互链来链去的超链的重要性,那末搜索结果的相关性在本质上会更好。

只是,让计算机学会理解和评价网页内容吗?好像还是很遥远的事情;花大量的人力一个个网页评估么?这肯定是亏本的商业行动,只有靠志愿者。ODP庶几近之,但也只能点击,用关键字搜索时还是没法跟超链分析的结果相比。

乌鲁木齐癫痫病专科医院

石家庄癫痫病医院

南昌癫痫病医院哪家好

癫痫治疗药物