百川汽车维修配件汽修公司网站建设 - 专业的汽车维修配件汽修公司网站建设

资讯热点
基本的SEO技能 介绍搜索引擎的核心算法

发布时间:2021-11-9 分类: 电商动态

外链是搜索引擎算法中判断网站权重的重要指标。当用户在搜索框中输入关键字时,搜索引擎会面对大量内容相同的网页。首先需要解决的是用什么参数来决定网页的排名。今天,笔者简单介绍一下大家熟知的核心算法:pageRank算法、Hilltop算法、DirectHit算法。

第一个算法,pageRank算法

1998年,SergeyBrin和Lawrencepage提出了pageRank算法。该算法基于“从多个高质量网页链接的网页一定还是高质量网页”的回归关系来判断网页的重要性。该算法认为网页A到网页B的链接可以看作是网页A到网页B的支持投票,可以根据投票数来判断网页的重要性。当然,不能只看票数,还要分析投票页面的重要性。页面越重要,投票评价越高。根据这个分析,评价高的重要页面会被赋予更高的pageRank值,在搜索结果中的排名也会有所提升。PageRank是基于对“使用复杂算法得到的链接结构”的分析,从而得到每个网页本身的特征。

分析:pageRank算法的优势在于给出了网页在互联网上重要性的全局排名,算法的计算过程可以离线完成,有利于快速响应用户的请求。但其缺点在于主题独立性,没有区分页面中的导航链接、广告链接和功能链接,容易对广告页面产生过度评价;此外,pageRank算法的另一个缺点是,旧页面的排名会比新页面高,因为新页面,即使是非常好的页面,除非是一个网站的子网站,否则也不会有很多链接。这就是为什么pageRank需要多种算法的结合。

第二种算法,山顶算法

2001年,谷歌工程师巴拉特(Bharat)获得了搜索引擎结果排名专利HillTop。山顶算法的指导思想与pageRank一致,即搜索结果的排名权重由反向链接的数量和质量决定。但是,HillTop认为,对于搜索者来说,只计算来自具有相同主题的相关文档的链接更有价值,即与主题相关的网页之间的链接比与主题无关的链接对权重计算的贡献更大。在1999-2000年,当这个算法被Bharat等谷歌开发者开发出来的时候,他们把对主题有影响的文档称为“专家”文档,只有这些专家文档页面到目标文档的链接,才决定了链接页面“权重得分”的主要部分。

山顶算法的过程:首先计算查询主题最相关的“专家”资源列表;其次,在选定的“专家”集合中确定相关链接,并对其进行跟踪,以确定相关网页目标;然后,根据指向目标的不相关“专家”的数量及其相关性对目标进行排序。因此,目标网页的评分反映了最中立的专家对查询主题的集体看法。如果不存在这样的专家库,山顶不会给出结果。

从山顶算法过程可以看出,该算法主要包括两个方面:寻找专家;目标的顺序。通过对搜索引擎抓取的网页进行预处理,找出专家页面。对于关键词查询,首先在专家中查找,并将结果排序。

权威页面是由最好的专家针对某个查询主题指出的页面。专家也可能是更广泛领域或其他领域专题的专家。专家页面中只有部分链接与主题相关。因此,将查询主题专家中的相关外链进行合并,找到被查询主题相关页面高度识别的页面。

从顶部匹配专家页面和相关匹配信息中选择专家页面中超链接的子集。尤其是那些与所有查询相关的链接。基于这些选定的链接,找出他们的目标子集之一作为与最相关的查询主题的网页。该目标子集包含由至少两个非相关专家页面链接的网页。目标集根据指向它们的专家的综合得分进行排序。

山顶的应用还存在一些不足。专家页面的搜索和确定在算法中起着关键作用,专家页面的质量决定了算法的准确性。然而,专家页面的质量和公平性在一定程度上难以保证。Hiltop忽略了大多数非专家页面的影响。在Hiltop的原型系统中,专家页面仅占整个页面的1.79%,不能完全代表整个互联网。

当Hiltop算法得不到足够的专家页面子集(少于两个专家页面)时,返回null,即Hiltop适合细化查询排序,但不能覆盖。这意味着山顶可以结合一定的页面排序算法来提高准确率,但不适合作为独立的页面排序算法。根据山顶中的查询主题从专家页面集中选择与主题相关的子集也是在线运行的,这将像上面提到的HITS算法一样影响查询响应时间。随着专家页面集的增加,算法的可扩展性不足。

分析:HITS算法的优势在于可以更好地描述互联网的组织特征。因为它只分析互联网中的一个小子集,所以迭代次数少,收敛速度快,降低了时间复杂度。

但HITS算法也存在以下缺点:中心网页之间的相互引用增加了其网页评价,当一个网站上的多个网页指向同一个链接,或者一个网页指向另一个网站上的多个文件时,会造成评分异常增加,导致易受“垃圾链接”攻击;网页中有自动生成的链接;

主题漂移,往往包括邻接图中一些与搜索主题无关的链接,如果这些链接也是中心网页或权威网页,就会造成主题漂移:每一个不同的查询算法都需要重新运行才能得到结果。这使得它无法在实时系统中使用,因为数千万个并发查询的开销太大。

第三种算法,DirectHit算法

与以往的算法相比,AskJeeves的DirectHit算法是一种注重信息质量和用户反馈的排序方法。它的基本思想是搜索引擎将查询结果返回给用户,并跟踪用户在搜索结果中的点击。如果返回结果中排名靠前的网页被用户点击,浏览时间短,用户再次点击其他检索结果,则可以认为其相关性较差,系统会降低该网页的相关性。另一方面,如果用户点击并打开网页进行浏览,浏览时间越长,网页的受欢迎程度就会越高,相应地,系统也会增加网页的相关性。可以看出,在这种方法中,相关性是不断变化的。当同一单词在不同时间被搜索时,结果集的排序可能不同。这是一种动态排序。

分析:这种算法的优点是可以节省很多时间,因为用户在阅读更符合要求的结果。同时,该算法直接融入了用户的反馈信息,可以保证页面的质量。

但统计表明,DirectHit算法只适用于关键词很少的情况,因为它实际上并不是排序,而是一种筛选和抽取。当搜索数据库很大并且有很多关键词时,会返回成千上万的搜索结果,因此用户无法逐一查看。因此,这种方法不能作为主要的排序算法,而是一种很好的辅助排序算法,目前仍在许多搜索引擎中使用。

其实网页的搜索排名是很多算法综合作用的结果。简单分析以上三种算法,pagerank可以对网站上的所有网页给出一个重要的排名,但是没有针对性和相关性,现在pR值作弊已经到了泛滥的程度,所以pR排名对网页的重要性已经大大降低;

山顶算法将对站长建立外部链接起到指导作用。在山顶算法中,每个领域都有几个专家页面。如果搜索相关关键词,搜索引擎会先从专家页面中查找,如果匹配度不够,再从专家页面链接的下一个页面中查找,以此类推。

DirectHit算法可以作为Hilltop和pagerank的很好补充。更重要的是,DirectHit考虑了用户体验的影响,实时更新搜索结果的质量。当用户点击搜索框中的页面链接时,最符合搜索用户要求的页面应该开始。如果用户浏览网站超过一定时间,就会被视为结果页面,更符合用户搜索的要求。如果长时间有效点击,页面在搜索引擎中会有排名,并会有相应的提升。

通过以上三种算法,我们可以理解,我们首先需要考虑的是相关性。在外链的建设上,要尽量找权威性高的网站,比如软文、友情链接,这些都可以看作是这些网站的支撑。同时要注意网站的跳出率和浏览时间,时刻反馈用户数据。对于一些关键页面,用户点击量高的页面。

文章来源:微信官方账号SEO战斗营(ID: ilottecn),原创链接:/s/s/mMZW-xfk 41w 8 rquejjw6i3a

« 核心关键词和长尾关键词的区别 | 沉降市场的战局已经谱写了许多新的故事才刚刚开始 »