所谓相似,我的意思是两个web页面在页面内容上基本相同。在这种情况下,两个web页面可以视为相似的。当比较两个网页的搜索引擎,它使用个特定的算法比较,和搜索引擎通常使用两种方法来比较:个是基于web页面总结比较,如果多个网页摘要的md5值是相同的,它证明了这些网页有高度的相似性。二是根据网页关键词,按词频顺序,可以取N个高频词,如果其md5值相同,则可以认为这些网页具有较高的相似度。谷歌搜索引擎将web页面的相似度设置为60%。也就是说,如果两个web页面的相似度超过60%,那么所比较的web页面将不再包括在内。如果相似度接近60%,比较的网页也可以包括在内,但是搜索引擎给出的权重相对较。这就是搜索引擎对待web相似性的方式。可以看出,网页相似度对我们网站的影响主要在于被比较的网页是否可以被包含,而对其他方面没有影响。
有两个主要原因网络相似的问题:(1)在同网站,旧web页面复制为个网页,导致内部的页面标题,关键词,描述信息,内容变化相对较少,结果判断相似度高的搜索引擎。(2)在不同站点之间,将原来曾经被收录的网页的内容拿来,,和稍微改变或伪原创,导致更少的内容更改,或者只是段调整,内容并没有改变,这类似于复制,被搜索引擎判定为相似。相似度判断网页搜索引擎,是相当聪明的,不是我们想象的简单的比较从头到尾,而是智能的分析和比较,我们不冒风险,认为复制别人的网页内容,给出个简单的改变就可以蒙混过关。
有两个主要原因网络相似的问题:(1)在同网站,旧web页面复制为个网页,导致内部的页面标题,关键词,描述信息,内容变化相对较少,结果判断相似度高的搜索引擎。(2)在不同站点之间,将原来曾经被收录的网页的内容拿来,,和稍微改变或伪原创,导致更少的内容更改,或者只是段调整,内容并没有改变,这类似于复制,被搜索引擎判定为相似。相似度判断网页搜索引擎,是相当聪明的,不是我们想象的简单的比较从头到尾,而是智能的分析和比较,我们不冒风险,认为复制别人的网页内容,给出个简单的改变就可以蒙混过关。
有了问题,我们就需求进行矫正,下次防止再犯同样的错误。关于网页类似度的问题,我们晓得了形成的缘由,就能够有的放矢。有效的方法来解决相似的网页是做你真正的原创,假如你的网页内容是原创出来的,只需内容质量高,就肯定不会由于网页类似度的问题而不收录,普通的都能被收录的。如果你没有太多的时间的站长写原创文章,或限于水平问题不能写高质量的原创文章,你也可以进行伪原创,但是我们建议你避免相似的问题页面,您需要重大改变原来的文章中,变化的程度,少也要超过50%,所以你可能会包括搜索引擎。
此外,我们建议您网站管理员,在web页面中,为了节省时间,如果你需要复制原始的网页,然我们也建议您在web页面的标题,关键词,描述信息和内容也大幅改变,否则你的网页很难被收录的。在进行更改时,可以使用些不同的代码替换原始代码,例如使用iFrame框架替换内容的前部分等等。我做的网站建设领域很长段时间,满足相似性问题,因为网站不包括,不少在谷歌adsense管理平台也有个HTML文档的工具,如果两个页面的标题和描述信息,网站管理员工具将提示您高相似度的两页,然我们可以修改。建议站长们多进入搜索引擎的管理平台,利用里面提供的功能,有时会对网站建设非常有益。