站長在建設(shè)網(wǎng)站時,有時會遇到一個問題,那就網(wǎng)頁相似度。什么是網(wǎng)頁相似度?所謂的網(wǎng)頁相似度,簡單地說,就是兩個頁面的相似性。這兩個頁面可能是同一站點上的頁面,也可能不是同一站點上的頁面,也可能是其他站點上的頁面。當一個搜索引擎包含一個網(wǎng)頁時,它通常會比較兩個網(wǎng)頁,看看它們是否相似。
所謂相似,我的意思是兩個web頁面在頁面內(nèi)容上基本相同。在這種情況下,兩個web頁面可以視為相似的。當比較兩個網(wǎng)頁的搜索引擎,它使用一個特定的算法比較,和搜索引擎通常使用兩種方法來比較:一個是基于web頁面總結(jié)比較,如果多個網(wǎng)頁摘要的md5值是相同的,它證明了這些網(wǎng)頁有高度的相似性。二是根據(jù)網(wǎng)頁關(guān)鍵詞,按詞頻順序,可以取N個高頻詞,如果其md5值相同,則可以認為這些網(wǎng)頁具有較高的相似度。谷歌搜索引擎將web頁面的相似度設(shè)置為60%。也就是說,如果兩個web頁面的相似度超過60%,那么所比較的web頁面將不再包括在內(nèi)。如果相似度接近60%,比較的網(wǎng)頁也可以包括在內(nèi),但是搜索引擎給出的權(quán)重相對較低。這就是搜索引擎對待web相似性的方式??梢钥闯?,網(wǎng)頁相似度對我們網(wǎng)站的影響主要在于被比較的網(wǎng)頁是否可以被包含,而對其他方面沒有影響。
有兩個主要原因網(wǎng)絡(luò)相似的問題:(1)在同一網(wǎng)站,舊web頁面復制為一個新網(wǎng)頁,導致內(nèi)部的頁面標題,關(guān)鍵詞,描述信息,內(nèi)容變化相對較少,結(jié)果判斷相似度高的搜索引擎。(2)在不同站點之間,將原來曾經(jīng)被收錄的網(wǎng)頁的內(nèi)容拿來,,和稍微改變或偽原創(chuàng),導致更少的內(nèi)容更改,或者只是段調(diào)整,內(nèi)容并沒有改變,這類似于復制,被搜索引擎判定為相似。相似度判斷網(wǎng)頁搜索引擎,是相當聰明的,不是我們想象的簡單的比較從頭到尾,而是智能的分析和比較,我們不冒風險,認為復制別人的網(wǎng)頁內(nèi)容,給出一個簡單的改變就可以蒙混過關(guān)。
有了問題,我們就需求進行矯正,下次防止再犯同樣的錯誤。關(guān)于網(wǎng)頁類似度的問題,我們曉得了形成的緣由,就能夠有的放矢。較有效的方法來解決相似的網(wǎng)頁是做你真正的原創(chuàng),假如你的網(wǎng)頁內(nèi)容是原創(chuàng)出來的,只需內(nèi)容質(zhì)量高,就肯定不會由于網(wǎng)頁類似度的問題而不收錄,普通的都能被收錄的。如果你沒有太多的時間的站長寫原創(chuàng)文章,或限于水平問題不能寫高質(zhì)量的原創(chuàng)文章,你也可以進行偽原創(chuàng),但是我們建議你避免相似的問題頁面,您需要重大改變原來的文章中,變化的程度,至少也要超過50%,所以你可能會包括搜索引擎。
此外,我們建議您網(wǎng)站管理員,在web頁面中,為了節(jié)省時間,如果你需要復制原始的網(wǎng)頁,然后我們也建議您在web頁面的標題,關(guān)鍵詞,描述信息和內(nèi)容也大幅改變,否則你的網(wǎng)頁很難被收錄的。在進行更改時,可以使用一些不同的代碼替換原始代碼,例如使用iFrame框架替換內(nèi)容的前一部分等等。我做的網(wǎng)站建設(shè)領(lǐng)域很長一段時間,滿足相似性問題,因為網(wǎng)站不包括,不少在谷歌adsense管理平臺也有一個HTML文檔的工具,如果兩個頁面的標題和描述信息,網(wǎng)站管理員工具將提示您高相似度的兩頁,然后我們可以修改。建議站長們多進入搜索引擎的管理平臺,利用里面提供的功能,有時會對網(wǎng)站建設(shè)非常有益。
以上內(nèi)容是
濟南網(wǎng)站建設(shè)公司為大家介紹的“關(guān)于“網(wǎng)頁相似度”到底是怎么判定的?”相關(guān)內(nèi)容,本文來源:http://m.k6uh.com