2008年10月15日 星期三

SEO亂像 : 垃圾內容就是這麼來的

前文"網路是一個大糞坑? Internet is a Cesspool?"說到: search engine的演算法讓網路變成是一個大糞坑, 近日在某個SEO論壇看到一些製造垃圾內容的文章, 還被版主標為精華, 差點眼珠都快掉下來...

摘錄部分內容翻譯如下 (看用詞大概就知道是從何而來了)

採集技巧

(1)可採集論壇,論壇被采的比較少,原創程度高
(2)採集被封站,這招是最狠的,我指的是採一些台灣的網站,只要不涉敏感內容就沒事,采回來的內容全部是原創。
(3)採集翻譯,利用google的翻譯功能把英文內容翻譯中文,做成垃圾站,這招可以說是俺原創的,後來被好多朋友抄了。
(4)關於原創原創的排名是特別高的,大家不管怎麼做站肯定要有一些原創的內容,具體可找篇文章按自已的話說一遍,這是一種。 嫌累就寫個詞庫,把一些詞批量換過來如“計算機”這個詞變成“電腦”這樣很快原創內容就做成了。


難怪常在搜詢結果找到網站後, 發現內容每個字都懂, 但怎麼就是不知道他在說啥, 不然就是許多不同網站但內容卻都雷同, 就是因為這些網站製造了"垃圾內容"

下圖就是本站文章被"採集"的狀況, 其中略掉了某些連回本站的link, 因此內容讀起來會一頭霧水



您只要在Google以"SEO 五大要素"去搜詢, 就可以找到一堆跟本站文章幾乎一樣的內容, 什麼時候我講的SEO五大要素變聖經了, 每個要素還都一字不差 ...

這些垃圾內容不但浪費了讀者的時間, 也糟蹋了自己網站的品牌, 實在是一件不可取的作法, 如果稍具權威的網站還將標示為精華, 實在有些無言了!

標籤: , , , ,

繼續閱讀

2008年9月24日 星期三

SEO : How Google Handle Duplicate Content? (Google如何處理重複內容)

在網路上尋找資料時, 經常發現重複或近似內容, 有些是splog造成, 有些是惡意的SEO動作, 有些則是有其必要的原因, 在Google關於重複內容的說明文件中, 指出:

非惡意的重複內容可能包括:
-可針對行動裝置產生的一般網頁和精簡網頁的討論區
-透過不同的URL儲存顯示或連結的項目
-列印用網頁

但在某些情況下,有心人士會故意在整個網域中重複內容,試圖操控搜尋引擎的排名或贏得更多的流量。 這種欺騙的做法會帶來不好的使用經驗,因為訪客會在搜尋結果中看到大量相同的內容。

Search engine到底如何處理重複內容? 如何才能避免因重複內容而導致處罰?

我們先來看看幾個檢查重複內容的網路服務:

http://www.webconfs.com/similar-page-checker.php
http://tool.motoricerca.info/similarity-analyzer.phtml

當然以上只是初淺的查詢, 並非search engine所依靠的方式, 到底Google如何確定兩個網頁是重複的呢?

根據Google的專利資料"Methods and apparatus for estimating similarity", "Detecting duplicate and near-duplicate files" :

A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.

就是透過由文件形成vector, 再由hashing function產生的值, 與vector相乘後總合, 由這些總合後就變成sketch, 來比較這些sketch求得重複程度

在這篇研究文章中"Detecting Near Duplicates for Web Crawling(PDF)", 使用Charikar's simhash將高維的向量轉成f-bit fingerprint

這篇論文也指出, 辨識重複資料的目的:

(1)減少search engine在處理重複資料的空間浪費與計算浪費
(2)可以比對找出散佈在各地的類似新聞, 形成相關連的叢集(cluster)
(3)利用檢查結構類似, 可以用來淬取資料
(4)用來檢查文章的盜用(plagiarism)及垃圾網站(spam)
(5)用來檢查文章的改版

如Google所說的, 重複資料不是都屬於黑帽SEO, 有其必要性, 但是還是必須小心參考Google關於重複內容的說明文件, 好好審視您的網頁的重複狀況, 因為判斷重複內容的技術越來越精準, 事先避免才能保持與search engine的友好關係

以下是影片的說明:
Getting Serious, Series 1: Avoiding Duplicate Content


Do You Have Duplicate Content and Not Even Know It?


其他參考資料:
http://www.seobythesea.com/?p=999
http://www.vizioninteractive.com/search-engine-optimization-tip-14-fix-duplicate-content/
http://www.searchenginejournal.com/duplicate-content-penalty-how-to-lose-google-ranking-fast/1886/

標籤: , , , ,

繼續閱讀