2009年4月13日星期一

Matt Cutts 回答 Canonicalization Tag 問題

我們在文章提過"Canonical link element : 標準鏈結元素", Matt也在日前針對這個問題再次說明






有人問:

Does the new canonicalization tag make it safe to add tracking arguments to some of my internal links without fear that Google will split the quality signals between the two addresses?

當我使用canonicalization tag後, Google是否會分別評估頁面品質?


以下是另外的訪談:


總之使用Canonicalization Tag可讓search engine不必去處理根本是相同內容的不同URL, 因此如果你有類似example.com與www.example.com的問題, 應該儘速使用Canonicalization Tag來宣告, 讓search engine更有效率

參考:Matt Cutts Answers Canonicalization Tag Question

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年2月26日星期四

Canonical link element : 標準鏈結元素


Google, Yahoo!, Microsoft Live在二月12宣佈支援標準鏈結元素(Canonical link element), 目的在解決內容重覆的問題, 啥是標準鏈結元素? 網頁內容重覆又會造成啥問題?

如上圖簡單解釋標準鏈結元素, 眾多不同的外部連結可能都進到一個相同的網頁

如:
http://www.domain.com/index.html
http://www.domain.com
http://domain.com
http://www.domain.com/index.html?sessionid=hfjsklahdf7678234681
...等等

以上Link對於搜尋引擎來說, 可能都視為不同的URL

造成這種情況, 可能是無意也可能是故意, 但是這樣會造成搜尋引擎浪費時間與空間在做同樣的事情

標準鏈結元素(Canonical link element)就是要解決這個問題

如果這些URL內有以下這個宣告, 也就是Canonical link element
< link rel="Canonical" href="http://www.domain.com/index.html" >

告訴所有由不同URL進入的搜尋引擎, "http://www.domain.com/index.html"是這個URL的統一標準進入點

如此一來搜尋引擎就只需index一份資料

但是這個標準鏈結元素(Canonical link element)宣告, 對於一般blogger來說, 並沒有太大意義, 因為blogger並無法自己去宣告, 這個完全控制在blogger framework或CMS(Content Management System)上, 所幸陸續這些系統會把標準鏈結元素加入他們的系統中

以下是Matt Cutts對於Canonical link element的解釋


相關訊息:
http://www.mattcutts.com/blog/canonical-link-tag/
http://www.webpronews.com/topnews/2009/02/25/googles-matt-cutts-on-canonical-again
http://www.bretteleben.de/lang-en/joomla/canonical-url-modul.html
http://seoblogspot.com/canonical-url-tag-most-important-advancement-seo-practices-sitemaps
http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html
http://blogs.msdn.com/webmaster/archive/2009/02/12/partnering-to-help-solve-duplicate-content-issues.aspx
http://ysearchblog.com/2009/02/12/fighting-duplication-adding-more-arrows-to-your-quiver/

標籤: , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年2月25日星期三

Copy-Paste and Done?


最近受到IEEE的國際研討會之邀, 替他們review稿件, 看這些投稿的文章是否符合國際水準在研討會發表, 看了這些來自各國的所謂高級知識份子的文章後, 赫然發現了一般學生常發生的"COPY-PASTE"竟然也在這些教授學者間發生了...

當個審稿者(Reviewer)最頭痛的就是無法精通各種領域, 就算是在某個領域精通, 當你看到一篇應該是你精通領域的文章, 但你竟然看不太懂某篇看似很有條理的文章時...你會有點遲疑: 這篇文章到底是超乎水準, 所以才看不懂?...還是真的是狗屁不通才讓你看不懂?

有時真的會很怕誤人前途, 把別人嘔心瀝血之作退稿, 更怕的是把扯爛的文章讓他流傳出去, 讓後面可憐的博碩士生去K這些垃圾

話說看到一篇旁徵博引的文章, 裡面數學公式更是證明詳細, 但是看完之後總覺得數學式表示得怪怪的, 並且談的內容似乎應該是五六年前的東西, 但是因為論文的格式實在四平八穩...因此卡在退與不退之間徘徊, 就這樣遲疑了一個星期

後來實在難以決定, 因此使用了Docoloc(如上圖)

Docoloc主要是用來判斷文章是否為剽竊之作, 他可以跟網路上百萬多篇文章作比較, 計算出剽竊的比例

結果...BINGO, 果然是抄襲別人多年前的論文, 剽竊比例竟然高達50%以上, 而數學公式的上下標因為COPY-PASTE的關係, 沒有正確出現上下標的格式, 難怪總覺得怪

再來使用Docoloc來檢查其他各篇的論文, 雖然不算是完全剽竊, 但竟然也出現許多是整段文字的COPY-PASTE, 大概是引用別人觀點時, 懶得自己再敘述, 不敢置信的是一般學生常發生的"COPY-PASTE"竟然也在這些教授學者間發生

技術日新月異, 不管是學術論文還是網路上的創作, 不要以為抄得神不知鬼不覺, 現在的fuzzy search, similarity check...等技術, 已經讓抄襲不再像以前一樣那麼容易了, 應引以為戒...停止COPY-PASTE的習慣吧

標籤: , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年10月15日星期三

SEO亂像 : 垃圾內容就是這麼來的

前文"網路是一個大糞坑? Internet is a Cesspool?"說到: search engine的演算法讓網路變成是一個大糞坑, 近日在某個SEO論壇看到一些製造垃圾內容的文章, 還被版主標為精華, 差點眼珠都快掉下來...

摘錄部分內容翻譯如下 (看用詞大概就知道是從何而來了)

採集技巧

(1)可採集論壇,論壇被采的比較少,原創程度高
(2)採集被封站,這招是最狠的,我指的是採一些台灣的網站,只要不涉敏感內容就沒事,采回來的內容全部是原創。
(3)採集翻譯,利用google的翻譯功能把英文內容翻譯中文,做成垃圾站,這招可以說是俺原創的,後來被好多朋友抄了。
(4)關於原創原創的排名是特別高的,大家不管怎麼做站肯定要有一些原創的內容,具體可找篇文章按自已的話說一遍,這是一種。 嫌累就寫個詞庫,把一些詞批量換過來如“計算機”這個詞變成“電腦”這樣很快原創內容就做成了。


難怪常在搜詢結果找到網站後, 發現內容每個字都懂, 但怎麼就是不知道他在說啥, 不然就是許多不同網站但內容卻都雷同, 就是因為這些網站製造了"垃圾內容"

下圖就是本站文章被"採集"的狀況, 其中略掉了某些連回本站的link, 因此內容讀起來會一頭霧水



您只要在Google以"SEO 五大要素"去搜詢, 就可以找到一堆跟本站文章幾乎一樣的內容, 什麼時候我講的SEO五大要素變聖經了, 每個要素還都一字不差 ...

這些垃圾內容不但浪費了讀者的時間, 也糟蹋了自己網站的品牌, 實在是一件不可取的作法, 如果稍具權威的網站還將標示為精華, 實在有些無言了!

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月24日星期三

SEO : How Google Handle Duplicate Content? (Google如何處理重複內容)

在網路上尋找資料時, 經常發現重複或近似內容, 有些是splog造成, 有些是惡意的SEO動作, 有些則是有其必要的原因, 在Google關於重複內容的說明文件中, 指出:

非惡意的重複內容可能包括:
-可針對行動裝置產生的一般網頁和精簡網頁的討論區
-透過不同的URL儲存顯示或連結的項目
-列印用網頁

但在某些情況下,有心人士會故意在整個網域中重複內容,試圖操控搜尋引擎的排名或贏得更多的流量。 這種欺騙的做法會帶來不好的使用經驗,因為訪客會在搜尋結果中看到大量相同的內容。

Search engine到底如何處理重複內容? 如何才能避免因重複內容而導致處罰?

我們先來看看幾個檢查重複內容的網路服務:

http://www.webconfs.com/similar-page-checker.php
http://tool.motoricerca.info/similarity-analyzer.phtml

當然以上只是初淺的查詢, 並非search engine所依靠的方式, 到底Google如何確定兩個網頁是重複的呢?

根據Google的專利資料"Methods and apparatus for estimating similarity", "Detecting duplicate and near-duplicate files" :

A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.

就是透過由文件形成vector, 再由hashing function產生的值, 與vector相乘後總合, 由這些總合後就變成sketch, 來比較這些sketch求得重複程度

在這篇研究文章中"Detecting Near Duplicates for Web Crawling(PDF)", 使用Charikar's simhash將高維的向量轉成f-bit fingerprint

這篇論文也指出, 辨識重複資料的目的:

(1)減少search engine在處理重複資料的空間浪費與計算浪費
(2)可以比對找出散佈在各地的類似新聞, 形成相關連的叢集(cluster)
(3)利用檢查結構類似, 可以用來淬取資料
(4)用來檢查文章的盜用(plagiarism)及垃圾網站(spam)
(5)用來檢查文章的改版

如Google所說的, 重複資料不是都屬於黑帽SEO, 有其必要性, 但是還是必須小心參考Google關於重複內容的說明文件, 好好審視您的網頁的重複狀況, 因為判斷重複內容的技術越來越精準, 事先避免才能保持與search engine的友好關係

以下是影片的說明:
Getting Serious, Series 1: Avoiding Duplicate Content


Do You Have Duplicate Content and Not Even Know It?


其他參考資料:
http://www.seobythesea.com/?p=999
http://www.vizioninteractive.com/search-engine-optimization-tip-14-fix-duplicate-content/
http://www.searchenginejournal.com/duplicate-content-penalty-how-to-lose-google-ranking-fast/1886/

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院