2010年1月4日星期一

搜尋引擎優化: CNN 與 SEO



對於小型的網站來說, 想要鎖定關鍵字是容易的, 因為也許只有幾個關鍵字; 但是對於像CNN這種新聞網站而言, 其內容包括太多的範圍, 想要在搜尋引擎優化作業上來鎖定關鍵字, 幾乎根本是不可能的事情 ...

這篇文章"How CNN Stays on Top of SEO"訪問了CNN的SEO Manager, Topher Kohan

他除了表示標題與Meta的重要性之外, 還說:
As for the future of video SEO for news sites, Kohan told us that he sees microformats as a key ingredient to getting content seen. Google further indicated this when it announced its support of Yahoo’s SearchMonkey RDFa and Facebook Share in September. Kohan believes these partnerships will allow SEOs to give the search engines more information, which will be better for everyone. Since he expects to see a set of standardized tags within the next 18 months, Kohan advises SEOs to get on board with the coming changes in order to start preparing now.
也就是我們在SEO 3.0所說的...語意串聯將會是後續的重點...另外就是「表示法」, 有了核心定義後, 網頁資料必須表示很清楚才能套用, 目前HTML是無法擔此重任的... 因此才有XML, RDF, Microformat, Common Tag...等標準

我們在去年所說的, 也剛好就是CNN SEO Manager所認同的

要想把網頁的內容很清楚的表達給搜尋引擎來達成搜尋引擎優化的目的, 就必須結構化的表現資料、以及讓你的網頁曝光在社交網路中...

為何要結構化的表現資料? 因為這樣才能讓搜尋引擎準確的抓取你要表達的意思! 為何要讓你的網頁曝光在社交網路中? 因為使用者的行為模式資料可以歸類你的網頁, 並且讓你的網頁具有相關的流量!!

如果你需要的搜尋引擎優化是鎖定上萬個、數十萬個、甚至於上百萬個關鍵字, 當然不能使用傳統的SEO作業, 你需要的是如CNN的SEO觀點來進行!

大型網站的SEO作業, 更必須注意語意串聯與社交網路


P.S. 不知國內的企業是否也已經開始有SEO Manager這樣的人才? 如果沒有的話, 實在很像生活在網路世代的摩登原始人囉!

標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年12月15日星期二

Eyexplorer : 視覺式知識引擎



Eyexplorer這個又像一般搜尋引擎, 又像Kartoo語意搜尋引擎, 是由Vionto所開發出來, 他們把Eyexplorer定義為知識引擎(Knowledge Machine)... 或者可以說他是經由資料語意分析後, 可由使用者自行組合的知識引擎

根據Eyexplorer的解釋:
eyePlorer.com, powered by vionto, provides immediate access to facts. It visualizes facts as well as relationships between facts. Furthermore, eyePlorer.com allows you to collect, process and publish interesting bits of information. eyePlorer.com is a graphical knowledge engine.
也就是以視覺的方式顯示資訊, 然後由使用者自行組織這些內容而產生出事實的關聯, 將這些事實的關聯而變成知識

在經過Eyexplorer的搜尋後會以Science & Technology、Work、Time、Organization、Society...等等類別來顯示資訊, 當使用者把一些資訊加入成為一個Concept後, 就又會產生另外的資訊...最後就會步步逼進你要的東西

例如先以「Twitter」來搜尋, 發現在Work區塊有「Flickr」, 但是Twitter與Flickr有何關係呢?

當我們把Flickr加入Twitter後...才知道原來Twitter的最早codename是twttr, 是受了Flickr的影響(如下圖)



當我們把Odeo加入Twitter後...原來Twitter是經由這家Odeo公司的一個腦力激盪過程中產生的(如下圖)



以下是更多的說明影片:



標籤: ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年12月1日星期二

MESH Project : 新聞多媒體語意資訊聚合服務


MESH(Multimedia semantic syndication for enhanced news services)是EC IST的一項計畫, 自2006年到2009年共三年時間花費約一千兩百零六十萬歐元(新台幣約六億), 目的是分析新聞多媒體的語意內容, 使得新聞內容可以快速的使用及取得 ...

MESH Project Overview (PDF)大致上說明了這個專案的內容, 更多詳細介紹可由MESH專案網站取得

以下是MESH的影片介紹



MESH到底在幹什麼? 他主要的對象是: Personal Users, Business Users, Media Professional Users

也就是讓新聞或媒體工作者可以快速使用各種經過語意分析後的新聞素材, 組織成新的新聞; 讓網路新聞提供者可以提供有智慧的新聞內容; 讓一般使用者可以隨時快速取得所需的新聞內容 ...








這些發展代表了什麼意義? Video/Audio/Text的語意分析技術已經可以讓電腦逐漸瞭解「內容」, 雖然不完全自動, 中間還有部分需要人類的介入, 但是如果持續發展下去, 可以預見未來電腦將自己處理所有龐大的內容 ... 也許十年, 也許二十年, 並且短期內這些技術將會協助人類能夠較有效率的整理一堆網路垃圾內容而找出知識

從MESH專案網站雖然有一大堆的說明文件, 也有許多技術上的成果發表, 但是還看不出這個MESH的最後樣貌, 後續再追蹤這個專案的發展 ...

標籤: ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年11月18日星期三

Google Wonder Wheel 搜尋羅盤



在之前文章"什麼是Google Wonder Wheel?"提過這個, 當時翻譯成「摩天輪」, 現在Google定名為「搜尋羅盤」, 他是Google Search Options(搜尋選項)中的一個功能 ...

在Google Search Options(搜尋選項)中的功能以前也提過, 當你點選顯示選項就會出現 (如下圖)



你可以有下列功能:

(1)選擇特定類型的搜尋結果(如影片/新聞/網誌/論壇)
(2)選擇特定時間的搜尋結果, 但是特定時間還是有限制(如無法搜最近5小時), 但你可以參考Google搜尋工具
(3)篩選已經瀏覽或未瀏覽的搜尋結果
(4)使用搜尋羅盤、圖文並茂、更多敘述來顯示搜尋結果

以下是圖文並茂的搜尋結果


以下是更多敘述的搜尋結果


其中比較值得提的是「搜尋羅盤」, 因為「搜尋羅盤」的相關詞的正確與否影響搜尋品質最大, 目前看起來Google「搜尋羅盤」的中文的相關性還是有些問題, 並不能真正解析出相關詞

如下圖以Kartoo來搜尋, 英文界面還可以正確顯示相關資料, 但中文界面就還不能



但是不管如何, 這總是Google邁向更語意化(semantic)的開始, 以Google的動作來看, 應該在明年內會更加完備...

標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年11月12日星期四

Bing 與 Wolfram Alpha 合作,提供精準搜尋


Bing與Wolfram Alpha在今年八月簽署合作協議後, Bing預計將推出更精準的搜尋, Bing強調的decision engine再加上Wolfram Alpha的answer engine, 會是什麼樣貌呢?

Wolfram Alpha的強項在於精準的回答問題, 雖然不能回答所有問題, 但是在某些領域上, 他的表現已經讓人很滿意了

Bing是Wolfram Alpha的第一位API的客人, 將透過Wolfram Alpha的資料來強化Bing的決策能力, 根據資料顯示首波將會使用在健康與數學的查詢(如下圖)



當在Bing查詢「BMI calculate」, 將會顯示BMI(body mass index)的計算器; 並且也可以讓Bing幫你把數學方程式畫出圖形; 或者比較各種食物的卡洛里 ...

但是目前為止, 這些功能尚未公開, 因此你只能透過Wolfram Alpha來瞭解往後Bing會如何提供搜尋資料

例如你在Wolfram Alpha打入「plot x^3 - 6x^2」, 結果如下:


當你搜尋「who is the president of taiwan」, 結果如下:


當你搜尋「who is the president of japan」, 結果如下: 他還知道日本沒有總統 :)


根據ReadWriteWeb的Frederic Lardinois質疑, 認為如果Bing只是把Wolfram Alpha的資料抓過來在Bing上顯示, 這個根本不是Integration(整合) ...

Wolfram Alpha的技術使用Mathematica(webMathematicagridMathematica), 但是資料來源呢? 根據Wolfram Alpha的說法是:
Does Wolfram|Alpha get its data from the web?
No. It comes from Wolfram|Alpha's internal knowledge base. Some of the data in that knowledge base is derived from official public or private websites, but most of it is from more systematic primary sources.

Where does Wolfram|Alpha's data come from?
Many different sources, combined and curated by the Wolfram|Alpha team. At the bottom of each relevant results page there's a "Source information" button, which provides background sources and references.

如果想讓Bing+Wolfram Alpha能夠回答更多問題, Bing與Wolfram Alpha必須更深入的整合, 因此雖然目前已經有合作的開始, 要真正能夠讓大眾享受到, 可能不是短期能夠達成的任務...

相關參考資料
Bing Launches Wolfram|Alpha Integration, Enhanced Hover Preview, and Full Page Weather/Events Results
Bing Teams Up With Wolfram Alpha
The Arrival of Wolfram Alpha Knowledge Engine

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年9月7日星期一

搜尋引擎最佳化與隱性語意: SEO and Latent Semantic



上篇文章談到Latent Semantic Analysis, 指出目前Latent Semantic尚未有大規模的影響, 但是影響已經逐步會顯示出來, 我們利用實際例子來看看到底可能有什麼影響?

有老外的文章舉了例子, 然後最後的結論是Google也沒有Latent Semantic的應用, 他的說法是:

在Google Search上, Results about 825,000,000 for car, Results about 99,600,000 for automobile, 因為automobile查詢中沒有包括car的資料, 所以Google沒有使用Latent Semantic技術

這個分析可以說根本不科學, 使用者使用CAR去查詢, 未必想連AUTOMOBILE也一起查, 同樣的以AUTOMOBILE去查詢, 也未必想以CAR也一起查詢

比較能夠說服的說法是: 如果使用者想查與CAR的所有相關資料, 是否有界面可以讓使用者來利用呢?

很遺憾的是目前的搜尋引擎Google,Bing, Yahoo等, 對於中文的隱性語意是比較弱的, 因為還沒有完整的關聯字庫與演算法, 所得到的結果沒有英文來得好

但是我們來看以下的例子:

我們用Google Wonder Wheel來看, 以「搜尋引擎優化」與「搜尋引擎最佳化」來看, 如下:


以上的「搜尋引擎優化」與「搜尋引擎最佳化」已經可以透過「SEO」這個詞來串起來, 當時"SEO關鍵解碼"出版時, Google Wonder Wheel還沒有中文資料, 才幾個月的時間, Google中文語意資料庫已經逐步備齊了

所以類似的情況下, 未來的SERP未必會以keyword為主要依據, 很可能根本沒有出現keyword也可能因具備Latent Semantic(隱性語意)而出現在SERP中

我們再來看看英文Google的例子, 使用Tilde(流水符號)來查詢Google, 以「~mp3」來查詢, 發現「music」也被當成keyword(如下圖)



所以你認為Latent Semantic(隱性語意)是否已經在Google開始運作了呢? 答案當然是肯定的, 只是一般使用者還沒有察覺出來, 而Bing/Yahoo的英文也已經俱備相關詞的查詢(如下圖)

Yahoo的MP3查詢


Bing的MP3查詢


這些搜尋引擎對於Latent Semantic的準備工作已經逐步就位, 就等適當時機推出更符合人性的使用者界面

如果你認為那麼我在網頁利用關鍵字充塞(Keyword stuffing)來把所有相關的keyword都包含起來, 不就可以應付Latent Semantic的趨勢了嗎? 相關詞只是隱性語意的一部分, 後面再來談這個問題了 ...


標籤: , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年9月4日星期五

SEO 與 Latent Semantic Analysis (LSA)


(From Amazon)

什麼是Latent Semantic Analysis (LSA)? 什麼是Semantic? 經過LSA的Latent Semantic Indexing (LSI)與目前的Keyword Indexing有何不同? LSA與LSI的趨勢對於搜尋引擎優化有何影響?

首先來解釋一下Semantic(語意),Wikipedia說:
Semantics is the study of meaning. The word "semantics" itself denotes a range of ideas, from the popular to the highly technical. It is often used in ordinary language to denote a problem of understanding that comes down to word selection or connotation.

語意是研究文字的意義, 也就是文字本身之外所代表的內涵

例如有人問: 這次88水災, 你「捐」了沒?

當然不是問你「捐血」了沒, 更不是問你「捐軀」了沒 ... 而是問你「捐款」了沒, 也是問你「捐錢」了沒

這個語意的分析, 當然在目前的搜尋引擎是無法判斷的, 但是這個分析將會是未來搜尋引擎的目標

某個字詞有同義詞、類似詞...這個可以很簡單的透過類似WordNet的字典查詢, 去計算其間的semantic similarity, 但是某個字詞在一個文件中到底是跟哪個詞最接近, 就不是簡單的計算可以代表

Wikipedia解釋Latent Semantic Analysis (LSA):
Latent semantic analysis (LSA) is a technique in natural language processing, in particular in vectorial semantics, of analyzing relationships between a set of documents and the terms they contain by producing a set of concepts related to the documents and terms.

Latent Semantic Analysis (LSA, 隱含語意分析)就是以統計的方式去解析某個字詞在文件間的接近程度, 使用LSA來分析而成的索引就LSI(Latent Semantic Indexing)

LSA與LSI的趨勢對於搜尋引擎優化有何影響? 目前尚未有大規模的影響, 但是影響已經逐步會顯示出來, 我們後續再來持續分析LSA對於作弊的SEO會產生什麼影響, 以及關鍵字充塞(Keyword stuffing)如何在LSA下失效 ...


標籤: , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年3月27日星期五

什麼是 Google Wonder Wheel ?



Wonder wheel就是摩天輪, Google要蓋遊樂場啦?

這個摩天輪跟遊樂場摩天輪不太一樣, Google winder wheel是為了要讓搜尋結果能夠更貼近使用者的需要而產生的, 因為結果的展現很像摩天輪, 所以稱為Google Wonder Wheel

以下的展現是否很像摩天輪?


(Source: http://blog.searchenginewatch.com/090325-134557)

以下是Google Wonder Wheel的demo:



Google Wonder Wheel跟Quintura類似, 也跟我們前面說的語意搜尋很像, 你可以說他是Universal Search加上Semantic Search, 或是我們說的Search 3.0

這種轉變跟SEO/SEM有什麼意義?

就是傳統的作法會逐漸失去效用, 是否真的內容相關? 是否與權威網站建立關聯? 我們前文也都說明過, 後續持續觀察Google Wonder Wheel是重要的事情

標籤: , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年3月25日星期三

SEO趨勢 : Google SERP Updates - 相關關鍵字與問句式查詢



Google在昨天(2009/03/24)公佈了兩個重要的SERP(Search Engine Results Page)的演算法更新, 一個是Google更瞭解你的關鍵字, 一個是較長的關鍵字會顯示較長的description...

這兩個更新有何重要性呢?

(1)Google更瞭解你的關鍵字

當你輸入一個關鍵字, Google不再只是單就這個關鍵字來搜尋, 而是還會顯示在頁尾跟這個關鍵字相關的建議詞
當你輸入: principles of physics, 除了正常的SERP之外, 還會顯示跟physics相關的

principles of physics serway
quantum mechanics physics
physics special relativity
physics angular momentum
big bang physics
physics for scientists and engineers
physics classical mechanics
equations of physics

並且當你使用英文界面來搜尋"taiwan", 發現建議詞是

taiwan news
history of taiwan
taiwan economy
taiwan google
hong kong
thailand
japan
singapore

已經不只是字面跟Taiwan相關, 而是有點semantic的味道了

這個告訴你什麼? 應該很清楚了吧

(2)較長的關鍵字會顯示較長的description

在SERP(Search Engine Results Page)頁面中, 除了Title外還有描述文字(description或稱為snippet)

在較長的關鍵字時, 這個snippet長度會拉長, 並且符合的詞都會以粗體顯示(台灣界面以紅字顯示)...

這個不是本來就這樣嗎? 是本來就這樣, 只是拉多長大家比較沒注意到

這個對於SEO有何關係?

當然有關係, 目前SEO大多以關鍵字在操作, 但是較沒有注意到"問句式"查詢 (詢問式查詢, 詢問式關鍵字)

也就是如果著眼在"SEO"這個字, 可能就無法在"到底什麼是SEO", "SEO是啥東西", "SEO有何重要", "SEO的縮寫到底是什麼東西", "SEO跟SEM有什麼關係", "SEO是否就是SEM", "SEO與網站排名有何重要", "SEO與PPC的關係"....等問句式查詢出現優秀的SERP

這個問句式查詢的趨勢, 如何破解? 操作方式的改變已經開始發酵...你準備好了嗎?

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年10月14日星期二

看看人類智慧的脈動 : Who is editing Wikipedia?



昨天的文章"網路是一個大糞坑? Internet is a Cesspool?"寫完之後竟然產生跟Andrew一樣的無力, 搞了半天大家都在扒糞, 研究一堆網路技術來抓取網路上的資料, 卻是如同在糞坑中撈針, Google誇下豪語要組織世界的知識, 卻帶頭抱怨網路如同cesspool

今天來反轉一下情緒, 看看人類智慧正在一點一滴的建立中, 也許有生之年無法看到建置的成果, 但希望在這個過程中, 自己不是糞便的製造者 ...

在這個網站中, 他顯示了幾乎即時的Wikipedia的編輯動作 (如上圖), 您可以看到在地球的某個角落, 某個不知名的人士正在編輯跑車的資訊, 您也可以看到某個不知名的人士正在編輯紅十字會的資訊, 看著看著...似乎嗅到一股某個東西跳動的旋律...人類的智慧正在以一種接力的方式在進行著

這陣子需要經常出國開會, 每出一次國就覺得自己很無知, 因為看到太多以前自以為是的愚蠢, 而同樣的這樣的感覺在網路上也會發生, 看到國外人家對於某些冷僻領域的執著, 真的是令人佩服 ...

而在另一個網站TheyRule.net我們可以看到各大企業或組織的人脈網路圖(如下圖)



根據這個網站的說法:

They Rule aims to provide a glimpse of some of the relationships of the US ruling class. It takes as its focus the boards of some of the most powerful U.S. companies, which share many of the same directors. Some individuals sit on 5, 6 or 7 of the top 500 companies. It allows users to browse through these interlocking directories and run searches on the boards and companies. A user can save a map of connections complete with their annotations and email links to these maps to others. They Rule is a starting point for research about these powerful individuals and corporations.


他們將這些"powerful individuals and corporations"建立關聯, 從這些資料就可以清楚的展開誰跟誰的關係, 不過這個資料目前只公佈到2004年的資料

從幾個簡單的動作就可以看到麥當勞的"John W. Rogers, Jr."原來與"Richard A. Manoogian"是Bank One Corp的夥伴, 如此FOAF (Friend Of A Friend)就可以看出許多隱藏的訊息

由以上兩個例子, 可以看出資料視覺化的一些趨勢, 後續還有更多相關資料再整理提供, 相信會讓您覺得網路不再是一個大糞坑 ...

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月29日星期五

Semantic Ranking : Search Engine 的另一扇窗

由前文"Pagerank 演算法研究"與"SERP v.s. PageRank : PR值與搜尋排前的關係", 我們瞭解了影響網路搜尋結果的幾個因素

但是網頁的互相連結並無法表示支持的程度, 目前PageRank計算一概以均分的方式, 而網頁互相連結也無法表示網頁間的關聯, 如科技類的網頁A連接到科技類的網頁B, 對於網頁的重要度評比, 當然應該比生活類的網頁C連接到科技類的網頁B要來的重要

而使用網頁結構與keyword的關聯性來產生SERP的結果, 也有可能出現錯誤的狀況, 比如keyword為"SERP PageRank" 與 "PageRank SERP", 就可能產生不同的SERP結果, 同義與相近詞也無法透過搜尋有效率的尋找

這些都是由於PageRank與SERP目前都尚未真正融入Semantic語意技術, 沒有語意技術實在很難以分析這麼多看似不相關的資料 ...

"Context-Aware Semantic Association Ranking", "Ranking Complex Relationships on the Semantic Web", "Ontology-Driven Semantic Ranking for Natural Language Disambiguation in the OntoNL Framework" ... 等等文章就提出了Semantic Ranking的概念, 希望以語意的關聯來建立網頁間的關係, 如果您希望看更多訊息, 可以用"semantic ranking"去進行搜尋

什麼是Semantic Ranking? 就是用語意技術去評比網頁, 當您下一個關鍵字, 網頁就可以用semantic ranking的大小來依序顯示, 不像現在只是純粹比對字串

當網頁間存在Semantic Connectivity (語意連接性) 或Semantic Similarity (語意相似性), 就是存在Semantic Association (語意關聯性)

例如: 當網頁A的內容討論車子的性能, 網頁B的內容討論重型機車的性能, 網頁C的內容討論BMW汽車的性能, 網頁D的內容討論寶馬汽車的性能, 則網頁A-C,A-D互相具有Semantic Connectivity, 網頁C,D互相具有Semantic Similarity, 而網頁B則可透過另外網頁與網頁A產生另外一個Semantic Connectivity

不過可惜的是以舊有的網頁語法, 如果沒有使用RDF (Resource Description Framework), 比較困難建立這些關係, 如何在既有的HTML語法下, 或簡化使用RDF的方式來改善PageRank與SERP是Search engine的一個困難的難題

如果這個問題可以解決的話, Search engine的市場就可能重新洗牌, SEO的方式可能就全面改觀了, 拭目以待吧 ...

標籤: , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月20日星期三

網路行銷/網路營銷 : SEO 三大建議

在許多網站上可以看到諸如: "如何快速提升Pagerank", "Pagerank 7的快速捷徑" ...等等的文章或影片, 但是仔細去看這些網站的Pagerank竟然都是低於3或甚至降到0, 他們教您購買軟體, 他們教您快速增加backlink, 他們教您如何以短短幾分鐘的作業去提升PR值, 但是經事實證明, 不但無法達成目的, 還可能造成反效果, 在本篇文章中, 我們很誠實的告訴您真正被Google認可的方式 ...


在前幾篇文章已經提出許多觀念, 您可以去回顧一下:

Internet大破譯(五): 看不見的網路行銷戰場
善用PageRank指標提升企業競爭力
搜尋引擎的運作背後
網路行銷 : SEO 五大要素
網路行銷 : SEO 十大守則
網路行銷/網路營銷 -- 內容為王

除了以上一些觀點之外, 我們再提供三項實務的建議, 當然這些不管是五大要素, 十大守則, 或是三大建議, 最後回歸的都是 Content (內容), 沒有價值的內容創造不出有價值的網站

但是有價值的網站需要讓search engine瞭解, 並讓讀者可以搜尋到您的內容, 這也是所有搜尋引擎希望所有webmaster能夠協助的地方: 在search engine還不夠智慧的情況下, 讓search eninge能夠真正反應讀者想要尋找的內容

哪三項實務的建議呢?

(1)建立部落格

以目前的網頁結構來說, blog是最適合search engine抓資料的, 因為tag/category/publish date等等要素, 讓文章與文章之間會自然產生關聯, 這些關聯會讓片段的文章形成一串互相有關的內容, 這些關聯可以讓search engine知道如何index這些片段, 也可以讓讀者去一層層找到需要的資料, 因此如果您的網站沒有blog的結構, 應該盡快構思如果組織您的內容去建立有價值的blog

(2)善用網路社交工具

什麼是網路社交工具? network bookmark (網路書籤)就是一個例子, 建立部落格後僅是在您的內容上建立關聯, 而使用網路書籤可以讓blog間串聯起來, 並且讓更多人來看到您的內容, 並且網路書籤的tag可以將這些關係標準化, search engine可以很輕易的index相關內容

(3)使用Semantic HTML

什麼是Semantic HTML? 根據wikipedia的Semantic HTML解釋, Semantic HTML不是一般webmaster能夠瞭解的, 但是有另外一篇比較淺顯的說明您可以參考: Writing Semantic HTML

Semantic HTML的目的就是讓您的內容可以清楚呈現給search engine, 因為search engine並不瞭解您的內容, 但是透過HTML tag, 他可以知道這段文字是屬於哪個類別

總而言之, 其實以上三大建議, 是希望您的網站在結構關聯上, 能夠替search engine做更清楚的描述, 如此一來search engine瞭解您的網站, 也同時讓讀者知道搜尋到的是否是需要的內容

真正的Search Engine Optimization (SEO)是在協助search engine, 而不是在欺騙search engine


許多人都說做SEO要偷偷做, 不要讓search engine知道您的作法, 其實只要是正確的SEO作業, search engine反而是鼓勵的, 因為您可以改善他們的搜尋效能

在內容上提升, 在結構與關聯上修正, 才是真正在進行SEO, 請大家光明正大的進行, 如此一來才可以讓讀者找到需要的資料而不是一堆不相干的垃圾

標籤: , , , , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月28日星期三

近期語意技術探討(一)


(圖片來源:http://gridinoc.name)

2008年可以說是語意技術發燒的一年, 並且近年來不管是研究單位或是新創公司, 對於語意相關技術的重視與投資可謂不遺餘力, IEEE Intelligent Systems也在今年初刊登了不少關於語意技術的文章, 我們來看看到底語意已經發展到什麼程度 ...

語意技術對於一般使用者是感覺不到的, 您並不知道到底哪個東西應用了語意技術, 頂多您會覺得電腦好像變聰明了, 但是如果運用得不好, 您可能會覺得怎麼電腦這麼笨, 電腦的聰明與愚蠢就完全取決於到底是否正確的運用Semantic Technology(語意技術)、Artifical Intelligence(人工智慧)、Nature Language Processing(自然語言處理)、Ontology(本體論)...等等

在W3C的網站就舉了幾個語意技術的使用案例

例如其中BT(英國電訊)的案例, 根據Forrester研究顯示排名前3500的大公司, 花費在整合的費用是$6.3 million並且其中的31%花在整合外部公司, 而電信類的公司花在整合外部公司的比例高達70%

BT就將Semantic運用在SOA(Service-Oriented-Architecture)上, 讓他們的外部夥伴使用Internet與BT的B2B Gateway聯接, 輕易的自行處理作業支援相關運作, 如此一來減輕了支援成本, 也加速了作業效率

這個技術使用SOA來將整個系統分成Presentation Tier、Service Tier、Data Tier, 透過Service Tier的Semantic Broker去抓取異質系統的資料, 然後呈現在外部公司的系統上或是瀏覽軟體上, 如此一來BT本身的不同系統整合起來了, 外部公司使用各種不同系統也都可以順利的透過這個B2B Gateway來整合

在目前語意技術的運用上, 幾乎離不開Web2.0與SOA, 就其中Markup與Mashup的特性來發揮, Markup讓資料可以分析、交換(如XML、RDF、RuleML), 而Mashup可以讓服務混搭, 因此幾乎所有的技術都繞著Markup與Mashup走, Semantic/Web2.0/SOA幾乎就是Internet三位一體的趨勢

目前在歐洲的語意研究上, 以Neon-ProjectSEKTDIP為主, 各自都發展許多不同的語意技術與工具, 下次再仔細說明囉 ...



標籤: , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月22日星期四

搜尋引擎的運作背後



相信大部分人都不太清楚到底搜尋引擎如何運作, 就算是SEO專家或是技術高手, 對於Google的PageRank也都只能由觀察來推論實際運作的可能性, 現在我們就幾個關鍵人物的說法來探究 ...

近日Google的官方部落格刊登了Udi Manber(VP Engineering, Search Quality)的這篇文章: Introduction to Google Search Quality, 並且透露Google將定期公告關於搜尋引擎的訊息

Udi Manber在2006年前是負責Amazon的A9搜尋引擎, 因此雖然只加入Google兩年, 但是已經算是搜尋引擎的老鳥了

在談Udi Manber的文章前, 我們先來看Blekko的Rich Skrenta, 他敘述關於search engine:

Step 1 is to copy the internet onto your cluster. Step 2 is to analyze it..

Search is like 7 hard problems wrapped into a stack. Distributed systems, html analytics, text analytics/semantics, anti-spam, AI/ML, frontend/UI. And scale...

Plus there is always something fresh and new every day mining through the vast sordidness of the many billions of pages on the web. You expect to be amazed at the endless varieties of crazy porn domains and new approaches to webspam.

Rich Skrenta說到, 搜尋引擎就是把全球的頁面複製一份到你的叢集裡, 然後進行七項苦工(分散式系統,HTML分析,文字與語意分析,反垃圾,人工智慧與機器學習,使用界面,彈性的系統規模)...然後每天都會驚訝發現許多的色情與垃圾網站...(僅就意思翻譯,請多包涵)

他的最後一句透露了兩個重點...取巧的網頁會被抓出來,以及人類在整個過程中會介入資料的判斷

其實從上次Google的PR調整來處罰Paid link, 大概就清楚人為干擾search engine algorithm的例子 ,但由Rich Skrenta的說法就更明白, 非自然的網頁行為是被嚴密的監控的, 也許您會認為上億頁的資料中不會被發現, 那您就低估了人工智慧與機器學習的可能性 ...

SitePro列出的SEO十大守則

Commandment 1: There are No Rank Guarantees
Commandment 2: Ranking is Not the End, It's the Means
Commandment 3: Know Your Competition
Commandment 4: Use Search Engine Friendly Design
Commandment 5: Select Keywords that are Worthy
Commandment 6: Write Great Content
Commandment 7: Use Good Hyper Linking Strategy
Commandment 8: Write Relevant and Original Meta Content
Commandment 9: Acquire Relevant Links
Commandment 10: Consult Experts, If You Need To


也可以很清楚的知道: 好好耕耘內容, 不需要太在意評分, 自然可以呈現好結果

我們現在再回來看看Udi的文章 ...

PageRank is still in use today, but it is now a part of a much larger system. Other parts include language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on), query models (it's not just the language, it's how people use it today), time models (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time), and personalized models (not all people want the same thing).

顯示PageRank只是"Part-of", 由許多觀察也發現, PR與SERP不如以前關係緊密, 因此許多追求PageRank的作法應該有所調整, 並且以後可能搜尋結果可能會因人而異(您看到自己頁面的搜尋結果很好,不要太高興啦...)

In 2007, we launched more than 450 new improvements, about 9 per week on the average...we made significant changes to the PageRank algorithm in January.

去年Google就進行了450次以上的調整, 並於2008.01做了PageRank algorithm重大調整, 跟一些專家所說的數字差距真的太遠啦

There is a whole team that concentrates on fighting webspam and other types of abuse. That team works on variety of issues from hidden text to off-topic pages stuffed with gibberish keywords, plus many other schemes that people use in an attempt to rank higher in our search results. The team spots new spam trends and works to counter those trends in scalable ways; like all other teams, they do it internationally.

如Rich Skrenta所說的, Udi也提到非自然的取巧作法是被嚴格觀察的...尤其當您在網頁上看到某些取巧的作法時, 就趕緊停止吧, 因為Gooogle早晚也會知道的...

我們就密切注意Udi Manber後續的文章吧, 如果您懶得看英文, 隨時回來這裡交流吧 ...

標籤: , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月15日星期四

語意搜尋的前哨站 : 垂直搜尋


Google的一般搜尋後又推出各類搜尋之際(圖書搜尋, 地圖搜尋, 學術搜尋, 網誌搜尋, 產品搜尋, 新聞搜尋...等), 各家一堆特定目的垂直搜尋也紛紛想要搶下一片江山, 這些搜尋引擎到底存活的機率有多少? 功能如何?

目前廣泛性的搜尋除了Google外, 大抵普遍被使用的就是Yahoo/Microsoft/A9/AltaVista/AllTheWeb/Lycos/Ask.com/Baidu...等等, 在這些廣泛性搜尋引擎與語意搜尋引擎(如Kartoo/izito/ujiko/hakia...等)之間, 垂直搜尋引擎的出現也彌補了目前搜尋不精準的缺點。

以下就來介紹一些功能不差的垂直搜尋及特殊查詢網站...

(1)(垂直搜尋)Kooxoo酷訊網 : 提供中國大陸的工作、房屋、票務、酒店、旅遊、購物等生活內容的搜索服務。這個酷訊網由北京大學計算機工程背景的陳華所創辦, 可以搜尋到的訊息可以說幾乎涵蓋了中國大陸的食衣住行娛樂, 由於表現不凡, 也獲得了Qihoo不少資金的投資。

(2)(垂直搜尋)Jobui/Jobmet : 為求職者提供大量的工作訊息,及中高端人才獵頭服務。這類服務與台灣的104人力銀行不同, 他們沒有自己的資料, 只是提供界面去各人力資源網站抓取資料加以整合。

(3)(垂直搜尋)Krillion產品搜尋 : 這個查詢與Froogle類似, 但資料量不夠多, 面對Google大概存活率不高, 除非資料能夠往精緻化發展。

(4)(垂直搜尋)Spock找人服務 : 這個找人服務與USA People Search類似。

(5)(垂直搜尋)Yoinkd音樂搜尋 : 與百度的MP3搜尋類似, 精準度不錯, 而且資料量也不差。

(6)(特殊查詢)Openrice餐廳搜尋 : 可以搜尋香港各類餐廳, 但不算是垂直搜尋, 因為資料蠻齊全的, 因此也把他列進來。

(7)(整合界面搜尋)oskope視覺搜尋 : 提供搜尋eBay/Amazon/flickr/Fotolia/Yahoo/YouTube等內容的視覺化搜尋, 其功能與Spacetime類似, oskope需要安裝額外的plug-in, 而Spacetime需要安裝額外的軟體, 並且硬體需求也較高。

(8)(垂直搜尋)FindBook翻書客 : 提供各網路書店的書籍比價搜尋, 類似的服務有isoshu, 但是isoshu找的不是書籍的價格, 竟然找的是書的內文, 不知他是如何處理版權問題。

(9)(垂直搜尋)Yousee BBS搜尋 : 提供BBS站內的文章搜尋, 是政治大學資科系團隊製作出來的。

在網路上資料日增的情況下, 各種需求已經無法以單一普遍性搜尋引擎來滿足, 因此專門領域搜尋、垂直搜尋、語意搜尋等需求會越來越高, 並且更符合人性化的界面也是大家所期盼的, 以上這麼多的搜尋網站到底誰能勝出? 還是只是曇花一現? 就看使用者賞不賞臉了!

標籤: , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月14日星期三

搜尋引擎的下一步:語意搜尋

現在的搜尋引擎雖然精準度已經比以往提高不少, 但是還是常常搜非所尋, 想要找亞馬遜叢林的資料, 輸入Amazon卻都是亞馬遜書店相關訊息, 必須翻到好幾頁以後才陸續出現亞馬遜叢林的資料

因為亞馬遜書店的PageRank值高, 因為亞馬遜書店的流量大, 所以搜尋引擎就以最可能你需要的出現在最前面, 但是偶爾(或是常常?)你要的資料並非最熱門的, 你就得耐心的多翻幾頁, 或者多使用不同的搜尋引擎來找尋 ...

但是, 這種現象已經慢慢在改觀中, 因為許多語意相關的技術已經逐漸純熟 ...



如上面畫面的izito, 當你輸入關鍵字以後, 右邊會出現Topic與domain選項, 當你輸入amazon後, 就可以選擇river或books等選項來確認你所謂的amazon是啥意思, 但是不幸的是...雖然izito可以搜尋中文, 但是對於資料的分類(也就是ontology的建立), 尚無法精確的處理中文網頁, 你如果輸入"五佰", izito自做聰明的分類還是會讓你滿臉豆花 ...

而如下圖顯示的ujiko雖然不允許處理中文資料, 但是允許使用者對搜尋結果做客製化(如搜尋到的結果給他一顆心, 或丟到垃圾桶), 下次搜尋就會以你客製的結果出現, 並且ujiko也提供跟izito類似的topic分類, 並且可以往下再分子類別, 雖然介面稍微複雜些, 但搜尋結果還算不錯



而如下所顯示的kartoo就更厲害啦, 當滑鼠移動到某個link時, 便會顯示這個link在ontology中的關係, 同樣的他的左邊選單也提供topic的選項, 不過kartoo也不支援中文搜尋



當然Semantic Search Engine還不只這些, 下次再來談多些相關網站及這些語意搜尋的技術層面內容 ...

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院