2008年10月14日 星期二

看看人類智慧的脈動 : Who is editing Wikipedia?



昨天的文章"網路是一個大糞坑? Internet is a Cesspool?"寫完之後竟然產生跟Andrew一樣的無力, 搞了半天大家都在扒糞, 研究一堆網路技術來抓取網路上的資料, 卻是如同在糞坑中撈針, Google誇下豪語要組織世界的知識, 卻帶頭抱怨網路如同cesspool

今天來反轉一下情緒, 看看人類智慧正在一點一滴的建立中, 也許有生之年無法看到建置的成果, 但希望在這個過程中, 自己不是糞便的製造者 ...

在這個網站中, 他顯示了幾乎即時的Wikipedia的編輯動作 (如上圖), 您可以看到在地球的某個角落, 某個不知名的人士正在編輯跑車的資訊, 您也可以看到某個不知名的人士正在編輯紅十字會的資訊, 看著看著...似乎嗅到一股某個東西跳動的旋律...人類的智慧正在以一種接力的方式在進行著

這陣子需要經常出國開會, 每出一次國就覺得自己很無知, 因為看到太多以前自以為是的愚蠢, 而同樣的這樣的感覺在網路上也會發生, 看到國外人家對於某些冷僻領域的執著, 真的是令人佩服 ...

而在另一個網站TheyRule.net我們可以看到各大企業或組織的人脈網路圖(如下圖)



根據這個網站的說法:

They Rule aims to provide a glimpse of some of the relationships of the US ruling class. It takes as its focus the boards of some of the most powerful U.S. companies, which share many of the same directors. Some individuals sit on 5, 6 or 7 of the top 500 companies. It allows users to browse through these interlocking directories and run searches on the boards and companies. A user can save a map of connections complete with their annotations and email links to these maps to others. They Rule is a starting point for research about these powerful individuals and corporations.


他們將這些"powerful individuals and corporations"建立關聯, 從這些資料就可以清楚的展開誰跟誰的關係, 不過這個資料目前只公佈到2004年的資料

從幾個簡單的動作就可以看到麥當勞的"John W. Rogers, Jr."原來與"Richard A. Manoogian"是Bank One Corp的夥伴, 如此FOAF (Friend Of A Friend)就可以看出許多隱藏的訊息

由以上兩個例子, 可以看出資料視覺化的一些趨勢, 後續還有更多相關資料再整理提供, 相信會讓您覺得網路不再是一個大糞坑 ...

標籤: , , , ,

繼續閱讀

2008年8月29日 星期五

Semantic Ranking : Search Engine 的另一扇窗

由前文"Pagerank 演算法研究"與"SERP v.s. PageRank : PR值與搜尋排前的關係", 我們瞭解了影響網路搜尋結果的幾個因素

但是網頁的互相連結並無法表示支持的程度, 目前PageRank計算一概以均分的方式, 而網頁互相連結也無法表示網頁間的關聯, 如科技類的網頁A連接到科技類的網頁B, 對於網頁的重要度評比, 當然應該比生活類的網頁C連接到科技類的網頁B要來的重要

而使用網頁結構與keyword的關聯性來產生SERP的結果, 也有可能出現錯誤的狀況, 比如keyword為"SERP PageRank" 與 "PageRank SERP", 就可能產生不同的SERP結果, 同義與相近詞也無法透過搜尋有效率的尋找

這些都是由於PageRank與SERP目前都尚未真正融入Semantic語意技術, 沒有語意技術實在很難以分析這麼多看似不相關的資料 ...

"Context-Aware Semantic Association Ranking", "Ranking Complex Relationships on the Semantic Web", "Ontology-Driven Semantic Ranking for Natural Language Disambiguation in the OntoNL Framework" ... 等等文章就提出了Semantic Ranking的概念, 希望以語意的關聯來建立網頁間的關係, 如果您希望看更多訊息, 可以用"semantic ranking"去進行搜尋

什麼是Semantic Ranking? 就是用語意技術去評比網頁, 當您下一個關鍵字, 網頁就可以用semantic ranking的大小來依序顯示, 不像現在只是純粹比對字串

當網頁間存在Semantic Connectivity (語意連接性) 或Semantic Similarity (語意相似性), 就是存在Semantic Association (語意關聯性)

例如: 當網頁A的內容討論車子的性能, 網頁B的內容討論重型機車的性能, 網頁C的內容討論BMW汽車的性能, 網頁D的內容討論寶馬汽車的性能, 則網頁A-C,A-D互相具有Semantic Connectivity, 網頁C,D互相具有Semantic Similarity, 而網頁B則可透過另外網頁與網頁A產生另外一個Semantic Connectivity

不過可惜的是以舊有的網頁語法, 如果沒有使用RDF (Resource Description Framework), 比較困難建立這些關係, 如何在既有的HTML語法下, 或簡化使用RDF的方式來改善PageRank與SERP是Search engine的一個困難的難題

如果這個問題可以解決的話, Search engine的市場就可能重新洗牌, SEO的方式可能就全面改觀了, 拭目以待吧 ...

標籤: , , , , , , , , ,

繼續閱讀

2008年8月20日 星期三

網路行銷/網路營銷 : SEO 三大建議

在許多網站上可以看到諸如: "如何快速提升Pagerank", "Pagerank 7的快速捷徑" ...等等的文章或影片, 但是仔細去看這些網站的Pagerank竟然都是低於3或甚至降到0, 他們教您購買軟體, 他們教您快速增加backlink, 他們教您如何以短短幾分鐘的作業去提升PR值, 但是經事實證明, 不但無法達成目的, 還可能造成反效果, 在本篇文章中, 我們很誠實的告訴您真正被Google認可的方式 ...


在前幾篇文章已經提出許多觀念, 您可以去回顧一下:

Internet大破譯(五): 看不見的網路行銷戰場
善用PageRank指標提升企業競爭力
搜尋引擎的運作背後
網路行銷 : SEO 五大要素
網路行銷 : SEO 十大守則
網路行銷/網路營銷 -- 內容為王

除了以上一些觀點之外, 我們再提供三項實務的建議, 當然這些不管是五大要素, 十大守則, 或是三大建議, 最後回歸的都是 Content (內容), 沒有價值的內容創造不出有價值的網站

但是有價值的網站需要讓search engine瞭解, 並讓讀者可以搜尋到您的內容, 這也是所有搜尋引擎希望所有webmaster能夠協助的地方: 在search engine還不夠智慧的情況下, 讓search eninge能夠真正反應讀者想要尋找的內容

哪三項實務的建議呢?

(1)建立部落格

以目前的網頁結構來說, blog是最適合search engine抓資料的, 因為tag/category/publish date等等要素, 讓文章與文章之間會自然產生關聯, 這些關聯會讓片段的文章形成一串互相有關的內容, 這些關聯可以讓search engine知道如何index這些片段, 也可以讓讀者去一層層找到需要的資料, 因此如果您的網站沒有blog的結構, 應該盡快構思如果組織您的內容去建立有價值的blog

(2)善用網路社交工具

什麼是網路社交工具? network bookmark (網路書籤)就是一個例子, 建立部落格後僅是在您的內容上建立關聯, 而使用網路書籤可以讓blog間串聯起來, 並且讓更多人來看到您的內容, 並且網路書籤的tag可以將這些關係標準化, search engine可以很輕易的index相關內容

(3)使用Semantic HTML

什麼是Semantic HTML? 根據wikipedia的Semantic HTML解釋, Semantic HTML不是一般webmaster能夠瞭解的, 但是有另外一篇比較淺顯的說明您可以參考: Writing Semantic HTML

Semantic HTML的目的就是讓您的內容可以清楚呈現給search engine, 因為search engine並不瞭解您的內容, 但是透過HTML tag, 他可以知道這段文字是屬於哪個類別

總而言之, 其實以上三大建議, 是希望您的網站在結構關聯上, 能夠替search engine做更清楚的描述, 如此一來search engine瞭解您的網站, 也同時讓讀者知道搜尋到的是否是需要的內容

真正的Search Engine Optimization (SEO)是在協助search engine, 而不是在欺騙search engine


許多人都說做SEO要偷偷做, 不要讓search engine知道您的作法, 其實只要是正確的SEO作業, search engine反而是鼓勵的, 因為您可以改善他們的搜尋效能

在內容上提升, 在結構與關聯上修正, 才是真正在進行SEO, 請大家光明正大的進行, 如此一來才可以讓讀者找到需要的資料而不是一堆不相干的垃圾

標籤: , , , , , , , , , , , ,

繼續閱讀

2008年5月28日 星期三

近期語意技術探討(一)


(圖片來源:http://gridinoc.name)

2008年可以說是語意技術發燒的一年, 並且近年來不管是研究單位或是新創公司, 對於語意相關技術的重視與投資可謂不遺餘力, IEEE Intelligent Systems也在今年初刊登了不少關於語意技術的文章, 我們來看看到底語意已經發展到什麼程度 ...

語意技術對於一般使用者是感覺不到的, 您並不知道到底哪個東西應用了語意技術, 頂多您會覺得電腦好像變聰明了, 但是如果運用得不好, 您可能會覺得怎麼電腦這麼笨, 電腦的聰明與愚蠢就完全取決於到底是否正確的運用Semantic Technology(語意技術)、Artifical Intelligence(人工智慧)、Nature Language Processing(自然語言處理)、Ontology(本體論)...等等

在W3C的網站就舉了幾個語意技術的使用案例

例如其中BT(英國電訊)的案例, 根據Forrester研究顯示排名前3500的大公司, 花費在整合的費用是$6.3 million並且其中的31%花在整合外部公司, 而電信類的公司花在整合外部公司的比例高達70%

BT就將Semantic運用在SOA(Service-Oriented-Architecture)上, 讓他們的外部夥伴使用Internet與BT的B2B Gateway聯接, 輕易的自行處理作業支援相關運作, 如此一來減輕了支援成本, 也加速了作業效率

這個技術使用SOA來將整個系統分成Presentation Tier、Service Tier、Data Tier, 透過Service Tier的Semantic Broker去抓取異質系統的資料, 然後呈現在外部公司的系統上或是瀏覽軟體上, 如此一來BT本身的不同系統整合起來了, 外部公司使用各種不同系統也都可以順利的透過這個B2B Gateway來整合

在目前語意技術的運用上, 幾乎離不開Web2.0與SOA, 就其中Markup與Mashup的特性來發揮, Markup讓資料可以分析、交換(如XML、RDF、RuleML), 而Mashup可以讓服務混搭, 因此幾乎所有的技術都繞著Markup與Mashup走, Semantic/Web2.0/SOA幾乎就是Internet三位一體的趨勢

目前在歐洲的語意研究上, 以Neon-ProjectSEKTDIP為主, 各自都發展許多不同的語意技術與工具, 下次再仔細說明囉 ...



標籤: , , , , , , , ,

繼續閱讀

2008年5月22日 星期四

搜尋引擎的運作背後



相信大部分人都不太清楚到底搜尋引擎如何運作, 就算是SEO專家或是技術高手, 對於Google的PageRank也都只能由觀察來推論實際運作的可能性, 現在我們就幾個關鍵人物的說法來探究 ...

近日Google的官方部落格刊登了Udi Manber(VP Engineering, Search Quality)的這篇文章: Introduction to Google Search Quality, 並且透露Google將定期公告關於搜尋引擎的訊息

Udi Manber在2006年前是負責Amazon的A9搜尋引擎, 因此雖然只加入Google兩年, 但是已經算是搜尋引擎的老鳥了

在談Udi Manber的文章前, 我們先來看Blekko的Rich Skrenta, 他敘述關於search engine:

Step 1 is to copy the internet onto your cluster. Step 2 is to analyze it..

Search is like 7 hard problems wrapped into a stack. Distributed systems, html analytics, text analytics/semantics, anti-spam, AI/ML, frontend/UI. And scale...

Plus there is always something fresh and new every day mining through the vast sordidness of the many billions of pages on the web. You expect to be amazed at the endless varieties of crazy porn domains and new approaches to webspam.

Rich Skrenta說到, 搜尋引擎就是把全球的頁面複製一份到你的叢集裡, 然後進行七項苦工(分散式系統,HTML分析,文字與語意分析,反垃圾,人工智慧與機器學習,使用界面,彈性的系統規模)...然後每天都會驚訝發現許多的色情與垃圾網站...(僅就意思翻譯,請多包涵)

他的最後一句透露了兩個重點...取巧的網頁會被抓出來,以及人類在整個過程中會介入資料的判斷

其實從上次Google的PR調整來處罰Paid link, 大概就清楚人為干擾search engine algorithm的例子 ,但由Rich Skrenta的說法就更明白, 非自然的網頁行為是被嚴密的監控的, 也許您會認為上億頁的資料中不會被發現, 那您就低估了人工智慧與機器學習的可能性 ...

SitePro列出的SEO十大守則

Commandment 1: There are No Rank Guarantees
Commandment 2: Ranking is Not the End, It's the Means
Commandment 3: Know Your Competition
Commandment 4: Use Search Engine Friendly Design
Commandment 5: Select Keywords that are Worthy
Commandment 6: Write Great Content
Commandment 7: Use Good Hyper Linking Strategy
Commandment 8: Write Relevant and Original Meta Content
Commandment 9: Acquire Relevant Links
Commandment 10: Consult Experts, If You Need To


也可以很清楚的知道: 好好耕耘內容, 不需要太在意評分, 自然可以呈現好結果

我們現在再回來看看Udi的文章 ...

PageRank is still in use today, but it is now a part of a much larger system. Other parts include language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on), query models (it's not just the language, it's how people use it today), time models (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time), and personalized models (not all people want the same thing).

顯示PageRank只是"Part-of", 由許多觀察也發現, PR與SERP不如以前關係緊密, 因此許多追求PageRank的作法應該有所調整, 並且以後可能搜尋結果可能會因人而異(您看到自己頁面的搜尋結果很好,不要太高興啦...)

In 2007, we launched more than 450 new improvements, about 9 per week on the average...we made significant changes to the PageRank algorithm in January.

去年Google就進行了450次以上的調整, 並於2008.01做了PageRank algorithm重大調整, 跟一些專家所說的數字差距真的太遠啦

There is a whole team that concentrates on fighting webspam and other types of abuse. That team works on variety of issues from hidden text to off-topic pages stuffed with gibberish keywords, plus many other schemes that people use in an attempt to rank higher in our search results. The team spots new spam trends and works to counter those trends in scalable ways; like all other teams, they do it internationally.

如Rich Skrenta所說的, Udi也提到非自然的取巧作法是被嚴格觀察的...尤其當您在網頁上看到某些取巧的作法時, 就趕緊停止吧, 因為Gooogle早晚也會知道的...

我們就密切注意Udi Manber後續的文章吧, 如果您懶得看英文, 隨時回來這裡交流吧 ...

標籤: , , , , , ,

繼續閱讀

2008年5月15日 星期四

語意搜尋的前哨站 : 垂直搜尋


Google的一般搜尋後又推出各類搜尋之際(圖書搜尋, 地圖搜尋, 學術搜尋, 網誌搜尋, 產品搜尋, 新聞搜尋...等), 各家一堆特定目的垂直搜尋也紛紛想要搶下一片江山, 這些搜尋引擎到底存活的機率有多少? 功能如何?

目前廣泛性的搜尋除了Google外, 大抵普遍被使用的就是Yahoo/Microsoft/A9/AltaVista/AllTheWeb/Lycos/Ask.com/Baidu...等等, 在這些廣泛性搜尋引擎與語意搜尋引擎(如Kartoo/izito/ujiko/hakia...等)之間, 垂直搜尋引擎的出現也彌補了目前搜尋不精準的缺點。

以下就來介紹一些功能不差的垂直搜尋及特殊查詢網站...

(1)(垂直搜尋)Kooxoo酷訊網 : 提供中國大陸的工作、房屋、票務、酒店、旅遊、購物等生活內容的搜索服務。這個酷訊網由北京大學計算機工程背景的陳華所創辦, 可以搜尋到的訊息可以說幾乎涵蓋了中國大陸的食衣住行娛樂, 由於表現不凡, 也獲得了Qihoo不少資金的投資。

(2)(垂直搜尋)Jobui/Jobmet : 為求職者提供大量的工作訊息,及中高端人才獵頭服務。這類服務與台灣的104人力銀行不同, 他們沒有自己的資料, 只是提供界面去各人力資源網站抓取資料加以整合。

(3)(垂直搜尋)Krillion產品搜尋 : 這個查詢與Froogle類似, 但資料量不夠多, 面對Google大概存活率不高, 除非資料能夠往精緻化發展。

(4)(垂直搜尋)Spock找人服務 : 這個找人服務與USA People Search類似。

(5)(垂直搜尋)Yoinkd音樂搜尋 : 與百度的MP3搜尋類似, 精準度不錯, 而且資料量也不差。

(6)(特殊查詢)Openrice餐廳搜尋 : 可以搜尋香港各類餐廳, 但不算是垂直搜尋, 因為資料蠻齊全的, 因此也把他列進來。

(7)(整合界面搜尋)oskope視覺搜尋 : 提供搜尋eBay/Amazon/flickr/Fotolia/Yahoo/YouTube等內容的視覺化搜尋, 其功能與Spacetime類似, oskope需要安裝額外的plug-in, 而Spacetime需要安裝額外的軟體, 並且硬體需求也較高。

(8)(垂直搜尋)FindBook翻書客 : 提供各網路書店的書籍比價搜尋, 類似的服務有isoshu, 但是isoshu找的不是書籍的價格, 竟然找的是書的內文, 不知他是如何處理版權問題。

(9)(垂直搜尋)Yousee BBS搜尋 : 提供BBS站內的文章搜尋, 是政治大學資科系團隊製作出來的。

在網路上資料日增的情況下, 各種需求已經無法以單一普遍性搜尋引擎來滿足, 因此專門領域搜尋、垂直搜尋、語意搜尋等需求會越來越高, 並且更符合人性化的界面也是大家所期盼的, 以上這麼多的搜尋網站到底誰能勝出? 還是只是曇花一現? 就看使用者賞不賞臉了!

標籤: , , , , , ,

繼續閱讀

2008年5月14日 星期三

搜尋引擎的下一步:語意搜尋

現在的搜尋引擎雖然精準度已經比以往提高不少, 但是還是常常搜非所尋, 想要找亞馬遜叢林的資料, 輸入Amazon卻都是亞馬遜書店相關訊息, 必須翻到好幾頁以後才陸續出現亞馬遜叢林的資料

因為亞馬遜書店的PageRank值高, 因為亞馬遜書店的流量大, 所以搜尋引擎就以最可能你需要的出現在最前面, 但是偶爾(或是常常?)你要的資料並非最熱門的, 你就得耐心的多翻幾頁, 或者多使用不同的搜尋引擎來找尋 ...

但是, 這種現象已經慢慢在改觀中, 因為許多語意相關的技術已經逐漸純熟 ...



如上面畫面的izito, 當你輸入關鍵字以後, 右邊會出現Topic與domain選項, 當你輸入amazon後, 就可以選擇river或books等選項來確認你所謂的amazon是啥意思, 但是不幸的是...雖然izito可以搜尋中文, 但是對於資料的分類(也就是ontology的建立), 尚無法精確的處理中文網頁, 你如果輸入"五佰", izito自做聰明的分類還是會讓你滿臉豆花 ...

而如下圖顯示的ujiko雖然不允許處理中文資料, 但是允許使用者對搜尋結果做客製化(如搜尋到的結果給他一顆心, 或丟到垃圾桶), 下次搜尋就會以你客製的結果出現, 並且ujiko也提供跟izito類似的topic分類, 並且可以往下再分子類別, 雖然介面稍微複雜些, 但搜尋結果還算不錯



而如下所顯示的kartoo就更厲害啦, 當滑鼠移動到某個link時, 便會顯示這個link在ontology中的關係, 同樣的他的左邊選單也提供topic的選項, 不過kartoo也不支援中文搜尋



當然Semantic Search Engine還不只這些, 下次再來談多些相關網站及這些語意搜尋的技術層面內容 ...

標籤: , , , ,

繼續閱讀