2009年11月12日星期四

Yebol 與 Wowd 兩個近日推出的搜尋引擎



這兩個在今年中被批露的搜尋引擎, 終於推出了Beta版, Yebol是由華裔前Yahoo工程師Hongfeng Yin(尹紅風)所創設, Wowd的CEO是Mark Drummond, 這兩個新網站有啥值得討論的呢?


(Yebol創辦人尹紅風)

關於尹紅風及Yebol, 這篇文章"Yebol搜索:一個知識型殺手的告白"有介紹, 就不再贅言 ...

以下是Yebol的畫面, 已經頗具搜尋引擎大將之風 ... 真是吹起一陣「紅風」乎?



Yebol已於2009/07正式上線, 運用語意搜尋技術(Semantic Search Technology), 提供超過1000萬個關鍵字搜尋資料, 目標是建立以人類思考模式為主的搜尋, 提供最全面的搜尋服務, 目的在將information轉為knowledge

Yebol搜尋不只出現單純結果, 其包括的範圍與Bing、Google比起來絲毫不遜色, Yebol使用的是Cloud Computing、MapReduce、Hadoop、Data Mining、Semantic...等技術

Yebol總部設在矽谷, 在北京中關村設有開發中心, 目前僅有英文版, 但可以搜尋中文資料, 未來下一步則考慮增加中文版, Yebol可以說是目前語意搜尋技術中比較貼近可廣泛使用的網站, 值得持續觀察

另外一個Wowd如何呢? 以下是Wowd的畫面, 速度雖快但是不能順利顯示中文!?



Wowd比較不像一般的搜尋引擎, 根據CNET的說法:
Wowd is a search engine without a data center. It puts the heavy lifting on the computers of the engine's users. With Wowd, you are the data center.
他是沒有資料中心的搜尋引擎(正確說法應該是沒有資料中心來負責crawling/indexing/ranking), 搜尋內容是由“Wowd Crowd”所產生, Ranking也是由“Wowd Crowd”來決定, Wowd Crowd就是指使用Wowd的使用者

這兩個搜尋引擎顯示了兩個趨勢:語意搜尋(Semantic Search)及使用者為中心(User-Centric), 其所使用的技術及索引評等的演算方式, 也應該持續觀察研究 ...

參考資料
Two cool search start-ups: Wowd and Yebol
Yebol in Wikipedia

標籤: , ,

加入書籤 :

其他書籤 :

3 個意見:

2009年11月12日下午5:17 , Anonymous 匿名 提到...

“搜索是一個‘九一’問題,今天,我們已經解決了90%的問題,但剩下的10%卻要花90%的努力。”在2008年9月Google成立10周年之際,Google副總裁梅耶爾在博客中寫道。當時,Google在全球搜索市場的佔有率已經超過80%。
然而,就在這個Google苦心經營10年且已構成事實壟斷的搜索市場,居然還會有人看中這個事倍功半的差事,接二連三地涌進來:2009年5月18日,WolframResearch公司正式發布Wolfram|Alpha;5月28日,微軟正式發布Bing;6月初,Yebol公司在硅谷發布Yebol。

盡管三家冠以的名稱不同——“可計算的知識引擎”、“決策引擎”、“基於知識的搜索”,但揪住現有搜索引擎的弱點是這三家公司的共同點,盡管他們各有各的招數。
8月6日,《中國計算機報》記者電話越洋採訪了Yebol公司創始人、CEO尹紅風博士。

心中總有搜索夢
1997年,從加拿大Concordia大學拿到計算機科學博士學位的尹紅風來到美國,在位於加州的硅谷一家半導體公司一直工作到2001年,期間,他作為高級工程師,主持缺陷自動分類係統的研發。在盛行“車庫創新文化”的硅谷,他利用業餘時間把萌芽於在國內讀研究生時的搜索想法,做成一個演示係統,向自己的朋友展示。

2002年,尹紅風創辦了BroadMining公司,意思是廣博挖掘。BroadMining通過數據挖掘、機器學習和人工智能等方法,自動從復雜、海量信息中發現和提取知識,建立知識庫,進而在線提供基於知識的搜索引擎服務。

過了一段時間,尹紅風發現一個奇怪的現象:那些頻頻登錄者的IP地址大都指向業內幾家知名的公司。由於尹紅風專注的是搜索,加之勢單力薄,無暇顧及網站其他方面的建設特別是安全方面的問題。為了保護自己的技術,他很快就關閉了BroadMining的搜索服務,接著,他為自己的搜索技術申請專利。2005年,美國專利和商標局批準了他的專利。

關閉了BroadMining,尹紅風加盟Yahoo,在數據挖掘與研究部任職高級研究人員。他主持研究開發的基於行為的精準廣告係統,在他離開的時候,為雅虎的年收入貢獻了數億美元,而他剛進雅虎時,雅虎原有的廣告係統年收入只有100多萬美元。

互聯網由於其超乎尋常的海量數據,開發人員要直面全新的挑戰,而且,在這種數據規模“從量變到質變”的過程中,以往不成問題的問題也變得很成問題了。因此,研發人員的經驗和見識就變得十分重要了。

雅虎當時有5億多注冊用戶,根據用戶以往瀏覽習慣等方式積累的信息量很多,雅虎僅是對這些信息進行的分類就有數千種。

尹紅風坦言,在雅虎學到了很多東西,其中最大的收獲是,從一開始就在雅虎最核心的部門工作,整日在全球最大的數據平臺上工作,經歷了從項目開發直到產生顯著經濟效益的完整過程,這種經歷和經驗是十分難得的。

到了2007年,他認為本應做得很好的雅虎在企業發展方向上出了問題,於是,他離開了雅虎。
2008年,尹紅風創辦了Yebol公司,去實現自己久久縈繞心中的夢想。

新搜索:勝算算法
“Google副總裁說的沒錯,現有搜索技術中90%的問題已經解決。但新一代搜索技術自身的問題,解決的還不到10%。”尹紅風在越洋電話中說。

“回顧搜索歷史,剛開始時,雅虎可以用人工對網站進行目錄分類,因為當時網站只有幾百個。當網站數量到了百萬規模時,人工方法就難以為繼了,於是搜索應運而生。但現有的搜索也有它自身的問題,在Google上搜索一下Google,搜索結果有20多億個,這種線性排列的方式有多大意義呢?”

Yebol的搜索技術源於尹紅風在中科院自動化所進行的用聯想記憶模式和人工神經元網絡來對人類的形象思維進行模擬。當這一研究成果用於搜索網站,使得智能知識庫建立成為可能。由機器生成的知識庫係統能處理上萬億條詞目,比維基百科等人工生成的有數百萬條詞目的知識庫規模高出幾個數量級,生成速度更是人工方式望塵莫及的。

但機器自動生成的知識庫不如人工生成的精確。於是,Yebol整合了機器算法和人的知識為每一次查詢建立一份網站目錄,運用關聯、聚類和分類的算法自動為查詢生成知識。

尹紅風表示,基於知識的搜索從根本上改變了搜尋結果的顯示方式,Yebol可以在傳統顯示10個鏈接的頁面上,顯示上百條經過分類的鏈接。這就大大減少了用戶查找目標信息的時間,同時也給用戶提供了豐富的瀏覽渠道。

記者認為,Yebol抓取了10億個網頁,建立了1000萬個詞目的知識庫,費用一定不菲,因為Google幾年前對外宣布的網頁數為80億個,而Google在服務器和存儲方面的投資非常大。
“我們的係統放在亞馬遜的雲計算平臺上,只需一個指令發過去,就可以擴展資源;而在雅虎,則要寫申請,然後層層上報,直到雅虎的兩名創始人之一大衛·費羅批準,這一過程可能要耗時數月。”尹紅風回應說。

雲計算的“硬件和平臺即服務”這樣的以租代購理念,使得像Yebol這樣的新興互聯網公司免除了資金和係統規模迅速擴張等後顧之憂。因此,尹紅風很有底氣地說:“我們計劃抓取100億的網頁,建立擁有1億個概念的知識庫。”

新一代搜索引擎會顛覆或者與現有搜索引擎共存嗎?尹紅風沒有直接回答這個問題,他說:“5年前,我在自動化所說過,10年後,現有的搜索將會被淘汰,因為信息太多,產生的速度太快,而現有搜索技術在相關性上提高的空間已經很小了,因而很難適應這種變化。這才過去5年,我們已經看到這種趨勢了。”

回國發展,但又……
Yebol正在北京組建研發團隊,招募軟件工程師。他們希望把這些人送到硅谷培訓數月,增長才幹,開拓眼界。

現如今,“投資少、見效快”的垂直搜索在國內炙手可熱,Yebol也嘗試著申請國家在搜索方面的項目或基金,但弄來弄去,就歸到了垂直搜索那一堆兒了。這讓廣義搜索的Yebol有點鬱悶。

強將手下無弱兵
——戴汝為院士談弟子尹紅風
“尹紅風碩士念的是信息工程,有一次他把一本認知科學方面的書帶到班上,結果,讓老師狠狠地說了一通,認為這和他的專業沒有關係。”中科院院士、中國自動化學會理事長戴汝為在《中國計算機報》記者面前對他的弟子昔日的趣事如數家珍。

戴先生的少年是在西南聯大附小附中度過的,後考入清華大學,1952年院係調整時,由於學的是理科,被調到了北大。戴先生畢業後來到中科院力學所,恰逢錢學森回國後在力學所講述工程控制論,之後,戴先生作為第一譯者把錢先生的學術名著《工程控制論》譯成中文。一路名校和名師的栽培,對戴先生嚴謹的學術研究風範的形成影響頗大,因此,戴先生十分看重弟子的科研作風。

上個世紀70年代,戴先生的研究重心從控制領域轉入人工智能領域。在模式識別、人工神經網絡、知識工程、復雜係統等方面做了大量開創性的工作,特別是在上個世紀80年代和錢先生有關思維科學的多次書信來往,開創並推動了這一新興學科的發展。

戴先生自己的研究經歷是很開放的,因此,當尹紅風跟戴先生談了自己的想法時,戴先生非但沒有生氣,反而鼓勵他去研究,並在思維和人工智能方面對他悉心指導。1989年5月,尹紅風將4萬多字的研究成果寄給了錢先生。很快,錢先生給戴先生和尹紅風回信,他在信中稱讚這項研究可以寫成劃時代的經典文章。國內歷史最悠久的《計算機研究與發展》在1990年第4期把《論思維與模擬智能》作為首篇文章予以刊登,尹紅風是該文的第一作者。

多年來,尹紅風一直把錢先生給他的有關思維的3封信的復印件放在公文包裏來激勵自己。而戴先生涉獵的領域與尹紅風研究的基於知識的搜索技術關係密切。 (本文來源:賽迪網-中國計算機報 作者:馬文方)

 
2009年11月17日下午4:40 , Anonymous bala 提到...

試用了一下Yebol
中文好像還是看關鍵字
希望中文可以進快發展起來
GOOGLE資料雖然很多
不過真的越來越感覺到
搜尋是在一堆垃圾中找有用的東西@@

 
2009年11月18日上午8:45 , Blogger admin 提到...

bala兄

之所以G的垃圾量越來越多
就是因為blackhat
這些作假的手法等有空再一一解析

非常感謝您的來訪喔!!

 

張貼意見

<< 首頁