2009年9月17日星期四

Google 收購 reCAPTCHA



Google收購了reCAPTCHA, 一家由卡內基美隆大學延伸出來的公司, 專門研究文字與圖形轉換的技術並提供安全檢查碼免費服務, Google買下這家公司能夠拿來幹什麼事情?

許多人應該在網路上輸入資料時, 常會看到如下的圖案:



這個圖案式的文字主要是確定操作輸入的是「人」而不是「自動程式」

這個圖案就是所謂的CAPTCHA, 也可說是安全檢查碼, 英文是「Completely Automated Public Turing test to tell Computers and Humans Apart」, 直接翻譯的意思是「全自動區分電腦和人類的圖靈測試」

圖靈測試(Turing test)是一種測試電腦是否具備人類智能的方法, 其來源應該是Turing Machine, 就是在1936年由Alan Turing設計出來的概念, 可以摹擬任何的電腦演算法

所以Google買下這個技術做什麼呢? 根據"Teaching computers to read: Google acquires reCAPTCHA"的說法是: 可以自動的將掃瞄文字準確的還原為純文字, 應用在Google BooksGoogle News Archive Search

也就是紙類的印刷文字將可以更精準的變成Google的資料, 除了這個呢?

既然可以把紙類的印刷文字還原成純文字, 就有可能也將網路上的影像檔文字(image text)抽取出來, 以reCAPTCHA具備比Optical Character Recognition (OCR)更準確的情況來看, Google應該會開始處理影像檔文字, 也就是只要圖案內有可辨識的英文字, 都可能被抓取, 當然處理中文字的困難是更高的, 所以短期內影像檔中文字是無法處理(當然一般掃瞄書籍出來的中文字是可以處理的)

如此一來, 就英文來說, 影像檔就可以多出更多的meta data, Flash檔案中的圖檔物件的文字都可以順利處理了, 這個發展讓Google又多了一項有力的武器, 當然reCAPTCHA還可以把處理後的資料以聲音唸出來, 這個應用也許以後也會陸續出現 ...

參考網站: reCAPTCHA

標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年4月14日星期二

Vimeo : 一個不同的線上影音服務

Youtube已經是線上影音的霸主了, 但是你也許會發現Youtube充滿了太多無聊的影音內容了, 以下是Vimeo的影片, 看到底跟Youtube差在哪裡?





下面是另一個短片, 中間有幾個模糊的調焦畫面, 這個可不是攝影問題, 模糊的焦距下, 女孩與牆上的黑色流體一起失焦, 是在告訴你.....這個很難做的, 雖然是剪接處理, 但是卻讓人看起來好像真的女孩與牆上的黑色流體是同時存在的




看出差別在哪裡了吧! 每個Vimeo精選的短片似乎都在告訴你一個故事...每個Vimeo精選的短片都是上乘之作!

我們在"你在看誰的部落格? 一個目前沒有答案的問題", "你在看誰的部落格? 是誤解還是事實?", "他們不會知道你是一條狗"等文章都提過, Web 2.0如果沒有一個機制讓劣質的內容被自然淘汰, 使用者進如後必須在垃圾堆找出所要的話, 好的內容是難以被發現的

因為Youtube越來越多使用者, 內容越來越多, 假的評等越來越多, 已經很難快速找到你要的影片, 就算下精準的關鍵字, 都還是會出現一堆亂七八遭的內容, 你必須經過幾次驚嚇之後才可能找到想要的內容

有空看看Vimeo吧 !

標籤: , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月19日星期二

SEO : 搜尋引擎無法索引Flash檔案?


以往大家都認為盡量不要使用Flash, 因為Flash檔案文字內容無法被搜尋引擎抓取, 但是這種情況已經會逐漸改善, 根據Adobe的SWF說明資料, Adobe已經陸續提供技術給搜尋業者, 以防止Flash會被網站開發者排除使用...

雖然如此, 但是目前使用的搜尋引擎只有Google, 並且目前讀取SWF資料的技術尚未純熟, 因此還是盡量不要整頁使用Flash, 並且需依照Google對於Flash/Image的Guideline:

(1)Googlebot does not execute some types of JavaScript. If your webpage uses JavaScript to load a Flash file, we may not be able to discover and index the contents of that file.

不要使用Javascript去載入Flash
如果使用Javascript載入Flash, 這個Flash就無法順利被index

(2)We currently do not attach content from external resources that are loaded by your Flash files. If your Flash file loads another file - such as an HTML file, an XML file, or another SWF file - we may index the contents of those files, but we won't consider that content to be part of the content in your Flash files.

不要使用Flash去載入另外檔案
如果使用Flash載入其他檔案, 這個被載入的檔案就無法順利被index

(3)We're currently unable to index the bidirectional language content (for example, Hebrew or Arabic) in Flash files.

第三點跟我們比較無關

除此之外, Yahoo只是承諾使用Adobe提供的技術, 並未正式使用, 而Microsft Live Search等也尚未有任何相關訊息

雖然Flash檔案會逐步被搜尋引擎接受, 但在使用上還是要注意許多細節, 提供Flash與Non-Flash版本, 才能夠讓您的網站美觀之外, 還能夠俱備搜尋引擎的可讀性

後續可能發展, 將密切觀察後再跟各位報導啦 ...

標籤: , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月28日星期三

Microsoft的搜尋與多媒體技術


微軟亞洲研究院成立十週年,院長洪小文(上圖)透露了部份研究成果:搜尋與多媒體技術。目前進行的研究成果包含自動化圖片編輯、與行動定位系統搭配的圖片搜尋、以搜尋為基礎的翻譯技術、哼唱搜尋,以及自動語音合成技術等,全都與多媒體或搜尋技術相關,顯示微軟打算與Google正面交峰的企圖。

與Google Earth與街景服務競爭的圖片搜尋技術稱為Photo2Search,使用者可用手機將街道上的建築物拍攝並上傳至系統,系統便會先取得基地台的位址資料,再將附近街道圖片與使用者上傳之圖片進行比對,比對完成後,再將使用者所需的資訊,如附近地圖、觀光點、建物資訊等訊息回傳給使用者。

傳統的圖片搜尋多半是透過metadata才能進行搜尋,但Photo2Search是透過基地台的位置比對,將搜尋目標範圍縮小後,再針對圖片內容進行畫素分析。

Photo2Search顧名思義就是利用圖片來搜尋,想要知道最近出來的DVD的反應如何?是值得一看還是浪費時間?只要照個像丟上系統查詢...想要知道最近開的餐廳評語如何?也只要照個像丟上系統查詢...

Photo2Search就是要讓: a picture is worth a thousand words , 一張圖片勝過千言萬語, 讓圖片自己與系統對話!

這個技術就是要解決實際世界與數位世界的差異問題, 這項技術的前身是Content Based Image Retrieval (CBIR) - 圖片內容頡取, 但是運算時間長且不易取得同類查詢的結果, Photo2Search使用另外的方式來比對事先取得的圖片資料庫, 這個技術可以運作在圖片、聲音、影片上。

其他關於搜尋的技術研發,還有翻譯搜尋Lingo。透過比對網路上現成的多語言資料,可以更精確找出特定語詞的譯法。至於已被商品化的搜尋技術,則是哼唱搜尋(Query by Humming),藉由哼唱一段歌曲,再透過語音辨識技術來找出資料庫中吻合的曲目,該技術目前已輸出給部分手機鈴聲(ringtone)業者,並已有商業化服務。



該語音合成的發聲特徵來自建模(modeling)技術,任何人只要先花二十分鐘讓系統學習,然後就能用他的聲音唱任何歌曲、說任何話。

這樣一個系統在任何多媒體資料庫上是非常有用的,其中載有音樂的資料庫提供一個替代性和自然的方式查詢。可以廣泛使用這種系統在商業音樂產業、音樂電視台及電台、音樂商店,甚至於個人的使用上。

標籤: , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院