almost 5 years ago

Efficient visual search of videos cast as text retrieval這篇paper的中心思想很簡單,就是希望能將傳統text mining的技術也應用到visual search上,把這些技巧套到object recognition上,看看是否能利用這些現有的技術快速獲得一個還不錯的結果。

本篇paper希望做到的是能即時的對使用者給出的query image(通常為一個object的截圖),就能快速找到這query image相對應的場景。

而要做到這個目標,當然首先需要考慮的自然就是「如何找出物品所相對應的frame?」和「如何做到即時(real time)呢?」

找出物品相對應的frame這部分,主要可以分成以下幾個步驟:

  1. 找出frame中的viewpoint invariant description
  2. 找出Shape Adapted(SA)與Maximally Stable(MS)這兩種區塊,並用SIFT去描述那些區塊
  3. 運用K-means做clustering來找出visual vocabuary
  4. 運用text retrieval的方法們來檢索

其中我覺得比較有趣的部份是透過1~3,想辦法把frame轉變成一個個的visual word,就可以在4的部分用一般text retrieval上傳統的方法來做,像是tf-idf weighting(visual word在frame中出現的次數和在所有frame中出現的次數做weighting),stop word removal(移除掉幾乎在每個frame都會出現的,較沒資訊含量的visual word),spatial consistency(從原本的word和word中間隔幾個字變成在frame的二維座標上離多遠)等。直覺上來想,其實許多的對映還滿直覺的,所以這樣直接把方法照搬過來,即使可能不到最好,但有一定的成效是可以預期到的。

而如何做到即時的部分,這篇paper的作者運用了一些方法,像是vector quantization,根據作者所做的比較,不僅複雜度比傳統的nearest neighbor matching還低許多,而且其實依然能保有不錯的準確度。

此篇paper提出了用text retrieval的方法來做visual search,但有些地方還是會覺得有些怪異,像是paper中的keyframe並不是用shot detection等方法做出來的,而是一秒取一張,所以讓他取出來的top rank的幾張圖都很接近,造成precision很高,但recall很低的現象。如果能用shot detection去取keyframe的話,感覺也更具有semantic的meaning。而只用同部電影內的object去query也會覺得有點偷吃步,因為這樣可能無法反映出一些跨影片的問題(例如不同色調造成的影響...等),但總結來說這篇paper提出的這套系統化的方式還是很值得學習的。

看完這篇paper後也有一些想法,如果能把visual word跟text再combine在一起的話,或許就能讓user使用text去描述一個場景,進而去搜尋。畢竟,人們對一些想找的場景,可能只有依稀的記得一些片段,或是已經轉化成文字的描述,如果能將visual word都再賦予一個text的semantic meaning的話,或許又能激盪出許多不同的火花。

← [C++] split string into vector [Paper critique] Product quantization for nearest neighbor search →