讓大模型看圖比打字管用！ NeurIPS 2023新研究提出多模態查詢方法，準確率提升7.8%

巴比特_

2023-10-22 07:08:10

原文來源：量子位

圖片來源：由無界AI生成

大模型「識圖」能力都這麼強了，為啥還老找錯東西？

例如，把長得不太像的蝙蝠和拍子搞混，又或是認不出一些數據集中的稀有魚類......

這是因為，我們讓大模型“找東西”時，往往輸入的是文本。

如果描述有歧義或太偏門，像是“bat”（蝙蝠還是拍子？）或“魔鰍”（Cyprinodon diabolis），AI就會大為困惑。

這就導致用大模型做目標檢測、尤其是開放世界（未知場景）目標檢測任務時，效果往往沒有想像中那麼好。

現在，一篇被NeurIPS 2023收錄的論文，終於解決了這個問題。

論文提出了一種基於多模態查詢的目標檢測方法MQ-Det，只需要給輸入加上一個圖片示例，就能讓大模型找東西的準確率大幅提升。

在基準檢測數據集LVIS上，無需下游任務模型微調，MQ-Det平均提升主流檢測大模型GLIP精度約7.8%，在13個基準小樣本下游任務上，平均提高了**6.3%**精度。

這究竟是怎麼做到的？一起來看看。

以下內容轉載自論文作者、知乎博主@沁園夏：

MQ-Det：多模態查詢的開放世界目標檢測大模型

**論文名稱：**Multi-modal Queried Object Detection in the Wild

論文連結：

代碼位址：

### 1.1 從文本查詢到多模態查詢

一圖勝千言：隨著圖文預訓練的興起，藉助文本的開放語義，目標檢測逐漸步入了開放世界感知的階段。為此，許多檢測大模型都遵循了文本查詢的模式，即利用類別文本描述在目標圖像中查詢潛在目標。然而，這種方式往往會面臨「廣而不精」的問題。

例如，（1）圖1中的細粒度物體（魚種）檢測，往往很難用有限的文本來描述各種細粒度的魚種，（2）類別歧義（“bat”既可指蝙蝠又可指拍子）。

然而，以上的問題均可通過圖像示例來解決，相比文本，圖像能夠提供目標物體更豐富的特徵線索，但同時文本又具備強大的泛化性。

由此，如何能夠有機地結合兩種查詢方式，成為了一個很自然的想法。

獲取多模態查詢能力的難點：如何得到這樣一個具備多模態查詢的模型，存在三個挑戰：（1）直接用有限的圖像示例進行微調很容易造成災難性遺忘; （2）從頭訓練一個檢測大模型會具備較好的泛化性但是消耗巨大，例如，單卡訓練GLIP 需要利用3000萬數據量訓練480 天。

**多模態查詢目標檢測：**基於以上考慮，作者提出了一種簡單有效的模型設計和訓練策略——MQ-Det。

MQ-Det在已有凍結的文本查詢檢測大模型基礎上插入少量門控感知模組（GCP）來接收視覺示例的輸入，同時設計了視覺條件掩碼語言預測訓練策略高效地得到高性能多模態查詢的檢測器。

1.2 MQ-Det即插即用的多模態查詢模型架構

** **###### △圖1 MQ-Det方法架構圖

門控感知模組

如圖1所示，作者在已有凍結的文本查詢檢測大模型的文本編碼器端逐層插入了門控感知模組（GCP），GCP的工作模式可以用下面公式簡潔地表示：

對於第i個類別，輸入視覺示例Vi，其首先和目標圖像I進行交叉注意力（X-MHA）得到

以增廣其表示能力，而後每個類別文本ti會和對應類別的視覺示例

進行交叉注意力得到

，之後通過一個門控模組gate將原始文本ti和視覺增廣後文本

融合，得到當前層的輸出

。這樣的簡單設計遵循了三點原則：（1）類別可擴充性; （2）語義補全性; （3）抗遺忘性，具體討論可見原文。

1.3 MQ-Det高效訓練策略

基於凍結語言查詢檢測器的調製訓練

由於目前文本查詢的預訓練檢測大模型本身就具備較好的泛化性，論文作者認為，只需要在原先文本特徵基礎上用視覺細節進行輕微地調整即可。

在文章中也有具體的實驗論證發現，打開原始預訓練模型參數后進行微調很容易帶來災難性遺忘的問題，反而失去了開放世界檢測的能力。

由此，MQ-Det在凍結文本查詢的預訓練檢測器基礎上，僅調製訓練插入的GCP模組，就可以高效地將視覺資訊插入到現有文本查詢的檢測器中。

在論文中，作者分別將MQ-Det的結構設計和訓練技術應用於目前的SOTA模型GLIP和GroundingDINO ，來驗證方法的通用性。

以視覺為條件的掩碼語言預測訓練策略

作者還提出了一種視覺為條件的掩碼語言預測訓練策略，來解決凍結預訓練模型帶來的學習惰性的問題。

所謂學習惰性，即指檢測器在訓練過程中傾向於保持原始文本查詢的特徵，從而忽視新加入的視覺查詢特徵。

為此，MQ-Det在訓練時隨機地用[MASK] token來替代文本token，迫使模型向視覺查詢特徵側學習，即：

這個策略雖然簡單，但是卻十分有效，從實驗結果來看這個策略帶來了顯著的性能提升。

1.4 實驗結果：Finetuning-free評估

Finetuning-free：相比傳統零樣本（zero-shot）評估僅利用類別文本進行測試，MQ-Det提出了一種更貼近實際的評估策略：finetuning-free。其定義為：在不進行任何下游微調的條件下，使用者可以利用類別文本、圖像示例、或者兩者結合來進行目標檢測。

在finetuning-free的設定下，MQ-Det對每個類別選用了5個視覺示例，同時結合類別文本進行目標檢測，而現有的其他模型不支援視覺查詢，只能用純文本描述進行目標檢測。下表展示了在LVIS MiniVal和LVIS v1.0上的檢測結果。可以發現，多模態查詢的引入大幅度提升了開放世界目標檢測能力。

** **###### △表1 各個檢測模型在LVIS基準數據集下的finetuning-free表現

從表1可以看到，MQ-GLIP-L在GLIP-L基礎上提升了超過7%AP，效果十分顯著！

1.5 實驗結果：Few-shot評估

** **###### △表2 各個模型在35個檢測任務ODinW-35以及其13個子集ODinW-13中的表現

作者還進一步在下游35個檢測任務ODinW-35中進行了全面的實驗。由表2可以看到，MQ-Det除了強大的finetuning-free表現，還具備良好的小樣本檢測能力，進一步印證了多模態查詢的潛力。圖2也展示了MQ-Det對於GLIP的顯著提升。

** **###### △圖2 數據利用效率對比; 橫軸：訓練樣本數量，縱軸：OdinW-13上的平均AP

1.6 多模態查詢目標檢測的前景

目標檢測作為一個以實際應用為基礎的研究領域，非常注重演算法的落地。

儘管以往的純文本查詢目標檢測模型展現出了良好的泛化性，但是在實際的開放世界檢測中文本很難涵蓋細粒度的資訊，而圖像中豐富的資訊粒度完美地補全了這一環。

至此我們能夠發現，文本泛而不精，圖像精而不泛，如果能夠有效地結合兩者，即多模態查詢，將會推動開放世界目標檢測進一步向前邁進。

MQ-Det在多模態查詢上邁出了第一步嘗試，其顯著的性能提升也昭示著多模態查詢目標檢測的巨大潛力。

同時，文本描述和視覺示例的引入為使用者提供了更多的選擇，使得目標檢測更加靈活和使用者友好。

原文連結：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人點讚了這條動態

讚賞
1
留言
轉發
分享

留言

0/400

暫無留言