大語言模型之後，計算機視覺是不是下個風口？

Question

*文章來源：大模型之家**作者：趙小滿*![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2b333c2d0d-dd1a6f-69ad2a) *圖片來源：由無界AI生成*上月，Open AI發佈了最新版本的GPT-4V使用戶能夠指示GPT-4分析使用者提供的圖像輸入最新功能，而這一消息引發行業關注，將其他模式（如圖像輸入）納入大型語言模型（LLM）被視為人工智慧研究和開發的關鍵前沿，多模式LLM提供了擴大純語言系統影響的可能性。從去年年底發佈的人工智慧聊天機器人ChatGPT，到目前的GPT-4V，Open AI在大型多模態模型 （LMM） 擴展了具有多感官技能（如視覺理解）的大型語言模型 （LLM），實現了更強的通用智慧。在GPT-4V發佈不久后，微軟針對GPT-4V給出了166頁超詳細的使用指南，從簡單的輸入模式到視覺語言能力、與人類交互提示，再到時間視頻理解、抽象視覺推理和智商情商測試等，GPT-4V不僅能覆蓋日常生活中的交互體驗，甚至能夠實現在工業、醫療等領域的專業診斷評估等。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abca433d25-dd1a6f-69ad2a) **圖源：微軟（網路翻譯僅供參考）**目前，GPT-4V在處理任意交錯多模態輸入方面前所未有的能力及其功能的通用性共同使 GPT-4V成為一個強大的多模態通才系統。 此外，GPT-4V理解在輸入圖像上繪製的視覺標記的獨特能力可以產生新的人機交互方法，例如視覺參考提示。**值得肯定的是，GPT-4V的初步探索有可能激發未來對下一代多模態任務公式的研究**，利用和增強LMM解決現實問題的新方法，並更好地瞭解多模態基礎模型，也更成為計算機視覺發展方向的新探索。  ## **大模型賦能計算機視覺新發展**  或許談到多模態能力，很多人並不陌生，在國內有不少大模型在推出時就已經擁有多模態能力，能夠進行圖像識別與生成，**但不得不承認的是，相比於LLM（大型語言模型），LMM（大型多模態模型）的發展還有很多漏洞待解決。 **此前，大模型之家就體驗過多家擁有多模態能力的大模型，以基於AI框架昇思MindSpore“紫東太初”2.0版本大模型平臺、訊飛星火為例，在分析、推理及表達能力方面有待進步。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-158366da31-dd1a6f-69ad2a) **圖為：紫東太初**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cd3185c149-dd1a6f-69ad2a) **圖為：訊飛星火****值得注意的是，在今年4月，Meta提出分割一切的模型SAM（Segment Anything Model）**，SAM是一個提示型模型，其在1100萬張圖像上訓練了超過10億個掩碼，實現了強大的零樣本泛化，有業內人士表示，SAM突破了分割界限，極大地促進了計算機視覺基礎模型的發展。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3364ba847d-dd1a6f-69ad2a) **圖源：Meta**SAM本身是圖像的語義分割，該模型掌握了“物件”的概念，可以為任何圖像或視頻中的任何物件生成遮罩，即使是它在訓練中沒有見過的物件。**SAM模型和GPT-4V的出現，能夠將大語言模型安裝上“眼睛”，也正如Open AI在為GPT-4V生成前所做的部署準備**，其中包括Be My Eyes，這是一個為視障用戶構建工具的組織，在模型生成前夕，可以想像大模型是一個會說話的“盲人”，但在加入視覺之後，具備多模態能力的大模型能夠看得懂圖、視頻等， 這一功能的強大也將人工智慧發展推向新的方向。  ## **大模型浪潮下，國內計算機視覺之路**  在利用圖像輸入、識別及推理分析的功能，加入視覺功能後大模型能夠實現多領域開花，向“計算機視覺GPT”邁進。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-681f3dc975-dd1a6f-69ad2a) **圖源：華為**在工業方面，通過將視覺大模型應用到缺陷檢測等在製造過程中確保產品品質的重要步驟之中，能夠及時檢測故障或缺陷並採取適當的措施對於最大限度地降低運營和質量相關成本至關重要，**目前國內華為、百度、訊飛等大模型產品均在工業領域有相關成果落地。 **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d46ec6fa14-dd1a6f-69ad2a) **圖源：商湯科技**在醫療影像診斷方面，結合認知大模型的專業領域知識，加入視覺能力后，不僅能夠在各種醫學圖像中進行分析，還能夠快速生成完整的放射學報告，具有作為放射學報告生成的AI助手的潛力，目前商湯基於醫學知識和臨床數據開發了中文醫療語言大模型“大醫”，具有提供導診、問診、健康諮詢、輔助決策等多場景多輪會話能力。在自動駕駛方面，可以結合認知大模型在駕駛時的獲取的圖像資訊、動態行駛目標等，給出相應的駕駛決策和駕駛解釋，然後大模型將其轉化為自動駕駛的語言，通過Drive 和自動駕駛系統做交互，從而實現智能駕駛。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-df9ed5ee74-dd1a6f-69ad2a) **圖源：百度****以百度為例，在剛剛召開的2023百度世界大會中，在智駕方面，通過Transformer和BEV等新技術徹底重構自動駕駛技術棧，感知能力獲得代際感提升，加速純視覺方案的成熟和普及。 **目前，百度Apollo純視覺高階智駕方案可應用於高速、城市、泊車等全域場景，將在今年第四季度實現量產，這也是國內首個純視覺方案在城市場景落地。 值得一提的是，去掉鐳射雷達讓整車成本更低，提升了市場競爭力。**大模型之家認為，在大語言模型通用知識的加持下，計算機視覺迎來了更為明確的發展方向**，從早期計算機視覺依靠重複記憶進行的實踐應用（如人臉識別、物體識別），探索視覺和語言的融合成為大模型和計算機視覺的新方向，從獨立發展到相互融合，人工智慧也在不斷探索和人更為相近的感官能力，能更好地捕捉圖像中的細節和特徵，大模型的準確性得以提高， 可以適應更多的場景和數據分佈，依託大模型的能寫會道，融合視覺能力，成為更為智慧的化身。當然，科技的發展必定會受到多方面因素的限制。 大模型需要更多的計算資源和時間進行訓練，這可能限制了其可擴展性和即時性，龐大的訓練數據必定會受到算力的限制，特別是高性能的GPU、高速的記憶體和存儲，以及分散式訓練技術，**而當下全球高性能的GPU市場中英偉達佔據近90%份額，我國想要在這場AI競爭中佔得高地，推動中國人工智慧算力的高品質發展成為當務之急。 ****總的來說，大模型融合視覺能力后具有很多優勢，但現階段也存在一些發展限制。 **隨著深度學習和計算資源的不斷發展，我們可以期待更先進的大模型和相關技術的出現，進一步推動計算機視覺在高解析度圖像任務中的應用和突破。