本文目錄一覽:
CMT論文解讀:CMT是曠視團隊在國際計算機視覺會議2023上發布的新論文,是Transformer架構在多模態數據融合領域的一次重要突破。以下是CMT論文的核心要點解讀:背景與進化脈絡:CMT是PETR的后續發展,通過結合激光雷達數據,實現了對視覺和深度信息的高效整合。
研究動機 Momentor論文主要針對當前視頻大型語言模型(video-LLM)存在的兩大問題進行探討:缺乏有效的時間表示:現有的video-LLM大多在視頻級別的字幕和問答任務上進行訓練,雖然具備指令遵循能力,但在時間表示上較為粗粒度,缺乏精細的時間推理能力。
模態:圖像+文本+音頻 論文動機:將文本信息指導圖像與音頻模態,通過文本與圖像、音頻的注意力聚合,刪除冗余信息。已通過映射將模態信息整合到低維向量,減少與情感無關信息的影響,降低參數量。
它通過監督微調階段進一步增強,其中模型提高了其跟隨復雜的多模態指令的能力。實驗證明了mm - interleaved在多模態指令下識別視覺細節和在文本和視覺條件下生成一致圖像方面的通用性。