1. <code id="djfyz"><output id="djfyz"></output></code>

      <meter id="djfyz"><menu id="djfyz"></menu></meter><var id="djfyz"><label id="djfyz"></label></var>

        <output id="djfyz"><strike id="djfyz"></strike></output>
            1. 首頁 > 新聞中心 > 研究動態
              IDPT技術前沿 |Transformer iN Transformer(TNT)
              2022-09-15 | admin

              簡介

              傳統的Vision Transformer(ViT)作為特征提取backbone時是將圖像劃分為若干個局部patches,然后利用multi-head自注意力機制計算它們各自的包含各個局部patches之間的關系的representation。但因為自然圖像的復雜度相較于自然文本更高,細節和顏色信息更豐富,以及ViT劃分的粒度不夠細,無法挖掘不同的尺度和位置的物體特征。因此,在本文中,作者指出了這些局部patches內部的自注意力也至關重要,并基于此提出了一種新的架構,即 Transformer iN Transformer(TNT)。具體來說,作者將局部patches(如:16×16)作為 visual sentence,并將其進一步劃分為更小的patch(如:4×4 )作為 visual word。每個單詞的attention會與給定的visual sentence中其他的word一起計算,計算成本可忽略不計。最后將單詞和句子的特征結合起來,提高表征能力。
              更具體地,不同visual words的feature以及attention的計算分別依賴于共享的network以減少參數量浮點數計算量。visual words的features將會聚合成相應的visual sentence。對于識別任務而言,作者依舊使用了MLP來做class token。
               

              老三樣

              1. Multi-head Self-Attention
              給定輸入 X∈Rn×d ,通過三個變換矩陣 WQ , WK , W得到  

               n為圖片特征序列的長度,d,dq,dk,d分別為輸入、query、key和value的維   度,那么自注意力機制可表示為:

              最后,一個linear層被用來產生輸出。多頭自注意力將query、key和value拆分為h個部分,并行執行attention功能,然后將每個頭的輸出值串聯并線性投影形成最終輸出。
               
              2. MLP
              MLP多層感知機用于在自注意力層之間進行特征轉換和非線性化處理:

              在這里 W 和 b 表示全連接層的權重和bias偏置, 表示GELU一類的激活函數。
               
               3. LNLayer normalization是transformer能夠stable training和更快收斂的關鍵部分,對于每個樣本 X∈Rd ,有

              在這里表示這一層每個單元的均值和方差,o 表示 element-wise dot 逐元素點積,至于 這兩個是可以學習的仿射變換參數。

               Transformer iN Transformer(TNT)




              新聞中心
              你所關心的是我們走過的每一步
              訂閱
              獲得最新的集萃感知信息
              集萃深度感知技術研究所(英文縮寫IDPT,簡稱“集萃感知”)隸屬江蘇省產業技術研究院,致力于用AI雷達點亮機器視界,主營產品為智能交通雷達、雷視一體機、NB-IoT單燈控制器、車路協同系統方案、智慧照明系統方案等,可應用于智能交通、車路協同、智慧照明、智慧城市等領域。
              bd@idpt.org
              0510-85388099
              13816071849(銷售)
              18896537391(市場)
              江蘇省產業技術研究院深度感知技術研究所 Institute of Deep Perception Technology, JITRI
              在線留言
              請填寫所在公司/機構
              請填寫感興趣的產品
              請填寫詢問信息
              請填寫姓名
              請填寫電子郵件地址
              請填寫電話號碼
                1. <code id="djfyz"><output id="djfyz"></output></code>

                  <meter id="djfyz"><menu id="djfyz"></menu></meter><var id="djfyz"><label id="djfyz"></label></var>

                    <output id="djfyz"><strike id="djfyz"></strike></output>
                        1. 中文字幕