R-CNN論文翻譯——用于精確物體定位和語義分割的豐富特征層次結構

我對深度學習應用于物體檢測的開山之作R-CNN的論文進行了主要部分的翻譯工作,R-CNN通過引入CNN讓物體檢測的性能水平上升了一個檔次,但該文的想法比較自然原始,估計作者在寫作的過程中已經意識到這個問題,所以文中也對未來的改進提出了些許的想法,未來我將繼續翻譯SPPNet、fast-RCNN、faster-RCNN、mask-RCNN等一系列物體定位和語義分割領域的重要論文,主要作者都是Ross Girshick和Kaiming He。

用于精確物體定位和語義分割的豐富特征層次結構

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick? ? ? Jeff Donahue? ? ? Trevor Darrell? ? ?Jitendra Malik
UC Berkeley

摘要

過去幾年,在權威的PASCAL VOC數據集上,物體定位的性能已經達到一個穩定水平。表現最好的方法都是融合了多個低層次圖像特征和高層次的上下文環境的復雜系統。本文提出一種簡單的可擴展的檢測算法,可以將VOC2012上期望平均精度的最好結果明顯提升30%以上——達到了53.3%。我們的方法結合了兩個關鍵因素:(1) 將大型卷積神經網絡(CNNs)應用于自底向上區域推薦以定位和分割物體;(2)當標簽訓練數據不足時,先針對輔助任務進行有監督預訓練,再進行特定任務的調優,就可以產生明顯的性能提升。由于我們結合了區域推薦和CNNs,該方法被稱為R-CNN:Regions with CNN features。我們對比了R-CNN和OverFeat,Overfeat是最近被提出的一個機遇類CNN架構的滑動窗口檢測器,發現R-CNN在ILSVRC2013檢測數據集上面的表現明顯優于OverFeat。整個系統的源碼在:https://people.eecs.berkeley.edu/~rbg/rcnn(譯者注:已失效,新地址:https://github.com/rbgirshick/rcnn)

Read more

[DeepMind論文部分翻譯]克服神經網絡中的災難性遺忘 Overcoming catastrophic forgetting in neural networks

本文翻譯了DeepMind的最新研究成果的第一部分,可以當做是introduction部分,借鑒神經科學成果,解決了一個通用人工智能領域持續學習所面臨的關鍵性難題。
實現通用智能需要智能代理能夠學習和記住許多不同的任務[1]。在現實世界中這很困難:任務的順序并不會顯式地標注出來,任務之間可能會不可預期地切換,單一任務可能在很長的一段時間內都不會復現。因而,智能代理必須具備持續學習的能力:也就是學習連貫的任務而不會忘記如何執行之前訓練過的任務的能力。
持續學習對人工神經網絡是一個特別大的挑戰,因為與當前任務(比如任務B)相關的知識被合并掉,關于先前任務(比如任務A)的知識會突然地丟失。這個現象術語叫災難性遺忘(catastrophic forgetting)[2-6],一般會發生在神經網絡在多個任務上進行按序訓練的時候,比如對任務A很重要的神經網絡的權重正好滿足任務B的目標時。然而近來機器學習的進步,尤其是深度神經網絡的進步對各個領域已經產生了廣泛的有利影響(如文獻7和8),但連續學習領域的研究卻停滯不前。當前的方法主要是通過確保來自各個任務的數據在訓練中都可以同時獲得。通過在學習過程中對來自多任務的數據進行交叉操作,其實遺忘并不會發生,因為神經網絡的權重能夠對所有任務上的表現進行聯合優化,但這個方法通常指的是多任務學習范式-深度學習技術,已經被成功地應用在訓練單一智能體玩多種Atari游戲[9,10]。如果任務按序呈現的話,只能在數據存儲在事件記憶系統并在訓練的過程中對網絡進行回放時,才能采用這種多任務學習技術。這種方法(通常也叫系統級鞏固[4, 5])面對學習大量任務時并不實用的,因為按照我們的設定,它應該需要與任務數量成比例的存儲數量。相關算法的確實成為通用智能開發的關鍵障礙。
與人工神經網絡形式鮮明對比的是人類和其他動物似乎能夠以連續的方式學習[11]。最近的證據提示哺乳動物的大腦可能會通過大腦皮層回路來保護先前獲得的知識,從而避免災難性遺忘[11-14]。當小鼠需要一個新技能的時候,一定比例的突觸就會增強,表現為單一神經元的樹突棘數量的增加[13]。至關重要的是,即使進行了后續的其他任務的學習,這些增加了的樹突棘能夠得到保持,以便幾個月后相關能力仍然得到保留。當這些樹突棘被選擇性“擦除”后,相關的技能就會被遺忘[11,12]。這表明對這些增強的突觸的保護對于任務能力的保留至關重要。這些實驗發現與諸如瀑布模型[15, 16]這樣的神經生物學模型提示我們大腦皮層中的持續學習依賴于任務相關突觸的鞏固,知識能夠長久地編碼得益于讓一部分突觸降低可塑性從而在相當長的時間范圍內變得穩定。
本次工作將展示任務相關突觸鞏固為人工智能的持續學習問題提供了獨特的解決方案。我們為人工智能神經網絡開發了一種類似于突觸鞏固的算法,稱之為可塑權重鞏固(elastic weight consolidation,EWC)。這個算法會針對那些對特定任務特別重要的特定權重降低學習率。也會展示EWC如何應用在監督學習和強化學習問題中,在不會遺忘舊任務的情況下,按次序地訓練多個任務,并與之前的深度學習技術進行對比。

Linsker網絡的模擬實驗

結合原論文[1]整理出Linsker網絡的定義并進行了實現。

【Linsker網絡定義】

突觸分布函數: \(e^{-a^Mr^2}\),其中,\(r_M\equiv(a^M)^{-\frac{1}{2}}\)
假設L層向M層輸入
a representation用\(\pi\)代表,則{\(F^{L\pi}_x\)}代表L層\(\pi\)表示的所有位置(x)的活動(activity)的集合。

第一層為A,定義同一box內的\(F^{A\pi}_x\)相同,跨box之間不相關。
第二層為B,對于A層的每一個box只接收其中的一個或幾個輸入。
\(N_B\)代表從A到一個B細胞的突觸數,這些突觸零星散步在\(\pi^2_B\)的范圍內,可以將該約束表示為:N_B\delta^2/\pi^2_B \lesssim 1

Read more

靈長類動物視覺皮層V2區的復雜形狀選擇性|Selectivity for Complex Shapes in Primate Visual Area V2

譯者注:本文翻譯了Jay Hegde和David C. Van Essen的論文《Selectivity for Complex Shapes in Primate Visual Area V2》,V1區的研究已經相當透徹,IT區的很多研究也表明了物體的選擇性,大家都很好奇從V1到IT區的整個object recognition過程中發生了什么,這些intermedia area中的神經元有哪些特性呢?本文是一個較好的嘗試。原文地址:http://www.jneurosci.org/content/20/5/RC61.full.pdf

靈長類動物視覺皮層V2區的復雜形狀選擇性

結果

復雜輪廓和光柵的V2區細胞選擇性

圖1

Read more

神經網絡圖靈機(Neural Turing Machines, NTM)

近期,Google Deep Mind團隊提出了一個機器學習模型,并起了一個特別高大上的名字:神經網絡圖靈機,我為大家翻譯了這篇文章,翻譯得不是特別好,有些語句沒讀明白,歡迎大家批評指正 ??

原論文出處:http://arxiv.org/pdf/1410.5401v1.pdf。

版權所有,禁止轉載。


 

神經網絡圖靈機

Alex Graves [email protected]
Greg Wayne [email protected]
Ivo Danihelka [email protected]

Google DeepMind, London, UK

摘要

本文通過引入一個使用注意力程序進行交互的外部存儲器(external memory)來增強神經網絡的能力。新系統可以與圖靈機或者馮·諾依曼體系相類比,但每個組成部分都是可微的,可以使用梯度下降進行高效訓練。初步的結果顯示神經網絡圖靈機能夠從輸入和輸出樣本中推理出(infer)簡單的算法,如復制、排序和回憶。

Read more

香港最快报码开奖结果