<p id="n1j3z"><strong id="n1j3z"><xmp id="n1j3z"></xmp></strong></p>

    拋光打磨機器人模仿方式以及方法概覽

    2022-09-13 22:19:32 0
    1)運動模型:以DMP、GMM和GMR等傳統的示教學習方法為代表。解決的運動規劃問題,需要明確知道機器人和目標點的的位置姿態信息,同時也需要有結構化的環境信息(障礙等)。該類方法的基礎是概率模型,需要建立示教軌跡的參數依賴模型,然后針對新任務進行解碼。
     
    2)策略學習模型:以學徒學習、最大邊際規劃、逆強化學習和生成對抗模仿學習為代表。該類方法需要將單純的運動規劃問題、規劃+控制問題或感知+規劃+控制問題建模為多步決策問題,然后利用DNN來學習策略。理論基礎是強化學習那一套,但引入了專家示教等。
     
     
    3)語義推理模型:對于任務進行高語義層級的解析和歸納,然后基于語義進行推理。如果是做研究,第一類方法沒有太多可以探索的點。遷移學習的難點還是在于對任務configuration理解與對環境的感知。第二類方法需要大量數據,示教數據中需要遷移的信息密度很低。第三類方法信息密度高,但在符號主義方法產生重大突破之前,這類方法其實也沒有太多可以做的。
     
     
    模仿學習面臨的一個挑戰是:平衡模仿演示行為的能力,以及演示狀態分布之外的狀態恢復能力。BC 通過監督學習來模仿演示的動作,而 IRL 專門研究如何從任意狀態中恢復策略。ROT 可以將兩者優勢結合起來。
     
    完成上述過程分為以下兩個階段:
     
    第一階段,在專家演示數據上使用 BC 目標訓練隨機初始化策略,然后 BC 預訓練策略用作第二階段的初始化;
    第二階段,BC 預訓練策略可以訪問使用 IRL 目標進行訓練的環境。為了加速 IRL 訓練,BC 損失被添加到具有自適應權重目標中。
    階段 1:BC 預訓練
     
    BC 對應于求解方程 2 中的最大似然問題,其中 T^e 指的是專家演示。當由具有固定方差的正態分布參數化方程時,我們可以將目標定義為回歸問題,其中給定輸入 s^e,π^BC 需要輸出 a^e。
     
     
    經過訓練,π^BC 能夠模擬與演示中看到的對應動作。
     
    階段 2:使用 IRL 進行在線微調
     
    給定一個預訓練 π^BC 模型,在環境中對策略 π^b ≡ π^ROT 進行在線微調。研究者使用 n-step DDPG 方法,這是一種基于確定性 actor-critic 的方法,可在連續控制中提供高模型性能。
     
    用正則化 π^BC 進行微調很容易受到分布偏移的影響,并且直接微調 π^BC 也會導致模型性能不佳(參見第 3 節中的圖 2)。為了解決這個問題,研究者基于引導 RL(guided RL) 和離線 RL 方法,通過將π^ROT 與 BC 損失相結合,將π^ROT 的訓練規范化,如下方程 3 所示。
     
     
    具有 Soft Q-filtering 的自適應正則化。雖然之前的工作使用經過手動調優的 λ(π) 時間表,但研究者提出了一種新的、無需調優的自適應方案。他們通過在從專家 replay 緩沖區 D_e 采樣的一批數據中比較當前策略 π^ROT 和預訓練策略 π^BC 的性能來完成。
    国产日韩久久久久精品一区二区三区