PyBulletでURDF(Unified Robot Description Format) 　URDF解説編(4)

強化学習

前回はロボットtr1のurdfモデルを作りました。今回はロボットtr1をPyBulletでシミュレーションさせます。 1.plane.urdf（床）の準備シミュレーションするには地上に相当する床を定義する必要があります。マニュアルを見るとコード上で定義できるはずですが…

2020-02-23

PyBulletでURDF(Unified Robot Description Format) 　URDF解説編(3)

強化学習

前回は既存のロボットモデルhumanoid.urdfの中身を見ていきました。今回はオリジナルのモデルを作成してみます。 1.計画某ロボットキットの写真を眺めながら、こんな図を書いてみました。某ロボットキッとは軸の位置、寸法はもちろん異なります。可動軸の…

2020-02-13

PyBulletでURDF(Unified Robot Description Format) 　URDF解説編(2)

強化学習

前回はURDFの基本構造の紹介と、Colaboratoryを使ってPyBulletにhumanoid.urdfを読み込ませ、表示させる方法を紹介しました。今回はhumanoid.urdfの中身を見ていきます。 1.PyBulletのHumanoid.urdfの用途について PyBulletのプロジェクトにあるhumanoid.ur…

2020-02-09

PyBulletでURDF(Unified Robot Description Format) 　URDF解説編(1)

強化学習

前回までは3D物理シミュレータBulletのpythonラッパーPyBulletで動くGym，HumanoidFlagrun(Harder)BulletEnv-v0を使い深層強化学習を試してみました。本記事では、オリジナルのロボットのシミュレーション環境を構築できる様、まずはURDFについて調べてみま…

2020-02-01

PyBullet-HumanoidFlagrunHarderBulletEnv-v0(4)

強化学習

次はHumanoidFlagrunを学習させてみます。Humanoidの学習に使ったソースコードのenvを定義している箇所を入れ替え（コメントアウト）て動かします。ソースは前々回のこちらの記事を見てください。ちなみに、学習を進めても全然報酬が増えず、Google Colabor…

2020-01-25

PyBullet-HumanoidFlagrunHarderBulletEnv-v0(3)

強化学習

今回はSoft Actor-Critic(SAC)について備忘録ということで解説します。以下の論文は初期のSACをさらに改良したものです。 1.深層強化学習の理解に必要な事項の整理まずは、各記号、考え方の整理など。行動価値関数が最大になる行動を出力する方策関数を学…

2020-01-21

PyBullet-HumanoidFlagrunHarderBulletEnv-v0(2)

強化学習

2020/1/25改正学習継続時に早くalphaが収束するようalpha、log_alpha、alpha_optimizerを保存するように変更しました。gpu有、無しの両環境で保存データを共有できるようモデル読み込み時にmap_location=deviceを追加しました。 2020/1/23改正 BATCH_SIZEを…

2020-01-05

PyBullet-HumanoidFlagrunHarderBulletEnv-v0(1)

強化学習

次は3Dの物理シミュレータを使ってみます。以前はOpen AI Gymで使える3D物理環境は有料のMuJoCo用だけでしたが、今では無料で使えるPyBullet用環境(env)もあるということなので、こちらを使ってみます。 PyBulletはErwin Cumansさんらが開発したオープンソー…

2019-12-29

Open AI Gym Box2D BipedalWalkerをColaboratoryで動かしてみる(7)

強化学習

今回はおまけということで、DDPGに教師を追加してみました。記事の最初の方で作成したPD制御を教師として、DDPGの経験処理中に行動をアシストすると、学習に何か効果があるかを試しました。結果、最初は教師の影響を受けて大股で歩こうとしていたものの、最…

2019-12-26

Open AI Gym Box2D BipedalWalkerをColaboratoryで動かしてみる(6)

強化学習

前回はDDPGをざくっと解説してみました。今回はDDPGでBipedalWalkerを学習させてみます。 1.BipedalWalker-v2の報酬について Open AI Gymのgithubサイトにあるソースリスト https://github.com/openai/gym gym－envs－box2d－bipedal_walker.pyの関数stepを…

2019-12-25

Open AI Gym Box2D BipedalWalkerをColaboratoryで動かしてみる(5)

強化学習

前回はDDPG（Deep Deterministic Policy Gradient）でMountainCarContinuousに挑戦し、無事学習して山登りに成功しました。（BipedalWalkerは手強いので後回しです・・・）今回は中身について、ざっくりですが解説してみます。 1.DDPG（Deep Deterministic …

2019-12-22

Open AI Gym Box2D BipedalWalkerをColaboratoryで動かしてみる(4)

強化学習

改正2019.12.26 ソースリスト中でsteps_done +=1の位置をwhileループ（各ステップ計算ループ）からepsodeのforループに移動しました（バグ）。このバグのためSIGMA_DECAYがほとんど効かず、すぐにノイズが小さくなっていました。あわせてSIGMA_DECAYの設定値…

2019-12-12