2020-01-01から1年間の記事一覧
前回はロボットtr1のurdfモデルを作りました。 今回はロボットtr1をPyBulletでシミュレーションさせます。 1.plane.urdf(床)の準備 シミュレーションするには地上に相当する床を定義する必要があります。マニュアルを見るとコード上で定義できるはずですが…
前回は既存のロボットモデルhumanoid.urdfの中身を見ていきました。 今回はオリジナルのモデルを作成してみます。 1.計画 某ロボットキットの写真を眺めながら、こんな図を書いてみました。某ロボットキッとは軸の位置、寸法はもちろん異なります。 可動軸の…
前回はURDFの基本構造の紹介と、Colaboratoryを使ってPyBulletにhumanoid.urdfを読み込ませ、表示させる方法を紹介しました。 今回はhumanoid.urdfの中身を見ていきます。 1.PyBulletのHumanoid.urdfの用途について PyBulletのプロジェクトにあるhumanoid.ur…
前回までは3D物理シミュレータBulletのpythonラッパーPyBulletで動くGym,HumanoidFlagrun(Harder)BulletEnv-v0を使い深層強化学習を試してみました。 本記事では、オリジナルのロボットのシミュレーション環境を構築できる様、まずはURDFについて調べてみま…
次はHumanoidFlagrunを学習させてみます。Humanoidの学習に使ったソースコードのenvを定義している箇所を入れ替え(コメントアウト)て動かします。ソースは前々回のこちらの記事を見てください。 ちなみに、学習を進めても全然報酬が増えず、Google Colabor…
2020年1月30日 改訂1 エラーが表示されjupyterがうまく実行されず、ipykernelをアップグレードした件について、最後に追記しました。 ------------------------------------- Google Colaboratoryは大変便利なのですが…
今回はSoft Actor-Critic(SAC)について備忘録ということで解説します。以下の論文は初期のSACをさらに改良したものです。 1.深層強化学習の理解に必要な事項の整理 まずは、各記号、考え方の整理など。 行動価値関数が最大になる行動を出力する方策関数を学…
2020/1/25改正 学習継続時に早くalphaが収束するようalpha、log_alpha、alpha_optimizerを保存するように変更しました。gpu有、無しの両環境で保存データを共有できるようモデル読み込み時にmap_location=deviceを追加しました。 2020/1/23改正 BATCH_SIZEを…
次は3Dの物理シミュレータを使ってみます。以前はOpen AI Gymで使える3D物理環境は有料のMuJoCo用だけでしたが、今では無料で使えるPyBullet用環境(env)もあるということなので、こちらを使ってみます。 PyBulletはErwin Cumansさんらが開発したオープンソー…