2019-11-01から1ヶ月間の記事一覧
Jetson nanoでTacotron2を動かしてみます。なお本記事は2019年11月末時点のものです。ツールのバージョンアップ等により、この手順で動かなくなることもありうるので、あらかじめご容赦ください。 Jetson NanoでTacotron2+WaveGlowが動きましたが、実行に約…
前回はDecoderの概要部分でしたので、次は中身を見ていきたいと思います。 2.6 decode,2.7 Location Sensitive Attention,2.8 Postnet,2.9 Tacotron2.inferenceの出力。複雑なところは図にまとめました。
前回の続きです。誤記、わかりやすくするため、たびたび加筆、修正するかも知れませんが、ご容赦頂きたく。akifukka.hatenablog.com 2.3 Decoderの概要 ここからはmodel.pyのクラスTacotron2のinferenceの次の文の中身になります。Decoderはちょっと入り組ん…
以前Colaboratoryで試して、英語の音声合成ができることはわかったので、日本語を目標にまずはtacotron2の中身を解説してみます。Googleの論文とNVIDIA実装を中心に見ていきます。 過去にColaboratoryで試した時の記事akifukka.hatenablog.com GoogleのTacot…
この記事は2019年秋現在です。 今回は、今実際に使っているものを中心にランニングに便利なグッヅを紹介します。ちなみに、毎週土曜は21km、日曜は10kmと、週2回のペースでランニングしています。 1.シューズ 何はともあれこれでしょう。前回も書いた通り…
少し解説を。(1)メル スペクトログラム(2)発声の仕組み(3)耳での音の周波数成分分解(4)声帯の発生音周波数と声道(喉、口)の共鳴スペクトラム(5)ケプストラム python用ライブラリlibrosaを使って音声の周波数解析も試してみます。
ディープラーニングによって音声合成も目覚ましく進歩しているようです。 2019年4月に発表されたマイクロソフトAIりんなの歌の完成度は非常に高く、人と区別つきません。まだ、誰もが使える技術ではありませんが、いつかは誰もがつかえるようになるでしょう…
2018年の春にランニングを始め、1年半ほどになります。先月になってやっとハーフ21kmを走り切ることができるようになり、今は土曜ニ21km、日曜は5kmか10kmを走っています。 これからランニングを始めようと思っている方に多少なりとも参考になれば思い、走り…
前回の記事の続きです。Colaboratoryで改造したネットワーク構造でSingleShotPoseを学習させ、動かしてみます。最後にJetson Nanoでも動かしてみました。計算時間の短縮と引き換えに精度が下がってしまいました。
高速化のためSingleShotPoseのネットワーク構造をYOLOv2ベースからYOLOv2-Tinyに変更して学習させてみます。この記事は前の記事でGoogleドライブにSingleShotPoseがダウンロード済みであることを前提に書かれています。
SingleShotPoseをColaboratoryで動かしてみます。本記事の手順は2019年11月のものです。scipyのバージョンアップのため若干修正して動かすことができました。
多摩川サイクリングロードをランニングしてきました。涼しい中、気持ちのいい天気でごきげんでしたが、おかげで筋肉痛ぎみです。往復約21kmで約2時間ほどのコースです。写真でコースを紹介します。
SingleShotPoseはMicrosoftが開発した対象物の姿勢を画像から推定するネットワークです。ネットワークの構造はYOLOをヒントに開発されたとあって良く似た構造です。極端に大きなネットワークでは無いのでJetson Nanoで試しに動かしてみます。