Samuel Arzt氏による、UnityのML-Agentsを使用し自動車の駐車のための動作を学習している映像の紹介。
AIの成長を見守るのも、なんだか温かい気持ちになりますね。
AIは、3D物理シミュレーションで駐車場に車を駐車することを学習します。 シミュレーションは、UnityのML-Agentsフレームワーク(https://unity3d.com/machine-learning)を使用して実装されました。 AIは、それぞれ128個のニューロンからなる3つの隠れレイヤーを持つディープニューラルネットワークで構成されています。 これは、強化学習アプローチであるProximal Policy Optimization(PPO)アルゴリズムでトレーニングされます。
基本的に、ニューラルネットワークの入力は、8つの深度センサーの読み取り値、車の現在の速度と位置、およびターゲットに対する相対的な位置です。ニューラルネットワークの出力は、エンジン力、ブレーキ力、および回転力として解釈されます。これらの出力は、ズームアウトされたカメラショットの右上隅に表示されます。
AIはランダムな動作で始まります。つまり、ニューラルネットワークはランダムな重みで初期化されます。その後、環境フィードバックに応じてそれに応じてタスクを解決することを徐々に学習します。環境は、ポジティブまたはネガティブの報酬信号で、AIが良いか悪いかを伝えます。
このプロジェクトでは、AIは駐車場に近づくための小さな肯定的な信号で報われます。これは赤で輪郭が描かれ、実際に駐車場に到達してそこで止まるとより大きな報奨を受け取ります。駐車スポットに到達するための最終的な報酬は、実際の駐車位置に対して車がどの程度平行に停止するかに依存します。たとえば、実際の駐車方向に対して90°の角度で車が停止した場合、実際の方向に完全に平行に停止した場合と比較して、AIにはごく少量の報酬が与えられます。
AIは、駐車場からさらに離れて走行した場合、または障害物に衝突した場合、負の報酬信号でペナルティを受けます。このビデオに示されているトレーニングプロセスは、i5(第7世代または第8世代)と100倍のシミュレーション速度のGTX 1070を搭載したコンピューターで約23時間かかりました。
AIを使った駐車バトル
なんだか可愛らしい。
コメント