ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 강화학습의 개요
    [11주차] 머신러닝, 딥러닝, Q러닝을 통한 자율주행/[Day2] 강화학습, Q-Learing 2021. 2. 23. 14:39

    강화학습은 행동에 대한 상과 벌을 주는 강아지 훈련과 유사함

    알고리즘은 게임의 주인공이 하는 행동의 의미와 게임의 규칙은 전혀 알지 못하고 다양한 행동을 통해 상과 벌을 받으면서 점점 상을 많이 받는 쪽으로, 벌은 피하는 쪽으로 학습하는 것을 강화학습이라 한다.

     

     

    <GridWorld>

    - Q-Learning 의 개념을 설명할 수 있는 간단한 게임

    - agent가 action에 따라 행동을 하며 녹색과 빨간색 칸에 도달하면 해당 점수를 얻게됨

    - 득점을 하되 감점은 피하는 방식으로 학습을 함

     

     

     

     

    <강화학습 용어>

    Agent : 게임의 주인공

    Environment : 게임의 환경, 게임 그 자체

    State(s) : Agent의 위치, 빨간색 칸의 위치, 초록색 칸의 위치

    Action(a) : Agent가 취할 수 있는 행동

    Reward(r) : 초록색 +1, 빨간색 -1 (강화학습의 성능에 중요한 역할을 하므로 잘 설계해야 함)

    Terminal : 게임의 종료 여부

     

     

     

     

     

    <GridWorld 학습 진행과정 예>

    초기 상태

     

     

     

     

     

     

     

     

     

    <State의 개념>

     

    Agent, 초록색, 빨간색의 위치가 동일하지 않으므로 같은 State가 아님

     

    Agent, 초록색, 빨간색의 위치가 모두 같으므로 같은 State

     

Designed by Tistory.