일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- autorace
- webots
- FreeCAD
- ROS
- roslaunch
- RGB-D
- G++
- ubuntu
- amcl
- 촉각센서
- ax200
- Linux
- sources.list
- 부분공간
- Installation
- CUDA
- turtlebot
- CuDNN
- rqt
- Gazebo
- roslib
- error
- 전이학습
- darknet_ros
- YoLO
- opencv
- linetracing
- turtlebot3
- Kinetic
- gcc
- Today
- Total
기술 성공, 실패 기록소
강화학습 본문
https://ko.wikipedia.org/wiki/%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5
강화 학습 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 이러한 문제는 매우 포괄적이기 때문에 게임 이론, 제어이론, 운용 과학, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 떼 지능, 통계학, 유전 알고리
ko.wikipedia.org
강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.
강화 학습은 또한 입출력 쌍으로 이루어진 훈련 집합이 제시되지 않으며,...
보상을 최대화 하는 방향. 보상에 대한 기준이 있어야 한다.
강화 학습에서 다루는 '환경'은 주로 마르코프 결정 과정으로 주어진다
마르코프 결정 과정 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 마르코프 결정 과정(Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공한다. 이 때 의사결정의 결과는 의사결정자의 결정에도 좌우되지만, 어느 정도 임의적으로 주어진다. 마르코프 결정 과정은 동적 계획법과 강화 학습 등의 방법으로 푸는 넓은 범위의 최적화 문제에 유용한 도구로 활용되며, 로봇 공학, 제어 자동화, 경제학, 제조업 등의 영역에서 폭넓게 사용되고 있다. 마르코프 결정 과
ko.wikipedia.org
마르코프 결정 과정 - 보상에 대해 표현함.
'AI' 카테고리의 다른 글
주성분 분석 PCA (0) | 2019.11.22 |
---|---|
DQN (0) | 2019.11.22 |
전이학습 (Transfer Learning) (0) | 2019.11.21 |