'다이내믹 프로그래밍' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록다이내믹 프로그래밍 (2)

Ordinary day

강화학습 스터디 3주차

(파이썬과 케라스로 배우는 강화학습을 읽고 요약정리 한 것입니다.) 1. 가치 이터레이션 Value Iteration이전에 Policy Iteration 에서는 벨만 기대 방정식을 이용했다. 정책과 가치함수가 명확히 분리돼 있었기 때문에. 확률적인 정책을 고려하여 가치함수를 계산하려면 기댓값을 사용할 수 밖에 없고, 그래서 벨만 기대 방정식을 사용했다. 만약 policy를 현재 가치함수가 최적이라고 가정하고 이에 대해 결정적인 형태의 정책을 적용한다면 어떨까? 결과적으로 이 과정은 문제될 것이 없다. (다이내믹 프로그래밍을 이용할 것이므로) 결국 무수히 반복하게 되면 최적의 가치함수에 도달할 것이다. 이렇게 접근하여 계산을 하는 것이 가치 이터레이션 Value Iteration 이다. 가치 이터레이션의 ..

Study/ML 이론 2017. 9. 28. 01:00

강화학습 스터디 2주차

(파이썬과 케라스로 배우는 강화학습을 읽고 요약정리 한 것입니다.)1. 다이내믹 프로그래밍 Dynamic Programing다이내믹 프로그래밍은 작은 문제가 큰 문제 안에 중첩돼 있는 경우에 작은 문제의 답을 다른 작은 문제에서 이용함으로써 효율적으로 계산하는 방법.리처드 벨만이 처음 제시했으며, 최적화에 관련된 방정식이다.기본적인 아이디어는 큰 문제 안에 작은 문제들이 중첩된 경우에 전체 큰 문제를 작은 문제로 쪼개서 풀겠다는 것.작은 문제의 답들을 서로서로 이용할 수 있어 계산량을 줄일 수 있다. 2. 정책 이터레이션 Policy IterationPolicy Iteration은 다이내믹 프로그래밍의 한 종류로, 벨만 기대 방정식을 사용해 MDP 문제를 푸는 것.MDP 문제에서 결국 우리가 알고 싶은 ..

Study/ML 이론 2017. 9. 18. 19:58

Prev 1 Next

목록다이내믹 프로그래밍 (2)

Ordinary day

티스토리툴바