일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 벨만 방정식
- 딥뉴럴넷
- 강화학습
- ai
- 머신러닝
- Richard Socher
- 취미
- MDP
- tensorflow
- 파이썬
- 애쉬브라운
- 리처드소처
- 파이썬과 케라스로 배우는 강화학습
- NLP
- Gradient descent
- 행복
- 다이내믹 프로그래밍
- 인공지능
- 페미니즘
- cost function
- 독서
- 딥러닝
- model free
- kbpf
- MB
- 폴댄스
- CS224N
- 양성평등
- 자연어처리
- Linear Regression
- Today
- Total
목록다이내믹 프로그래밍 (2)
Ordinary day
(파이썬과 케라스로 배우는 강화학습을 읽고 요약정리 한 것입니다.) 1. 가치 이터레이션 Value Iteration이전에 Policy Iteration 에서는 벨만 기대 방정식을 이용했다. 정책과 가치함수가 명확히 분리돼 있었기 때문에. 확률적인 정책을 고려하여 가치함수를 계산하려면 기댓값을 사용할 수 밖에 없고, 그래서 벨만 기대 방정식을 사용했다. 만약 policy를 현재 가치함수가 최적이라고 가정하고 이에 대해 결정적인 형태의 정책을 적용한다면 어떨까? 결과적으로 이 과정은 문제될 것이 없다. (다이내믹 프로그래밍을 이용할 것이므로) 결국 무수히 반복하게 되면 최적의 가치함수에 도달할 것이다. 이렇게 접근하여 계산을 하는 것이 가치 이터레이션 Value Iteration 이다. 가치 이터레이션의 ..
(파이썬과 케라스로 배우는 강화학습을 읽고 요약정리 한 것입니다.)1. 다이내믹 프로그래밍 Dynamic Programing다이내믹 프로그래밍은 작은 문제가 큰 문제 안에 중첩돼 있는 경우에 작은 문제의 답을 다른 작은 문제에서 이용함으로써 효율적으로 계산하는 방법.리처드 벨만이 처음 제시했으며, 최적화에 관련된 방정식이다.기본적인 아이디어는 큰 문제 안에 작은 문제들이 중첩된 경우에 전체 큰 문제를 작은 문제로 쪼개서 풀겠다는 것.작은 문제의 답들을 서로서로 이용할 수 있어 계산량을 줄일 수 있다. 2. 정책 이터레이션 Policy IterationPolicy Iteration은 다이내믹 프로그래밍의 한 종류로, 벨만 기대 방정식을 사용해 MDP 문제를 푸는 것.MDP 문제에서 결국 우리가 알고 싶은 ..