일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 리처드소처
- Gradient descent
- 독서
- 취미
- model free
- 페미니즘
- ai
- 벨만 방정식
- 행복
- 인공지능
- 애쉬브라운
- 딥뉴럴넷
- 파이썬
- kbpf
- 강화학습
- 머신러닝
- 폴댄스
- 다이내믹 프로그래밍
- cost function
- 양성평등
- NLP
- 딥러닝
- MDP
- CS224N
- MB
- tensorflow
- 파이썬과 케라스로 배우는 강화학습
- Richard Socher
- Linear Regression
- 자연어처리
- Today
- Total
목록MDP (3)
Ordinary day
(파이썬과 케라스로 배우는 강화학습을 읽고 요약정리 한 것입니다.) 1. 가치 이터레이션 Value Iteration이전에 Policy Iteration 에서는 벨만 기대 방정식을 이용했다. 정책과 가치함수가 명확히 분리돼 있었기 때문에. 확률적인 정책을 고려하여 가치함수를 계산하려면 기댓값을 사용할 수 밖에 없고, 그래서 벨만 기대 방정식을 사용했다. 만약 policy를 현재 가치함수가 최적이라고 가정하고 이에 대해 결정적인 형태의 정책을 적용한다면 어떨까? 결과적으로 이 과정은 문제될 것이 없다. (다이내믹 프로그래밍을 이용할 것이므로) 결국 무수히 반복하게 되면 최적의 가치함수에 도달할 것이다. 이렇게 접근하여 계산을 하는 것이 가치 이터레이션 Value Iteration 이다. 가치 이터레이션의 ..
(파이썬과 케라스로 배우는 강화학습을 읽고 요약정리 한 것입니다.)1. 다이내믹 프로그래밍 Dynamic Programing다이내믹 프로그래밍은 작은 문제가 큰 문제 안에 중첩돼 있는 경우에 작은 문제의 답을 다른 작은 문제에서 이용함으로써 효율적으로 계산하는 방법.리처드 벨만이 처음 제시했으며, 최적화에 관련된 방정식이다.기본적인 아이디어는 큰 문제 안에 작은 문제들이 중첩된 경우에 전체 큰 문제를 작은 문제로 쪼개서 풀겠다는 것.작은 문제의 답들을 서로서로 이용할 수 있어 계산량을 줄일 수 있다. 2. 정책 이터레이션 Policy IterationPolicy Iteration은 다이내믹 프로그래밍의 한 종류로, 벨만 기대 방정식을 사용해 MDP 문제를 푸는 것.MDP 문제에서 결국 우리가 알고 싶은 ..
(파이썬과 케라스로 배우는 강화학습을 읽고 요약정리 한 것입니다.)1. 강화학습 개요강화학습은 행동심리학과 머신러닝에 뿌리를 둔 학문이며, 문제에 대한 정의가 필수적.'강화'의 핵심은 보상을 얻게 해주는 행동의 빈도 증가이며, 이 때 에이전트는 이해는 못하더라도 행동과 행동의 결과를 보상을 통해 연결할 수 있다. 강화학습을 정의하려면 머신러닝 개념을 추가로 알아야 하는데, '머신러닝'은 인공지능의 한 범주로 컴퓨터가 스스로 학습하게 하는 알고리즘을 개발하는 분야 라고 설명할 수 있다. 즉, 주어진 데이터를 토대로 스스로 성능을 높여나가는 것이다.이런 머신러닝에는 지도학습, 비지도학습, 강화학습 으로 크게 3가지로 나눌 수 있다.지도학습(Supervised Learning): 정답을 알고 있는 데이터를 이..