Ordinary day

논문리뷰 본문

Study/Paper

논문리뷰

minung14 2017. 9. 11. 18:31

Learning from Demonstrations for Real World Reinforcement Learning - https://arxiv.org/abs/1704.03732

실제 상황에서의 문제점이 발생

따라서 실제 데이터로 학습이 필요함

그래서 제안한 DQfD


*background

2015년에 나온 더블DQN: 타겟 네트워크 분리, replay Buffer

2016년 : 현재 예측하는 네트워크와 타겟 네트워크 2개 존재 더블DQN 로스 사용

2016년(2): DQN 에이전트 수정


*related work

모방학습 DAGGER(2011)

zero sum game

알파고

Human Experience Replay: 샘플링 방법은 같으나, supervised loss사용 안함

Replay Buffer Spiking: 데몬스트레이션 데이터를 처음에만 사용하고 그 이후에는 빼버림


DQfD가 PDD DQN 과 다른점

Demonstartion data

Pre training

Supervised loss

N step TD loss

Demonstraion priority bonus


=> 초기 상태(시작점)가 상대적으로 높음, 경우에 따라 발산하기도 함



A Deep Reinforcement Learning Chatbot - https://arxiv.org/abs/1709.02349

응답을 생성하는 부분을 여러가지 모델을 함께 사용하여 그 중에서 선택하는 방식 -> 앙상블 모델

실용적 튜닝을 위함 (대회에서 이기기 위해 만들어진 것...)

이 논문에서의 시스템은 '소셜봇' 이라고 지칭.

A/B 테스트로 실제 유저들에게 실험 진행


22개의 response model.

1) Template Based model

앨리스: 챗봇의 성격, 정체성(identity)과 관련된 봇

엘리자: 개인적 질문을 할 때, 되물어 보는 봇, I->You, You -> I

Initaiator: 대화를 주도할 수 있는 봇, 주로 질문하는..

스토리 봇: 템플릿이 있어서, 키워드 매칭이 되어야함

2) Knowledge based QA

에비봇: 아마존 QA로 연결, 의문사 what, who가 있을 때 무조건 호출툄, 그렇지 않다면 엔티티를 뽑아서 매칭되면 호출

BoW영화봇: 엔티티와 태그 리스트를 가지고 있고, 유저의 말 속에서 해당 문자열이 검색되면 호출, String 매칭 실패시 word2vec 으로

3) retrieval based NN

VHRED 모델: seq2seq 모델: Reddit, 뉴스, 영화 관련에서 들고온 데이터들 사용

Skip Thought Vector 모델: 트리거 phase 있는지 확인, 없다면 두번째 스텝으로 넘어감. (정치/경제 분야는 사실만 전달,)

Dual Encodder 모델: 레딧, 뉴스

Bag of word Retrival 모델: 특정 주제에 대해 임베딩 시켜놓고 검색하도록

4)


5) 검색엔진 기반 뉴럴넷

검색엔진으로 넘겨받은 데이터 사용, 이를 임베딩

6) Generation based NN

다음 질문을 생성하기 위해 구체적인 단어를 생성하기 위한 모델, 봇이 질문을 생성할 때 사용, 템플릿은 정해져있음


결국, 우선순위에 따라 모델을 선택함

사용자의 만족도 측정에 따라 trade off 존재(흥미로운 대화가 길어지는 것 vs )


action value function과 scroe function을 동일하게 취급, 동일한 NN 사용


1458개의 피쳐를 만들어서 NN 에서 사용(RNN과 CNN 을 조합하여 피쳐 생성)

첫번째 레이어: 1458개 피쳐 모두 포함시킴

두번째 레이어

세번째 레이어: 20개의 히든 유닛

마지막 레이어: 5개의 output 유닛


아마존 사람들이 응답한 데이터(response)로 supervised data를 생성해놓고, 이걸로 학습시킴


dialogue act: 10개(accept, reject, response, )

세분화 할 수록 학습하기 힘듦 -> 큰 분류로만 나눔


'Study > Paper' 카테고리의 다른 글

Poly-encoders, Facebook AI Research  (0) 2020.01.07
Comments