강화 학습의 가치 반복에 대한 기본 사례

debugcn 에 게시 Dev

아난다

나는 '3x4 windy gridworld'MDP에 대한 가치 반복을 구현하려고 시도하고 있으며 Bellman 방정식과 그 구현을 이해하는 데 어려움을 겪고 있습니다.

제가 작업하고있는 Bellman 방정식의 형태는 다음과 같습니다.

이것이 제가 작업중인 그리드 워드이고 U(s)X로 표시된 타일 의 값 ( ) 을 찾고 싶다고 가정합니다.

( 이 비디오의 이미지 스냅 샷 )

모든 타일의 보상은 터미널 타일이 0으로 정의 될 것으로 예상하고 특정 방향으로 이동하려고하면 실제 이동이 직각으로 일어날 확률이 적다고 가정합니다. 의도 된 움직임. (x에서 아래로 이동하려고하면 0.8 확률로 아래로 이동하지만 각각 0.1 확률로 왼쪽 또는 오른쪽으로 이동합니다)

이제 위치 x에 대한 벨맨 방정식을 풀려고하면 U(s')'UP'동작에 대한 세 개의 이웃 ( )이 있습니다. 원래 위치 자체 (위로 이동할 수 없기 때문에)는 확률 0.8, +1 상태는 확률 0.1, 타일 왼쪽은 확률 0.1입니다. 이것들은 s'상태를 형성합니다 .

따라서 상태 X의 값을 찾는 함수는 모든 상태를 재귀 적으로 호출합니다 s'. 이 중 +1 상태는 터미널 타일이고 기본 케이스를 구성하므로 문제가되지 않습니다. 그러나 그 상태 중 하나는 원래 상태 X 자체이며 해당 케이스가 재귀 호출에서 어떻게 종료되는지 이해하지 못합니다. 세 번째 타일에도 동일한 문제가 있습니다. 그것은 지금까지 모든 호출 후 종료됩니다 그것의 이웃 등등?

닉 워커

값 반복 은 그 자체로 끝나지 않습니다 . γ <1과 무한하지 않은 보상이있는 한 정확한 값으로 점근 적으로 수렴합니다.

실제로 할인 기간 (각 재귀 수준에서 γ에 의해 확장 됨)이 너무 작아지면 다음 항목을 계속 계산해 U(s')도 이미 누적 된 값에 영향을 미치지 않을 때마다 종료 할 수 있습니다 .

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-19

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

강화 학습의 가치 반복에 대한 기본 사례

강화 학습의 가치 반복에 대한 기본 사례

이진 트리 반전에 대한 기본 사례가 없습니까?

MongoDB의 기본 인덱스에 대한 모범 사례

기본 키에 대한 모범 사례

keras의 다양한 배치 크기에 대한 학습 모델

기본 너비가 최대 화면 크기보다 작은 이미지에 대한 반응 기본의 width = '100 %'

Kotlin에서 둘 이상의 초기화 블록에 대한 사용 사례?

직접 FileDescriptor 인스턴스화에 대한 사용 사례가 있습니까?

반복기를 사용하여 순환 대기열의 한 위치에서 항목 가져 오기

심층 강화 학습의 배경에서 배치 크기의 의미는 무엇입니까?

반복 수행 위치에 대한 모범 사례

강화 학습의 다양한 방법 이해 및 평가

Tensorflow : MNIST 데이터 세트에서 선형 분류기에 대한 학습 된 가중치 시각화

표현식 내에 유형 주석에 대한 구문이 있습니까? (사용 사례 예 : 기본 특성)

신경망의 다른 클래스에 대한 다른 가중치와 학습 후 사용하는 방법

기본 유형에 대한 emplace는 그만한 가치가 있습니까?

대화 상자에서 구성 요소를 재사용하기위한 각도, 재료의 모범 사례?

iOS 가져 오기 요청에 대한 모범 사례

사례가있는 복잡한 쿼리에서 그룹화

Lukas-Kanade 광학 흐름 방법의 "강도"에 대한 나의 이해가 맞습니까?

기본 및 보조 축의 플롯에 대한 단일 범례

Java Super.call에 대한 모범 사례가 있습니까?

분포에 기반한 약한 학습자 : 의사 결정 그루터기

강화 학습에서 동일한 상태에 대한 다른 보상

재사용 가능한 반복기 개념에 대한 지침을 얻을 수 있습니까?

비동기 메일러 구조화에 대한 모범 사례 (Sidekiq 사용)

PostgreSQL의 데이터 유형에 대한 대 / 소문자에 대한 모범 사례가 있습니까?

GradientTape를 사용한 최적화 후 NaN을 반환하는 Tensorflow 강화 학습 RNN

추가 파일 위치에 대한 Django Management Command 모범 사례

범위 기반 사례와 유사한 제어 구조가 있습니까?