'2025/04/02 글 목록

2025/04/02 1

몬테카를로 방법을 이용한 상태가치 함수 추정 (Prediction)강화학습에서 상태가치를 구하기 위한 수식은 다음과 같다:V_π(s) = ∑_a π(a|s) ∑_{s'} P(s'|s,a) [r(s,a,s')] + γV_π(s')이 수식을 계산하려면 다음 항목이 필요하다:정책 π(a|s)상태전이확률 P(s'|s,a)보상 r(s,a,s')감가율 γ다음 상태의 가치 V_π(s')특히 상태전이확률을 알 수 없다면 계산이 불가능하다.동적계획법과 실제 환경의 차이동적계획법은 환경의 정보를 완전히 알고 있으며, 결정론적 환경(P(s'|s,a) = 1)을 전제한다. 하지만 실제 환경은 불확실성이 존재한다. 예를 들어, 빙판길에서 앞으로 한 걸음 내딛었을 때 발생할 수 있는 결과는 다음과 같다:P(전진 | 빙판길, 앞으..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.04.02

studylida

IEMG, cpp, MAC 주소 필터링, 주식, OSI 참조 모델, 인터페이스, SPTL, 게시글 작성 규칙, 네트워크, 마이크로서비스, 리얼티인컴, API 게이트웨이, 프로그래밍, 어드레싱, INDA, fill_n, 작성 규칙, 로드 밸런서, 모놀리, 연결,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

studylida

2025/04/02 1

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역