studylida

8. Double Q-learning, Actor-Critic

💡 Double Q-learning과 Actor-Critic 정리1. Q-learning의 한계: 과대 추정 문제기존 Q-learning은 타깃 업데이트에 maxₐ′ Q(s′, a′)를 사용함.→ 이는 가치가 과대 추정(overestimation)될 수 있음.→ 이를 해결하기 위한 방법이 Double Q-learning임.2. Double Q-learning핵심 아이디어두 개의 Q함수 Q₁, Q₂를 사용한 쪽은 행동 선택에, 다른 한 쪽은 가치 평가에 사용각 스텝마다 Q₁ 또는 Q₂ 중 하나만 업데이트함알고리즘 구조모든 s∈S, a∈A(s)에 대해 초기화: Q_1(s,a), Q_2(s,a) ← 임의의 값 Q_1(terminal, a) = Q_2(terminal, a) = 0각 에피소드에 대해..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.04.21

2. 형식 언어

✅ 무엇을 학습해야 할까?🎯 학습 목표 요약언어(Language)를 수학적으로 정의하고 다루는 기본 단위들을 이해문자열, 길이, 공백 문자열, 클로저 연산 등의 형식적 정의 익히기언어를 어떻게 표현할 것인가? 라는 질문에서 문법(Grammar)과 인식기(Recognizer)의 개념 도입🔎 어떤 걸 중점적으로 공부해야 할까?개념중점 학습 포인트알파벳 (Alphabet)기호의 유한 집합, 실생활 예시와 비교문자열 (String)기호들의 순서 있는 열, 공백 문자열 포함문자열의 길이`ε (epsilon)공백 문자열로서의 의미, 클로저와 관련됨T*, T⁺클로저 연산의 의미와 차이점언어T*의 부분집합으로서 정의됨문법 & 인식기언어의 표현 방식, 생성/인식 관점 도입유한 표현 가능성모든 언어가 표현 가능한 건 ..

독서/컴파일러 입문 2025.04.17

1. 컴파일러 개론

🎯 학습 목표와 중점 사항✅ 이번 슬라이드에서 학습해야 할 내용컴파일러란 무엇인가? (정의와 역할)컴파일러의 입력과 출력컴파일러의 구성 구조(Front-End, Back-End, Intermediate Code)언어 종속(Language-dependent) vs 머신 종속(Machine-dependent)🔍 중점적으로 공부해야 할 것"컴파일러는 어떤 작업을 하는가?" → 언어를 번역하는 자동화 도구라는 큰 그림을 기억할 것.프론트엔드 vs 백엔드 구분 정확히 이해하기중간 코드(IC)의 역할과 왜 분리해서 사용하는지향후 LEX / YACC, IR(Intermediate Representation) 등과 어떻게 연결되는지 상상해볼 것1️⃣ 번역기와 컴파일러📌 컴파일러란?"A compiler is a c..

독서/컴파일러 입문 2025.04.16

7. 시간차 학습의 Prediction과 Control

시간차 학습의 Prediction지금까지 배운 동적계획법과 몬테카를로 방법을 정리하면 그림 2.59와 같다. 동적계획법은 환경에 대한 정보를 알고 있어 상태전이확률 ( P(s'|s,a) )을 이용해 상태가치함수를 학습한다. 반면, 일반적인 경우에는 환경 정보를 알기 어렵기 때문에 몬테카를로 방법처럼 에피소드를 반복하여 상태가치함수를 추정하는 방식이 사용된다.몬테카를로 방법의 한계환경에 대한 정보 없이 학습이 가능하지만, 반드시 에피소드가 끝나야 수익을 계산할 수 있다는 제약이 있다. 즉, 바둑이나 미로 탐색처럼 종료 조건이 있는 문제에는 적합하지만, 생산 라인 최적화나 주식시장처럼 종료되지 않는 문제에는 적용이 어렵다.이러한 한계를 극복하고자 동적계획법과 몬테카를로 방법의 장점을 결합한 시간차 학습(Te..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.04.11

6. 몬테카를로 Control

몬테카를로 방법의 Control어떤 상태에서 행동을 선택하는 정책에는 여러 종류가 있지만, 대표적으로 다음 세 가지가 있다:무작위로 행동을 선택하는 정책행동가치에 따라 확률적으로 행동을 선택하는 정책행동가치 중 가장 높은 행동을 선택하는 정책이 중 3번은 탐욕정책(greedy policy) 으로, 행동가치가 가장 높은 행동만을 선택한다. 탐욕정책은 행동가치 함수가 충분히 학습된 후에는 효과적이지만, 학습 중에는 국소 최적해(local minimum) 에 빠질 위험이 있다.그림 2.54 탐욕정책의 단점 예시어떤 정책을 따르던 우연히 실선 경로로 먼저 도착지점에 도착했다고 하자. 실선 경로에 있는 상태들은 +1의 보상을 받게 되고, 이로 인해 C 상태에서는 오른쪽으로 가는 행동의 가치가 강화된다. 하지만 실..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.04.11

3D 관측 파이프라인(1): 모델링 변환, 관측 변환, Arc ball 회전

보호되어 있는 글입니다.

프로그래밍/컴퓨터그래픽스 2025.04.11

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

studylida

전체 글 222

티스토리툴바