전체 글 222

점, 선, 다각형을 이용한 다양한 도형 그리기

1. 출력 기본 객체란?OpenGL에서 화면에 무엇인가를 그릴 때 가장 작은 단위는 점(Point), 선(Line), 그리고 다각형(Polygon)입니다. 이들을 출력 기본 객체 (Primitive)라고 부릅니다.✅ 점, 선, 다각형점 (GL_POINTS): 하나의 위치를 표시하는 단일 정점선 (GL_LINES, GL_LINE_STRIP, GL_LINE_LOOP): 두 정점을 잇거나 연속적인 선형 구조를 만듦다각형 (GL_POLYGON, GL_TRIANGLES 등): 여러 정점을 연결하여 면을 구성✅ 앞면과 뒷면 (Face)다각형에는 앞면(front face)과 뒷면(back face) 개념이 있습니다.OpenGL은 이 정보를 바탕으로 면을 표시하거나 생략할 수 있습니다.법선 벡터(Normal Vecto..

Hello OpenGL 예제 분석: Freeglut 기반 기초 코드 설명

전체 코드 (주석 포함)// HelloGL.cpp : 이 파일에는 'main' 함수가 포함됩니다. 거기서 프로그램 실행이 시작되고 종료됩니다.#include #include ".\include\GL\freeglut.h" // Freeglut 헤더 포함// 전역 변수: 윈도우의 초기 가로, 세로 크기int Width = 600, Height = 600;// 콜백 함수 선언void Render(); // 화면을 그리는 함수void Reshape(int w, int h); // 창 크기가 바뀔 때 호출되는 함수int main(int argc, char **argv){ // Freeglut 초기화 glutInit(&argc, argv); // 윈도우 크기 설정 glu..

5. 몬테카를로 Prediction

몬테카를로 방법을 이용한 상태가치 함수 추정 (Prediction)강화학습에서 상태가치를 구하기 위한 수식은 다음과 같다:V_π(s) = ∑_a π(a|s) ∑_{s'} P(s'|s,a) [r(s,a,s')] + γV_π(s')이 수식을 계산하려면 다음 항목이 필요하다:정책 π(a|s)상태전이확률 P(s'|s,a)보상 r(s,a,s')감가율 γ다음 상태의 가치 V_π(s')특히 상태전이확률을 알 수 없다면 계산이 불가능하다.동적계획법과 실제 환경의 차이동적계획법은 환경의 정보를 완전히 알고 있으며, 결정론적 환경(P(s'|s,a) = 1)을 전제한다. 하지만 실제 환경은 불확실성이 존재한다. 예를 들어, 빙판길에서 앞으로 한 걸음 내딛었을 때 발생할 수 있는 결과는 다음과 같다:P(전진 | 빙판길, 앞으..

4.2 정책 개선, 정책 반복, 그리고 가치 반복

🔁 2장 이론 (4): 정책 개선, 정책 반복, 그리고 가치 반복🧭 정책 개선 (Policy Improvement)정책 개선이란?정책 개선은 현재 정책에 따라 계산된 상태가치 ( V_π(s) ) 를 기반으로,각 상태에서 가장 높은 행동가치 ( Q_π(s,a) ) 를 갖는 행동을 선택해 새로운 정책으로 바꾸는 과정이다. π*(s) = argmaxₐ Q_π(s, a)argmax는 가능한 행동 중 행동가치가 가장 큰 행동을 선택최적의 행동만을 선택한 것이 최적 정책 π*정책이 변경되지 않으면 개선이 완료된 것으로 보고, 반복을 종료🔄 정책 반복 (Policy Iteration)Prediction과 ControlPrediction: 현재 정책 π를 이용해 상태가치 ( V_π )를 계산하는 과정 (정책 평가..

4.1 정책 평가와 반복 정책 평가

📘 2장 이론 (3): 정책 평가와 반복 정책 평가🎯 정책과 최적 정책정책 π: 상태 ( s )에서 행동 ( a )를 선택할 확률 분포최적 정책 ( π^* ): 모든 상태에서 가장 높은 기대 수익을 가져오는 행동만을 선택하는 정책최적 정책이란, 어떤 상태에 있든지 최적의 행동을 이미 알고 있는 상태를 의미한다.최적 정책은 상태가치 함수와 행동가치 함수를 통해 정의된다:V^*(s) = max_π V_π(s) # 식 2.18 (최적 상태가치 함수)Q^*(s,a) = max_π Q_π(s,a) # 식 2.19 (최적 행동가치 함수)( V^*(s) ): 가능한 모든 정책 중에서 상태 ( s )의 기대 수익이 가장 큰 값( Q^*(s,a) ): 가능한 모든 정책 중에서 상태 ( s )에서 행동 ..

3.2 가치함수: 행동 가치 계산

📘 2장 이론 (2): 행동가치 함수 ( Q_π(s, a) )🔍 행동가치란?지금까지는 상태의 가치인 ( V_π(s) )를 계산하는 방법을 살펴봤다. 그러나 실제 강화학습에서는 상태에서 어떤 행동을 선택할 것인지가 핵심이다.즉, 상태 ( s )에서 행동 ( a )를 했을 때 기대되는 수익을 나타내는 행동가치 함수 ( Q_π(s,a) )를 정의한다.🧾 행동가치 함수의 정의정책 π를 따를 때, 상태 ( s )에서 행동 ( a )를 선택했을 때의 기대 수익 ( G_t )는 다음과 같이 정의된다:Q_π(s, a) = E_π[G_t | S_t = s, A_t = a] = E_π[r_{t+1} + γr_{t+2} + γ²r_{t+3} + ... | S_t = s, A_t = a] =..