studylida

3.1 가치함수: 상태 가치 계산

📘 2장 이론: 상태가치와 벨만 방정식❓ 에이전트는 어떻게 보상을 최대화하는 행동을 학습할까?에이전트는 각 상태 또는 상태에서 가능한 행동들의 가치를 수치화한 후, 그 중 가장 가치가 높은 선택지를 고르는 방식으로 학습한다.즉, 상태가치(state-value) 또는 행동가치(action-value)를 기준으로 행동을 결정한다.📊 상태가치와 행동가치 (그림 2.19)그림 2.19a는 각 상태의 상태가치(V)를 나타낸다.도착지점에 가까울수록 상태가치가 높다.에이전트는 어디서든 가치가 높은 이웃 상태를 따라 이동하게 된다.그림 2.19b는 각 상태에서 선택할 수 있는 행동들의 가치(Q)를 보여준다.에이전트는 각 상태에서 행동가치가 가장 높은 행동을 선택해 도착지점에 도달한다.이처럼 강화학습은 수익 G를 기..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.03.29

2.5 환경과 에이전트 준비

🤖 에이전트와 환경의 상호작용강화학습은 에이전트(Agent)와 환경(Environment)의 반복적인 상호작용을 통해 이루어진다.시간 t일 때, 환경은 에이전트에게 현재 상태 S_t를 제공한다.에이전트는 이 상태 정보를 바탕으로 가능한 행동 집합 {a1, a2, a3, a4} 중 하나인 A_t를 선택하고 행동한다.환경은 이 행동에 대한 평가로 보상 r_{t+1}을 전달하고, 새로운 상태 S_{t+1}을 알려준다.🎯 에이전트는 이렇게 받은 보상을 최대화하기 위해, 앞으로 받을 보상의 합 G가 가장 크게 되는 최적 정책(π*)을 학습하게 된다.🧱 미로 환경 정의 ▶ 상태 구성3×3 형태의 미로 환경은 다음과 같은 좌표로 정의된다.s0(0,0) s1(0,1) s2(0,2) s3(1,0) s4(1,..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.03.28

2. 강화학습의 기본 요소

🔹 환경 (Environment)강화학습에서 에이전트를 둘러싼 모든 외부 시스템을 의미하며, 문제를 해결하고자 하는 대상.환경은 두 가지 유형으로 구분됨:연속 공간: 현실 세계처럼 시간과 공간이 연속적임.이산 공간: 연속 공간을 그리드로 나누어 단순화한 공간. (예: 격자형 미로)보충: 같은 문제라도 공간을 나누는 방식에 따라 해결 난이도가 달라질 수 있음. 복잡한 문제를 쉽게 풀기 위해 환경을 최대한 단순화하는 것이 핵심.🔹 상태 (State, S)에이전트가 인식하는 현재 환경의 정보상태 집합 S: 모든 가능한 상태들의 모음s_t: 시간 t에서의 상태🔹 에이전트 (Agent)학습을 수행하는 주체 (로봇, 소프트웨어 등)환경과 상호작용하며 최적의 행동을 학습함🔹 행동 (Action, A)에이전트가..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.03.28

1. 인공지능이란?

🔹 인공지능이란?인공적으로 만든 지능을 의미하며,강인공지능(사람처럼 사고)과 약인공지능(특정 문제 해결 특화)으로 구분됨.주요 분야: 전문가 시스템, 데이터 마이닝, 패턴 인식, 로보틱스 등머신러닝은 인공지능의 하위 분야로, 이 책의 중심 주제🔹 머신러닝의 세 가지 유형1. 지도학습 (Supervised Learning)정답이 주어진 데이터(훈련 데이터, (입력, 정답) 쌍으로 구성됨)를 기반으로 학습목표: 새로운 입력에 대해 정답(출력)을 예측학습 후, 테스트 데이터를 이용해 분류·예측 수행예시 알고리즘: 선형회귀, 의사결정나무, 신경망 등2. 비지도학습 (Unsupervised Learning)정답 없이, 데이터 속에서 패턴과 구조를 스스로 발견입력만 존재하며, 분류나 군집 등을 수행대표 알고리즘..

독서/기초부터 시작하는 강화학습 신경망 알고리즘 2025.03.28

Git Tag: 검색, 비교, 생성, 지정, 교체, 삭제, 푸시

Git 태그: 특정 순간을 기록하는 라벨Git에서 태그(Tag)는 특정 커밋을 가리키는 라벨과 같습니다. 우리가 중요한 순간을 기억하기 위해 사진을 찍듯이, Git 태그는 코드의 특정 시점을 기록하는 역할을 합니다. 특히 소프트웨어 개발에서는 릴리스(Release) 버전을 나타내는 용도로 널리 사용됩니다.📌 Git 태그란?Git 태그는 브랜치 참조(Branch Reference) 와 비슷하지만, 결정적인 차이점이 있습니다. 브랜치 참조: 새로운 커밋이 추가되면 자동으로 이동 태그(Tag): 특정 커밋을 영구적으로 가리킴 (이동하지 않음) 예를 들어, 아래와 같은 Git 히스토리가 있다고 가정해 봅시다.o---o---o---o (main) ↑ v1.0.0여기서 v1.0.0 태..

강의/Git & Github 실무 활용 완벽 가이드 2025.03.12

Git Interactive Rebase: 히스토리 정리

Git Interactive Rebase란? – 히스토리를 정리하는 강력한 도구Git을 사용하다 보면 작업이 쌓이며 커밋이 많아지고, 때로는 불필요한 커밋이 섞이기도 합니다. "일단 커밋하고 보자"는 식으로 올린 미완성 커밋이나, 버그가 포함된 커밋, 혹은 너무 자잘하게 나눠진 커밋들을 한눈에 보기 쉽도록 정리하고 싶을 때가 있죠.이럴 때 유용한 Git의 강력한 기능이 바로 Interactive Rebase입니다. 기존의 커밋을 유지하는 것이 아니라, 커밋을 편집하고, 병합하고, 삭제하는 등 히스토리를 재구성할 수 있도록 도와주는 기능이죠.Rebase의 두 가지 활용법Git에서 rebase 명령어는 크게 두 가지 방식으로 활용됩니다.머지(merge) 대체용: 기존 브랜치의 커밋을 새로운 브랜치의 끝으로 ..

강의/Git & Github 실무 활용 완벽 가이드 2025.03.12

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

studylida

전체 글 222

티스토리툴바