🔹 인공지능이란?
- 인공적으로 만든 지능을 의미하며,
강인공지능(사람처럼 사고)과 약인공지능(특정 문제 해결 특화)으로 구분됨. - 주요 분야: 전문가 시스템, 데이터 마이닝, 패턴 인식, 로보틱스 등
- 머신러닝은 인공지능의 하위 분야로, 이 책의 중심 주제
🔹 머신러닝의 세 가지 유형
1. 지도학습 (Supervised Learning)
- 정답이 주어진 데이터(훈련 데이터,
(입력, 정답)
쌍으로 구성됨)를 기반으로 학습 - 목표: 새로운 입력에 대해 정답(출력)을 예측
- 학습 후, 테스트 데이터를 이용해 분류·예측 수행
- 예시 알고리즘: 선형회귀, 의사결정나무, 신경망 등
2. 비지도학습 (Unsupervised Learning)
- 정답 없이, 데이터 속에서 패턴과 구조를 스스로 발견
- 입력만 존재하며, 분류나 군집 등을 수행
- 대표 알고리즘:
- 주성분 분석(PCA)
- K-평균(K-means)
- 자기조직화지도(Self-Organizing Map)
3. 강화학습 (Reinforcement Learning)
- 정답 대신 보상(Reward) 을 이용한 학습
- 시행착오를 통해 보상을 최대화하고 벌칙을 최소화하는 방향으로 행동 학습
- 보상 설계가 학습의 핵심
🔹 강화학습과 신경망의 만남
- 대표 알고리즘: Q-learning
- 상태-행동 쌍의 가치를 저장하는 Q-table 사용
- 작은 상태공간에서는 효과적이나, 큰 상태공간에서는 메모리 한계
➤ 문제 해결: 함수 근사(Function Approximation) 도입
- Q-table 대신 신경망(Neural Network) 으로 Q값 근사
- 오차역전파법(Backpropagation) 등장 → 신경망의 부흥
- 다양한 구조의 신경망:
- RBF 네트워크
- LVQ 네트워크 등
➤ 신경망의 한계
- 문제 규모가 커지면 네트워크가 깊어지고 경사소실(Vanishing Gradient) 발생
- 제프리 힌튼의 연구(Deep Belief Net)로 해결의 실마리를 찾음
- 이후 합성곱 신경망(CNN) 중심의 딥러닝이 본격적으로 도입
'독서 > 기초부터 시작하는 강화학습 신경망 알고리즘' 카테고리의 다른 글
4.1 정책 평가와 반복 정책 평가 (0) | 2025.03.31 |
---|---|
3.2 가치함수: 행동 가치 계산 (0) | 2025.03.31 |
3.1 가치함수: 상태 가치 계산 (0) | 2025.03.29 |
2.5 환경과 에이전트 준비 (0) | 2025.03.28 |
2. 강화학습의 기본 요소 (1) | 2025.03.28 |