💡 Double Q-learning과 Actor-Critic 정리1. Q-learning의 한계: 과대 추정 문제기존 Q-learning은 타깃 업데이트에 maxₐ′ Q(s′, a′)를 사용함.→ 이는 가치가 과대 추정(overestimation)될 수 있음.→ 이를 해결하기 위한 방법이 Double Q-learning임.2. Double Q-learning핵심 아이디어두 개의 Q함수 Q₁, Q₂를 사용한 쪽은 행동 선택에, 다른 한 쪽은 가치 평가에 사용각 스텝마다 Q₁ 또는 Q₂ 중 하나만 업데이트함알고리즘 구조모든 s∈S, a∈A(s)에 대해 초기화: Q_1(s,a), Q_2(s,a) ← 임의의 값 Q_1(terminal, a) = Q_2(terminal, a) = 0각 에피소드에 대해..