Reinforcement Learning
-강화학습 이해를 위한 기초 지식-
-강화학습 이해를 위한 기초 지식-
☑️강화학습의 기본 개념
원리:에이전트(Agent)가 환경(Environment)과 상호작용하며 보상(Reward)**을 통해 최적의 행동을 학습
목표: 장기적인 누적 보상(cumulative reward)을 최대화하는 정책(policy) 학습
기본 수학적 모델: 마르코프 결정 과정(MDP)으로 표현됨
☑️강화학습의 연구 흐름
☑️최근 연구 흐름 (2020 - )
심층 강화학습(DRL): 딥러닝과 RL의 결합으로 고차원 입력 처리 가능
정책 최적화 기법: PPO, A3C, SAC 등 안정성과 효율성 개선
모델 기반 강화학습: 환경 모델을 활용해 샘플 효율성 향상
멀티 에이전트 강화학습(MARL): 협력/경쟁 환경에서의 전략 학습
하이브리드 학습: 지도학습 + 강화학습 결합 (예: RLHF, RLVR)
☑️최근 연구 흐름 (2020 - )
심층 강화학습(DRL): 딥러닝과 RL의 결합으로 고차원 입력 처리 가능
정책 최적화 기법: PPO, A3C, SAC 등 안정성과 효율성 개선
모델 기반 강화학습: 환경 모델을 활용해 샘플 효율성 향상
멀티 에이전트 강화학습(MARL): 협력/경쟁 환경에서의 전략 학습
하이브리드 학습: 지도학습 + 강화학습 결합 (예: RLHF, RLVR)
☑️2025년 최신 동향
RLVR (Verifiable Rewards): 검증 가능한 보상 기반 강화학습으로 LLM의 추론 능력 향상
LLM + RL: 대규모 언어모델의 미세조정에 RL 활용 (예: DeepSeek-R1, Tülu 3
산업 적용 확대: 자율주행, 로봇공학, 헬스케어, 스마트시티 등 다양한 분야에서 RL 기반 시스템 도입
샘플 효율성 개선: 적은 데이터로도 학습 가능한 알고리즘 개발 (Meta-RL 등)
윤리적 고려: RL 시스템의 편향, 투명성, 안전성에 대한 연구 증가
☑️강화학습을 공부하다 보면 정책(Policy)라는 말이 나온다?
정책은 에이전트가 어떤 상황에서 어떤 행동을 할지를 결정하는 방법입니다.
즉, "이 상황에서는 이렇게 행동하자!" 라고 알려주는 규칙 또는 함수라고생각하면 됩니다. 다만, 각 정책마다 '결정'하는 방식이 다릅니다.
정책(Policy): 에이젼트가 행동을 선택하는 기준 | 예: 상태가 AI일 때 행동을 X 한다.
알고리즘(Algorithms): 정책을 학습하는 방법 | 예: PPO, A3C, SAC 같은 알고리즘은 좋은 정책을 찾기 위해 사용하는 도구
비유하여 생각하면, 정책은 '적이 가까우면 도망가고, 멀면 공격해'라고 규칙을 정해주는 것이라면, 알고리즘은 '정책에 근거하여 게임을 여러 번 해보면서 어떤 행동이 좋은지 배우는 방법'이라고생각하면 됩니다.
'결론은, 정책은 우리가 직접 사용하는 것이 아닌, 알고리즙이 만들어주는 결과물입니다.
우리는 PPO, A3C, SAC와 같은 알고리즘을 사용하고, 이 알고리즘 들이 좋은 정책을 찾아줍니다.'
☑️강화학습 커리 큘럼 연구
☑️강화학습관련 강의 자료
2022학년도 고려대 컴퓨터 사이언스 학과 학부 연구생 '한지상님'의 강화학습 기초 발표 자료 입니다.
해당 강의 PPT 링크는 지상님의 동의를 얻고 업로드 합니다.
'Peace be with you.'
by Learnmore'