Reinforcement with Makecode Program
-강화학습을 이해하기 위한 수업 프로그램 개발: 게임을 설계하고, 알고리즘 실행까지-
공동 연구자: 이상민, 이은지, 김홍순
-강화학습을 이해하기 위한 수업 프로그램 개발: 게임을 설계하고, 알고리즘 실행까지-
공동 연구자: 이상민, 이은지, 김홍순
1️⃣강화학습 교육 프로그램의 개발 목적(Why)
학생들은 단순히 개념을 배우는 것이 아니라,
상태–행동–보상–정책으로 구성되는 강화학습 시스템을 직접 설계→구현→학습→성찰하는 전체 과정을 경험합니다.
문서 전체는 학생들이
“AI 성능 = 알고리즘 + 설계 선택(환경·보상·상태·행동)”
임을 깨닫도록 단계적으로 구조화되어 있습니다.
모든 차시는 하나의 핵심 문제에 수렴합니다:
“에이전트가 장애물을 안정적으로 회피하도록 만들기 위해 무엇을 어떻게 설계해야 하는가?”
학생들은 이 문제를 5차시에 걸쳐 탐구 → 설계 → 개발 → 실험 → 성찰 구조로 해결합니다.
2️⃣강화학습 프로그램의 설계 방향(How)
전 5차시는 다음과 같은 구조로 설계되어 있습니다:
1차시 – 문제 제기 및 개념 이해
인간 vs AI 비교
강화학습 요소(에이전트·보상·상태·행동)를 개념적으로 학습
2차시 – 탐구 및 설계
상태/보상/행동을 팀별로 설계
프레임 스택, 관측정보의 의미 탐구
설계가 AI 성능의 핵심임을 인지
3차시 – 환경 개발
MakeCode Arcade로 강화학습 가능한 게임 구조 구현
난이도와 디버깅 요소 통제
4차시 – 강화학습 실험 및 수정
직접 학습을 실행(train/test)
로그 분석을 기반으로 설계 개선점 도출
5차시 – 성찰 및 포트폴리오 작성
설계–실험–해석 과정을 체계적으로 정리
AI 학습 원리와 인간 학습 비교
결과보다 과정 중심 평가
문서 곳곳에서 과학적 탐구 절차가 강조됩니다:
상태·행동·보상 설계 시 “제약조건” 설정
난이도 요소 1개만 변경하는 변인 통제
학습 로그를 통한 근거 기반 결론 도출
“보상 해킹” 가능성 검토 등 AI 윤리·모델 거동 이해
이 과정은 단순 코딩 교육이 아니라 AI 시스템 설계자적 사고를 기르는 방향으로 설계되어 있습니다.
모든 성취 활동에는 팀 기반 과정이 포함되며:
2인 1조 팀 구성
설계 발표(60초 프레젠테이션)
상호 피드백
협업 내용 포트폴리오 포함
이는 **AI 교육 + 소프트 스킬(협업, 의사소통)**을 동시에 목표로 둔 구조입니다.
마지막 차시에 포트폴리오 요소를 6가지로 나누어 제시하며,
그 내용의 핵심은 AI 모델의 점수가 아니라 설계 의도와 해석 능력입니다.
이는 기술 수행이 아니라 비판적 사고·메타인지를 목표로 한 평가 설계입니다.
학생들은 AI를 “구경”하는 것이 아니라 실제로:
MakeCode Arcade 게임 개발
Python + VSCode 환경에서 강화학습 train/test
best_model.zip 분석 및 실행
학습 로그(episode, reward 변화 등) 분석
까지 경험합니다.
이는 “AI 리터러시 → AI 제작 경험 → AI 해석 능력”의 연속성을 반영한 설계입니다.
3️⃣연구 데이터 준비
1.사전검사
2.수업 중 사진
3.수업 녹화 및 관찰자 기록
4.학생 포트폴리오(오늘 양식 제작 예정-canva)
5.학습자 심층 인터뷰
6.사후검사
7.교수자 성찰일지
4️⃣
5️⃣
6️⃣
7️⃣