여러분은 강화 학습이 무엇인지 아시나요?
강화 학습(Reinforcement Learning, RL이라고 부르기도 함)은 일련의 의사 결정을 통해 누적 보상을 최대로 만드는 방법을 학습하는 데이터 기반 기법입니다.
쉽게 말해, 인간과 동물이 시행착오를 통해 어떤 행동을 취할지 배우는 방식과 유사합니다. 오늘은 재고 관리 맥락에서 강화 학습을 사용하는 방법을 알아보겠습니다. 강화 학습은 총 재고 관리 비용을 최소화하는 최적의 주문 정책을 학습하는 데 사용할 수 있습니다.
재고 관리의 강화 학습?
제가 과거에 프로젝트 예시인 S전자의 재고 관리를 예로 들어보겠습니다. 우선 핸드폰 가게를 운영하고 있다고 가정해 보겠습니다. 매일 얼마나 많은 핸드폰을 공급 업체에 주문해야 할지 결정해야 합니다.
주문을 너무 많이 하면 보관 비용이 높아지고, 너무 적으면 잠재적인 판매 기회를 놓치게 됩니다. 이러한 상황에서 중요한 것은 최적의 주문 전략을 개발하여 이러한 문제를 균형 있게 해결하는 것입니다.
재고 관리는 다양한 산업에서 핵심적인 역할을 하며, 주기적으로 적정량의 제품을 주문하여 수익성을 극대화하는 것이 목표입니다.
왜 재고 관리에 강화 학습을 사용할까?
과거에는 이러한 문제는 동적 프로그래밍(DP)과 마르코프 결정 과정(MDP)을 통해 접근했습니다. 그러나 동적 계획법(DP) 접근법은 환경에 대한 완전한 모델(예: 수요의 확률 분포)을 필요로 합니다.
이는 항상 가능하거나 실용적이지 않을 수 있습니다. 반면 강화 학습(RL)은 이러한 어려움을 극복하며 ‘데이터 기반’ 접근법을 따라갑니다.
강화 학습의 목표는 데이터를 기반으로 에이전트가 최적의 정책(주문할 최적의 양)을 학습하는 것입니다. 특히 Q-러닝을 통해 최적의 재고 정책을 찾는 방법을 소개합니다.
재고 관리 문제를 어떻게 정의할까?
재고 관리 문제는 기본적으로 순차적인 의사 결정 문제입니다. 오늘 내린 결정이 내일의 결과와 선택 가능성에 영향을 미칩니다. 이 문제의 핵심 요소를 분석해봅시다.
- 상태(State): 현재의 재고 상황을 나타내며, 두 가지 주요 요소로 정의됩니다. (α: 재고에 있는 핸드폰 수, β: 주문했지만 아직 도착하지 않은 핸드폰 수)
- 불확실성(Uncertainty): 매일의 핸드폰 수요는 랜덤하며, 정확히 예측하기 어렵습니다.
- 결정(Decisions): 매일 몇 대의 핸드폰을 주문할 것인지 결정해야 합니다.
사례를 통한 Q-러닝 구현
Q-러닝은 모델 프리 강화 학습 알고리즘으로, 환경과의 상호작용을 통해 상태-액션 쌍에 대한 최적의 정책을 학습합니다.
핸드폰 가게의 경우, 에이전트는 주인, 환경은 고객의 수요가 됩니다. 여기서는 초기 Q 테이블 설정, Q-러닝 알고리즘을 통한 학습 과정을 설명합니다.
- Q 테이블 초기화: 초기 Q 테이블은 상태이상적으로 소량의 난수로 설정하여 탐험을 장려합니다.
- Q-러닝 업데이트: 이 알고리즘은 환경에서 얻은 보상을 기반으로 상태-액션 쌍을 업데이트합니다.
- 탐험과 활용: Q 테이블의 값을 최대화할 내역이 적은 경우 무작위로 접근할 탐험 기회를 부여합니다.
최적 정책 비교: Q-러닝 vs 단순 정책
Q-러닝을 통해 발견된 정책과 단순 ‘일정 수준까지 주문’ 정책을 비교합니다. 두 방법의 총 비용을 비교하여 Q-러닝 정책이 낮은 비용에 기여함을 확인할 수 있습니다.
이는 다양한 수준의 수요가 있을 때에도 강화 학습을 통한 학습이 더 효율적임을 보여줍니다.
결론 및 주요 발견
이 글에서는 강화 학습(Q-러닝)을 통해 재고 관리 문제를 최적화하는 방법에 대해 다뤘습니다. 특히, 환경의 모델에 대한 사전 지식 없이 데이터로부터 최적의 정책을 학습할 수 있다는 점에서 Q-러닝의 강점을 확인할 수 있었습니다.
최적 정책을 학습하기 위해 과거 데이터를 활용하거나 실제 환경과 상호작용할 수 있는 유연성을 가지고 있어, 이를 활용한 데이터 기반 의사 결정을 내리는 데 매우 적합합니다.
이 사례 연구를 통해 강화 학습을 활용한 실용적인 문제 해결 가능성을 확인할 수 있었습니다. 여러분이 직접 Python으로 이러한 학습 프레임워크를 개발해볼 수 있는 좋은 기회가 되었기를 바랍니다!