ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Offline RL으로 접근 가능하지만 결론은..!
    *NeuralDiffEqn/thought 2025. 8. 30. 18:58

    Offline RL을 공부하며 전개했던 아래의 생각과 의문점들이 맞았다. 

     

    Offline RL paper에서도 counterfactual inference의 필요성, 그리고 그를 위한 model-based approach의 필요성을 언급하고 있다.

     

    Neural CDE로 counterfactual inference를 한 paper의 접근법이 적절하다는 것이다! 

     

    (※ 참고로, 동일한 MIMIC III dataset으로 offline RL 방식으로 접근한 (q-learning, actor-critic) paper들도 있다.)

    https://arxiv.org/pdf/1711.09602

    https://arxiv.org/pdf/1704.06300

    https://arxiv.org/pdf/1807.01473


    Neural CDE로 counterfactual scenario를 modeling한 것은,

     

    Offline RL formulation으로 partially observable MDP를 solve한 것으로도 볼 수 있다.

     

    medical domain에서 patient의 state에 따라 treatment에 대한 sequential decision making을 할 때

    online learning을 할 수가 없다.

    (환자에게 이런 저런 action (treatment)를 취하여서 환자 상태 (state)가 어떻게 변하는 지를 보며 active하게 data를 gathering하여 policy update를 한다는 건 불가능하다)

     

    따라서 Offline RL로 접근하여야 한다. 

     

    이때 RL Agent는 patient의 history data를 통해 학습하고 (action은 physician에 의해 select됨)

    optimal policy를 구하고

    real environment에서 optimal decision을 내려야한다.

     

    Offline RL에서도 Model-based / Model-free 가 모두 존재한다.

     

    여기서 중요한 포인트는!

    Offline RL로 formalize하더라도 Model (dynamics)을 explicit하게 찾는 (Model-based approach) 것이 필요하다는 것이다.

     

    왜냐하면 counterfactual query에 대한 answer를 하지 못한다면, dataset에서 본 action과 다른 action을 통해 exploration을 하고, 더 나은 optimal policy를 찾는 것이 불가능하기 때문이다. 

     


    offline RL을 공부하며 중요한 차이점을 발견했는데,

     

    Offline RL에서는 out-of-distribution state 과 action을 최소화하여 generalization이 가능하도록 유도한다. 

     

    즉, dataset에서 보지 못한 action이나 state을 선택하는 것을 constrain한다. 

     

    counterfactual outcome을 estimate하는 causal inference와의 차이점이다.


    근데 난 여기서 

    Offline RL에 대한 근본적인 의구심이 드는데

    아무리 dataset이 엄청난 trajectory를 담고 있더라도, 거의 모든 가능한 action과 state에 대한 trajectory를 담고 있더라도

     

    RL이 의미가 있는 건, environment와의 interaction을 통해 active하게 experience를 gathering하고, update해나가는 건데, 그리고 update된 policy로 인해 data 또한 계속 distribution이 변해가는 건데

     

    static dataset을 통해 학습하고, policy가 dataset을 generate한 policy에서 벗어나지 않도록 (OOD) constrain하는 게 과연 meaningful 할까? 흠

     

    Neural CDE에서 내가 감탄했던 부분도, data stream에 따라 dynamics를 update할 수 있는 flexibility였잖아. 

    '*NeuralDiffEqn > thought' 카테고리의 다른 글

    Normalizing Flows  (0) 2025.08.12
    Reference  (0) 2025.08.10
    Patrick Kidger ♡  (0) 2025.08.10
    Interesting comparison between 3 Generative Time-series models  (0) 2025.08.07
    f-divergence, IPM, MMD-GAN, Wasserstein-GAN  (0) 2025.08.06
Designed by Tistory.