최근 deepseek가 엄청나게 저렴한 비용으로 거대언어모델을 학습시켜 화제였다. 그 비결에 RL이 있었다고 한다. 항상 RL 관련 이야기가 나오면 피했지만, 이제 엔지니어에게 CV, NLP, RL의 경계가 있을까 싶기도 하다. 이런 생각을 가지던 차 같은 생활관에 있는 탁서윤 상병님이 자신이 가진 책을 꺼내 보여주었다. 2019년 초, RL을 공부하고자 처음 접했던 내용이 이 책의 저자가 촬영했던 팡요랩 비디오였다. 그땐 이해를 실패했던 내용을 이젠 이해할 수 있지 않을까 싶은 마음에 반갑기도 하고, 다시 이해해보고 싶은 마음이 들었다. 계산신경과학과도 재미있는 접점을 만들 수 있을 것 같은 강화학습의 기초를 배워 두어야겠다.