논문 주제를 처음 연구 질문으로 말해본 날

오늘 랩미팅에서 처음으로 내 연구과제를 발표했다. 아직은 논문이라고 부르기보다 아이디어와 실험 방향을 설명한 수준에 가깝지만, 그래도 머릿속에서만 맴돌던 문제를 다른 사람 앞에서 문장으로 꺼내본 첫날이라는 점에서 의미가 크다.

올해 내가 붙잡고 가려는 문제는 비교적 분명하다. 무역 관련 뉴스에 들어 있는 정성적인 신호를 숫자로 바꿔서, 수입 데이터 기반 시계열 예측에 붙일 수 있을까 하는 질문이다. 지금은 “뉴스 기반 위험 점수를 외생변수처럼 쓸 수 있는가” 정도로 말하고 있지만, 나중에는 더 정교한 연구 질문으로 다듬게 될 것 같다.

현재 생각하고 있는 문제의식은 두 줄로 정리된다.

항목 지금의 생각
연구 문제 기존 무역 예측은 과거 수치 데이터에 너무 의존한다
연구 아이디어 뉴스 기사에서 읽히는 위험 맥락을 정량 지표로 바꿔 예측에 보탠다

요즘 초안 메모를 쓰면서 계속 떠올리는 문장은 이것이다. LLM이 매일 쏟아지는 무역 뉴스를 읽고 위험 점수를 만들 수 있는가, 그리고 그 점수가 실제 수입 충격을 더 빨리 포착하는 데 도움이 되는가. 지금은 이 질문이 논문 전체의 중심이 될 것 같다.

오늘 발표 슬라이드에는 전체 흐름도도 함께 넣었다. 아직 세부 구현은 비어 있는 부분이 많지만, 적어도 내가 이 연구를 어떤 파이프라인으로 풀어가려는지는 이 그림 한 장으로 설명할 수 있었다.

논문 초기 아키텍처 스케치

이번 달 교수님 미팅에서 받은 방향도 꽤 분명했다. 핵심은 “알람”이다. 실제 요소수 사태가 터진 뒤에 맞히는 건 의미가 약하고, 발생 직전 몇 주간 탐지가 되어야 한다는 말씀을 하셨다. 피팅 구간도 충격 이전까지만 두고, 이후에는 시간축을 따라 조금씩 이동시키며 다시 봐야 한다는 코멘트가 있었다.

정리해보면 오늘 시점에서 받은 숙제는 아래와 같다.

피드백 내가 해야 할 일
알람이 목적이다 단순 예측이 아니라 조기 탐지 문제로 다시 정리
요소수 이전까지 피팅 훈련·평가 구간을 더 엄격하게 나눌 것
중국 기사도 검토 뉴스 소스를 한국 기사에만 묶지 말 것
품목을 더 정확히 짚어라 일반 뉴스가 아니라 요소수 관련 기사 중심으로 설계
모델을 넓혀봐라 DeepAR, NGBoost, LightGBMLSS 같은 모델도 검토

첫 랩미팅에서 들은 말 중 기억에 남는 건, 랩실의 다른 박사과정 연구자와 비슷한 주제를 다루고 있으니 정보를 교류하면 좋겠다는 이야기였다. 나 혼자만의 문제처럼 붙잡고 있었는데, 막상 말하고 나니 연구가 조금 더 실제 프로젝트처럼 느껴진다.

지금 단계의 연구 질문

아직 공식 문장으로 굳히진 않았지만, 머릿속 질문은 거의 이 형태다.

  1. 뉴스 기사에서 무역 위험 신호를 뽑아 정량 변수로 만들 수 있는가
  2. 그 변수를 기존 시계열 모델에 붙이면 예측이 더 좋아지는가
  3. 무엇보다 실제 충격 전에 알람처럼 쓸 수 있는가

결국 이 논문은 단순히 LLM을 써봤다는 이야기가 아니라, 수치 데이터만으로는 늦게 반응하는 문제를 뉴스 기반 신호로 얼마나 앞당길 수 있는지를 보게 될 것 같다.

오늘 이후 할 일

당장 해야 할 일은 뉴스 수집 범위를 더 구체화하고, 요소수 사태 이전과 이후를 나눠서 데이터를 다시 보는 것이다. 아직은 거칠지만, 그래도 오늘 처음으로 이 주제가 “연구 질문”처럼 들리기 시작했다.