실험 구간을 다시 나누고 나서 질문이 달라졌다

요즘 실험을 다시 돌리면서 제일 크게 느끼는 건, 훈련 구간을 어떻게 나누느냐에 따라 결과가 완전히 달라진다는 점이다. 공급충격은 대개 짧은 기간 안에 벌어지는데, 충격 이후 정보까지 훈련에 섞으면 뉴스 신호와 가격 변화의 선후관계가 흐려진다.

훈련 구간을 충격이 본격화되기 전까지만 두고, 테스트는 그 이후를 보도록 다시 잘랐다. 이렇게 나누고 나니 예전보다 성능 개선 폭은 줄어들었다. 그런데 오히려 이쪽이 더 믿을 만하다는 느낌이 든다. 충격 이후 정보를 훈련에 섞지 않고도 뉴스 기반 외생변수가 어느 정도 도움을 주는지 볼 수 있기 때문이다.

지금 내가 붙잡고 있는 질문은 꽤 단순하다. 뉴스에서 읽히는 위험 신호를 수치로 만들었을 때, 그 값이 단가 급변보다 먼저 움직이는가. 단순히 그래프를 잘 따라가는 모델을 만드는 것보다 이 질문이 더 중요하다고 느낀다.

2월 말과 이번 주 회의에서 받은 코멘트도 거의 같은 방향이었다. 교수님은 데이터를 잘 맞추는 것만이 아니라 “경보를 언제 울릴 수 있느냐”를 더 생각해 보라고 하셨다. 듣고 보니 지금까지는 예측과 경보를 약간 섞어서 생각하고 있었다.

이번에 정리한 것

항목	현재 판단
훈련 구간	급등 이후를 넣지 말고, 충격 전까지만 잘라야 한다
모델 해석	성능 숫자보다 선행 신호가 있는지가 더 중요하다
다음 초점	false alarm을 너무 많이 내지 않는 경보 구조가 필요하다

훈련 구간을 다시 잘라보니, 예전에는 그냥 “조금 좋아졌다”로 읽히던 결과가 이제는 다르게 보인다. 개선 폭은 줄어들어도, 그 개선이 더 현실적인 조건에서 나온 것인지가 중요해졌다.

지금 남은 숙제

아직 뉴스 데이터를 어떻게 모으고, 어떤 문장을 위험 신호로 볼지에 대한 기준이 약하다. 결국 외생변수의 품질이 논문 전체를 좌우할 것 같다. 다음 단계는 모델을 더 늘리는 것보다 뉴스 수집과 점수화 방식을 먼저 다듬는 일이다.