본문 바로가기

Optuna2

#11 [모듈1-5] SNR 개선 - 뉴스 관련성 필터링 데이터 분석 뉴스 관련성 필터링 — 신호 대 잡음비(SNR) 개선 무관한 뉴스를 걸러내는 Phase 6B 설계 News Collect → Phase 4 Sentiment → Phase 6A Sector → Phase 6B Refinement → ML Signal 이 글은 AI_Finance(ALCHEMETRIC) 프로젝트의 뉴스 센티먼트 피처에서 신호 대 잡음비(Signal-to-Noise Ratio)를 개선하기 위해 도입한 Phase 6B 뉴스 관련성 필터링을 다룹니다. 네이버 뉴스 API에서 종목명으로 검색하면 직접 관련 기사와 간접 언급 기사가 뒤섞여 들어오는데, 이 노이즈를 걸러내는 것이 핵심입니다. 수동 라벨링이나 복잡한 NER 없이, "제목에 종목명이 포함되어 있는가".. 2026. 3. 4.
#10 [모듈1-4] 종목 뉴스 vs 시장 뉴스 분리 전략 데이터 분석 종목 뉴스 vs 시장 뉴스 분리 전략 뉴스 소스 분리로 피처 품질 높이기 Data Collect → News Separation → NLP Sentiment → Feature Eng. → ML Signal 이 문서는 AI_Finance(ALCHEMETRIC) 프로젝트의 뉴스 센티먼트 파이프라인에서 종목 뉴스와 시장 뉴스를 분리하는 전략을 다룹니다. "삼성전자 실적 호조"와 "코스피 폭락"은 동일한 뉴스 센티먼트 점수를 가질 수 있지만, ML 모델이 학습해야 하는 시그널은 근본적으로 다릅니다. 이 분리 전략이 왜 필요하고, 어떻게 수집→저장→피처 단계에서 일관되게 구현되는지를 정리합니다. 목차 문제 정의 — 왜 분리해야 하는가 분리 .. 2026. 2. 26.