Skip to content

kimkyeonghun/finance-NLP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 

Repository files navigation

What is Finance-NLP?

Text 데이터는 금융 분야에서 시계열 데이터만큼 중요하게 사용될 수 있다. 주식을 구매하고자 할 때, 뉴스를 읽고서 결정하기 때문이다. 과거에는 Text 데이터들도 사람이 수동으로 관리할 수 있는 양과 변동성이었지만, 최근 성장으로 인해 더 이상 불가능하게 되었다. 최근 NLP의 발전은 이러한 문제를 해결할 수 있도록 도와주고 있고, 전문가들이 다양한 판단을 할 수 있도록 도움을 주고 있다. 현재 혹은 앞으로 Finance-NLP가 활용될 수 있는 분야는 다음과 같다.

  1. Market Analysis
    • classification / clustering 기법을 활용하여 market을 분석할 때 사용 가능
    • Micro(Stock Price Prediction) / Macro(Market Movement)와 같은 방법으로 활용
  2. Risk Management
    • classification과 같은 방법을 사용하여 사기 혹은 자금 세탁등을 탐지할 수 있음
  3. Finance Sentiment Analysis
    • 일반적인 Sentiment Analysis와는 다르게 금융 Sentiment Analysis는 시장이 뉴스에 어떤 반응을 보일지, 주가가 하락할지 상승할지 등을 살펴보는 것이 목적이다.
      • CEO가 사임했다는 뉴스는 보통 부정적인 감정을 가질 확률이 높고, 주가에 부정적인 영향을 미칠 것이다.
      • 하지만 CEO가 실적이 좋지 않았다면, 사임 소식은 긍정적인 영향을 줄 것
  4. Asset or Portfolio Management
    • 비정형 문서를 NLP로 분석하여 자산 및 포트폴리오 선택을 최적화할 수 있음
      • internal: 내부 문서를 활용
      • external: 트위터와 같은 외부 문서 활용
  5. Customer Engagement
    • Question & Answering, Dialog, Chatbot과 같이 고객과 상호작용하는 분야

Finance-NLP Papers

Market Analysis

Risk Management

Sentiment Analysis

Pre-trained Model(PLM)

  • (ACL 2022) Buy Tesla, Sell Ford: Assessing Implicit Stock Market Preference in Pre-trained Language Models
    • 언어 모델은 streotype을 가지고 있고, 이는 FinBERT에서도 발견
      • 대부분 시장 상황을 긍정적으로 보고 있으며, 일부 종목들에 대해서는 완전 부정적으로 판단
    • 편향된 LM 모델로 추론을 진행하면 틀린 결론을 얻을 수 있음
      • positive가 많기 때문에, 부적절한 종목에 대해 buy라고 할 수 있음
    • 논문에서는 데이터셋을 잘 정제할 필요성에 대해 언급하고 있으며, 실험 결과를 보면 엄청 심각해 보이지는 않음
  • (SIGIR 2022) Structure and Semantics Preserving Document Representations
    • document representation을 만드는 방법론
    • 기존 negative sampling으로 표현되는 triplet loss에 추가적으로 "구조적으로" 유사한가? 라는 loss를 추가하여 Quintuplet loss를 구축하여 학습

Customer Engagement

Forex(Exchange Rate)

Relation Extraction

Fi-NER

Few-shot NER

Few-shot NER은 데이터 부족 및 entity가 꾸준하게 변하는 문제를 해결하기 위해 연구되는 분야.
Finance domain은 아니지만, Few-shot NER이 small sample domain에 적용할 수 있고, Finance data가 이에 해당하기 때문에 작성

Finance-NLP dataset & Corpus

  1. Semeval 2017 Task 5

  2. Will-They-Won't-They(2020)

  3. Daily News Title dataset

  4. FiQA 2018 dataset

    • https://sites.google.com/view/fiqa/home
    • WWW 2018에서 Financial Opinion Mining and Questing Answering Open Challenge를 개최하며 데이터셋을 공개
    • Aspect-based financial sentiment analysis, Opinion-based QA over financial에 해당하는 데이터셋 있음
  5. SEC-BERT 및 Edger corpus

  6. Finance Numeric Entity dataset(Fi-NER 139)

  7. 한글 wikipedia model 및 dataset(사라짐)

  8. 금융 관련 데이터 API

  9. Financial Earning Conference Calls (ECCs)

  10. ESG 관련 데이터

  11. Aspect-Based Sentimetn Analyis

  12. 국내 News 데이터

  13. 나무 위키 데이터

  14. 머니스테이션

    • stocktwiw의 국내 버전으로 보임
    • 국내 유동성의 문제? 혹은 아직 유명하지 않은 문제로 인해 피드가 많지는 않음
    • 종목, sentiment가 각 피드에 태깅되어 있음
    • https://www.moneystation.net/main
  15. Financial News Headlines

  16. KorFin-ABSA

  17. Financial News Topic

  18. Twit sentiment

  19. FLANG

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published