Skip to content

funny1853/blog_review_classfication-1

 
 

Repository files navigation

블로그 리뷰 광고 분류 모델

데이터저장소: Datasets

<메인 UI>

1. 개요

프로젝트 목표 : 광고와 실제 리뷰룰 구별할 수 있는 모델 개발

조사 대상 : 네이버 블로그 중 ‘블루투스’ 내용을 포함한 포스팅

프로젝트 진행 기간 : 2020. 10. 06 ~ 2020. 10. 23

작업 환경

  • 개발 언어 : Python 3.X
  • 개발 도구 : Colab, Jupyter Notebook, Pycharm, Anaconda3
  • 사용 패키지 : pandas, re, selenium, numpy, konlpy, okt, matplotlib, seaborn, pickle, Pyqt5, tensorflow.keras, sklearn, time

2. 주제 선정 이유

오늘날 다수의 사람들이 SNS를 이용하는 만큼 SNS 광고도 증가하는 추세. SNS 매체 중 하나인 블로그의 경우 주로 리뷰 형식을 통해 소통함 그러나 블로그 역시 언제부턴가 실제 리뷰가 아닌 리뷰 형식의 광고 글이 많아졌음. 이에 광고가 아닌 실제 리뷰만을 보고 싶은 취지에서 본 프로젝트의 주제를 ‘블로그 리뷰 광고 분류 모델 생성’으로 선정

3. 프로젝트 진행 과정

(1) 임시 분류 기준 선정

다음과 같은 기준에 해당하는 경우, 실제 리뷰로 판단

임시 분류 기준 표
구매 후기 포스팅 중 비슷한 제품이 3개 이하 인 경우
구매 후기 포스팅 개수가 20개 미만인 경우
댓글이 20개 미만인 경우
하루에 작성한 게시글 수가 4개 미만인 경우

(2) 광고 및 실제 리뷰 데이터 표본 수집

블로그에서 광고 리뷰 및 실제 리뷰로 간주될 수 있는 리뷰를 각각 수집

  • 광고 리뷰의 경우 '소정의 원고료를 받았습니다' 와 같은 문장이 포함되어 있으면 광고 글로 간주
  • 실제 리뷰의 경우 '내돈내산', '내돈주고', '솔직 리뷰' 와 같은 키워드가 포함되어 있으면 실제 리뷰로 간주

각 리뷰 데이터 150 개 Word2Vec 비교

광고 리뷰의 Word2Vec 실제 리뷰의 Word2Vec

(3) 전처리 및 상관 관계 분석

<리뷰에 사용된 글자 수 비교>

<블로그 하단 태그 개수 비교>

(4) 모델 설계

  • LSTM 모델과 DNN 모델을 결합.
  • LSTM 모델에 형태소 단위로 구성된 문장을 input 값으로 주고, 나온 출력값을 DNN 모델에 input 값으로 줌

4. 결론 및 한계

(1) 모델 accuracy

LSTM 모델 DNN 모델

약 98 %의 정확도를 나타냄

(2) 의의 및 한계점

  • 해당 모델은 약 98.5%라는 높은 정확도를 기록
  • 모델을 어플리케이션 형태로 구현하여 키워드 검색을 통한 모델의 실제 리뷰 추정 링크 출력기능을 통해 모델의 편의성을 향상시켰다는 점에서 의의가 있음.
  • 수집한 데이터 개수의 표본이 1,000개로 적은 편에 해당. 그러나 이는 실제 리뷰와 광고를 구별할 수 있는 명확한 기준이 부재한 것에 기인함.
  • 해당 모델을 구동하는 데 많은 GPU가 사용된다는 점 역시 한계점 -> 이에 좀 더 경량화 된 모델이 개발될 필요가 있음

(3) 향후 계획

본 프로젝트는 데이터 범위를 블루투스 관련 제품으로 한정해서 진행하였음. 이에 블루투스 제품 외에도 다른 상품 리뷰 및 맛집 리뷰 등 데이터 범위를 확장해서 진행한다면 상용화도 가능하다고 생각. 이는 본 프로젝트가 앞으로 나아가야 할 방향이며 향후에 많은 소비자들이 SNS 상에서 투명한 정보를 수집하는 데 있어 본 프로젝트가 도움이 되었으면 하는 바람

About

'I DEER' Team Project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 79.9%
  • Python 20.1%