- 사용자의 만족이 높은 패션 코디네이션 서비스를 구축하고자 한다.
-
사용자가 코디하고 싶은 아이템 여러벌을 웹서비스에 업로드 하면, 좋은 코디네이션 순으로 패션을 추천해주는 서비스를 구축하고자 한다.
-
"좋은" 코디네이션은 어떻게 판별할까
-
패션에 대한 호응도가, 패션을 정량화 할 수 있는 가장 적합한 지표라고 판단하였다.
-
그러기에 호응도를 판별할 수 있는 지표를 설정하고, 그 지표를 inference 하는 모델을 구축하는 것을 목표로 삼았다.
- Idea: 무신사 홈페이지의 코디맵 데이터를 이용
- 코디맵 홈페이지 : https://www.musinsa.com/app/codimap/lists
- 코디맵이란? 전문 스타일리스트가 제안하는, 무신사 스토어 상품으로 구성된 코디셋
- 조회수를 , 호응도를 판별할 수 있는 groundTruth 로 잡고, 코디맵을 구성하는 아이템을 인풋 아이템으로 정의하였다.
- 크롤링한 조회수를 dataframe 에 삽입할 수 있게끔 정리하는 노트북 ->refined_data 라는 int형의 clean_view 데이터가 포함된csv file 을 만들었다.
- 데이터의 분포도를 통해 편향이 있다고 판단, log 값을 씌워 정규분포에 가깝게 전환하는 작업을 진행하였다.
- 조회수가 지표로서 역할을 하려면, 크롤링할 데이터 양을 얼만큼 정해야하는지를 판단하는 것이 중요하다. -> 조회수 변동 비교를 통해 판단
- 라벨링한 데이터와 4-1에서 얻은 clean-view 와 4-2 에서 얻은 log-view 를 main 노트북(MultiCNN_MU_Dataset) 에서 쓸 수 있게끔 csv 최종저장
- 결측지 (NaN) 제거 작업
- 데이터셋 정의
- 모델 정의
- 학습