: 논문보기 - DBpia
비밀번호를 변경하신 지 90일 이상 지났습니다. 개인정보 보호를 위해 비밀번호를 변경해 주세요.
www.dbpia.co.kr
1. 서론
개인화 추천시스템은 주로 협업 필터링과 내용 기반 필터링으로 나뉜다.
협업 필터링 : 사용자 평가정보를 토대로 잠재 정보 추출, 유사한 사용자 평가를 반영하여 콘텐츠 추천
콜드 스타트 문제(평가이력이 얼마 없는 사용자 추천 불가)
초기평가자 문제(아무도 평가하지 않은 콘텐츠 추천 불가)
내용기반 필터링: 콘텐츠 속성을 분석하여 콘텐츠 구분, 사용자 선호와 연결하여 추천
평가기반이 아닌 프로파일/정보분석 기반이므로, 콜드 스타트나 초기 평가자 문제에서 자유로움
과도한 특수화 문제(다양성이 상대적으로 제한된다.)
서로 다른 종류의 콘텐츠에 대한 추천이 힘들다.
2. 본론
DataSet : IMDB, Mobielens
추천시스템은 데이터 수집, 전처리, 가공, 추천 과정으로 나누어진다. 데이터 수집과정은 생략하고 나머지 3가지 부분을 살펴보자.
전처리(Pre-processing)
줄거리 : TF-IDF로 벡터화
-> TF-IDF로 전처리 하면 등장인물에 가중치가 높아서, BERT를 통해서 이름을 제거했다.
장르, 감독, 배우 : True/False 벡터화
인지도 : 투표수/개봉기간으로 수치화
가공(Processing)
가공 과정 부터는 추천의 런타임 과정에 포함된다.
가공 과정에서는 전처리 과정에서 도출된 영화의 특징 벡터를 토대로 사용자의 선호 벡터(U)를 만든다.
V=(영화의 특징벡터), R=(영화 선호도 평가벡터)
인지도의 경우 (V5,M)의 단순평균으로 계산
일반적으로 U는 희소행렬(벡터의 크기에 비해 값이 희박)을 띄는데, 이는 빠른 처리를 위한 것
추천(Analysis/Recommendation)
U(사용자 선호 벡터)와 V(영화 특징 벡터)의 코사인 유사도 테이블을 구하고, 정규화한 뒤 개인의 메타 가중치를 적용해서 추천 결과를 제공한다.
검증
CTR(Click Through Rate)와 유사하게 그림 2와 같은 검증 프로세스 사용
메타 가중치를 통한 학습
위의 검증 과정을 메타가중치를 적용하지 않더라도 유의미한 결가가 나왔다.
하지만 여기서 경사 하강법(Gradient decent)를 활용해서 메타가중치를 학습하면
(200번 반복)
loss값이 32%, 평균편차가 20% 개선되었다.
메타가중치의 활용
메타가중치는 용도에따라 다른의도로 사용할 수 있다.
예를들어, 특일이나 기상에 관한 데이터를 메타 가중치에 결합해서 집단의 단위로 선호 벡터를 만들고 메타 가중치에 대한 학습을 진행한다면 결합 된 외부요인과 어울리는 영화를 추천할 수 있을 것이다.
3. 결론
대부분의 경우에서 장르의 메타가중치가 낮게 학습되는 경향을 보였다. 이는 장르가 실제로 다른 메타 데이터들 보다 낮은 영향을 미친다거나, 사용자의 기록 형태가 이미 선호하는 장르의 영화가 많은 상태로 저장되어 있던가 할 것이다.
'논문리뷰' 카테고리의 다른 글
[논문리뷰] 텍스트와 이미지 태그 데이터에 기반한 뉴스기사 추천시스템 (0) | 2021.11.11 |
---|