논문 ULR:https://www.dbpia.co.kr/pdf/pdfView.do?nodeId=NODE09414328&mark=0&useDate=&bookmarkCnt=1&ipRange=N&accessgl=Y&language=ko_KR

 

: 논문보기 - DBpia

비밀번호를 변경하신 지 90일 이상 지났습니다. 개인정보 보호를 위해 비밀번호를 변경해 주세요.

www.dbpia.co.kr

1. 서론

 개인화 추천시스템은 주로 협업 필터링과 내용 기반 필터링으로 나뉜다.

 협업 필터링 : 사용자 평가정보를 토대로 잠재 정보 추출, 유사한 사용자 평가를 반영하여 콘텐츠 추천

콜드 스타트 문제(평가이력이 얼마 없는 사용자 추천 불가)

초기평가자 문제(아무도 평가하지 않은 콘텐츠 추천 불가)

 내용기반 필터링: 콘텐츠 속성을 분석하여 콘텐츠 구분, 사용자 선호와 연결하여 추천

평가기반이 아닌 프로파일/정보분석 기반이므로, 콜드 스타트나 초기 평가자 문제에서 자유로움

과도한 특수화 문제(다양성이 상대적으로 제한된다.)

서로 다른 종류의 콘텐츠에 대한 추천이 힘들다.

2. 본론

 DataSet : IMDB, Mobielens

추천시스템은 데이터 수집, 전처리, 가공, 추천 과정으로 나누어진다. 데이터 수집과정은 생략하고 나머지 3가지 부분을 살펴보자.

전처리(Pre-processing)

 줄거리 : TF-IDF로 벡터화

-> TF-IDF로 전처리 하면 등장인물에 가중치가 높아서, BERT를 통해서 이름을 제거했다. 

 장르, 감독, 배우 : True/False 벡터화

 인지도 : 투표수/개봉기간으로 수치화

가공(Processing)

 가공 과정 부터는 추천의 런타임 과정에 포함된다.

 가공 과정에서는 전처리 과정에서 도출된 영화의 특징 벡터를 토대로 사용자의 선호 벡터(U)를 만든다.

V=(영화의 특징벡터), R=(영화 선호도 평가벡터)

인지도의 경우 (V5,M)의 단순평균으로 계산

일반적으로 U는 희소행렬(벡터의 크기에 비해 값이 희박)을 띄는데, 이는 빠른 처리를 위한 것

추천(Analysis/Recommendation)

U(사용자 선호 벡터)와 V(영화 특징 벡터)의 코사인 유사도 테이블을 구하고, 정규화한 뒤 개인의 메타 가중치를 적용해서 추천 결과를 제공한다.

 

검증

CTR(Click Through Rate)와 유사하게 그림 2와 같은 검증 프로세스 사용

 

메타 가중치를 통한 학습

위의 검증 과정을 메타가중치를 적용하지 않더라도 유의미한 결가가 나왔다.

하지만 여기서 경사 하강법(Gradient decent)를 활용해서 메타가중치를 학습하면

(200번 반복)

loss값이 32%, 평균편차가 20% 개선되었다.

메타가중치의 활용 

메타가중치는 용도에따라 다른의도로 사용할 수 있다.

예를들어, 특일이나 기상에 관한 데이터를 메타 가중치에 결합해서 집단의 단위로 선호 벡터를 만들고 메타 가중치에 대한 학습을 진행한다면 결합 된 외부요인과 어울리는 영화를 추천할 수 있을 것이다.

3. 결론

 대부분의 경우에서 장르의 메타가중치가 낮게 학습되는 경향을 보였다. 이는 장르가 실제로 다른 메타 데이터들 보다 낮은 영향을 미친다거나, 사용자의 기록 형태가 이미 선호하는 장르의 영화가 많은 상태로 저장되어 있던가 할 것이다. 

논문 URL:https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09321282

 

1. 서론

뉴스 추천의 특징 

 - 실시간으로 생겨나는 기사를 모두 보여줄 수 없다.

 - 기사들간의 연관성이 높고, 사용자들의 선호도만 학습하는 것은 불충분하다.

 - 데이터 희소성(data sparsity problem) 문제가 심하다

 

이를 해결하기 위해서(이러한 특징을 고려해서) 해시태그를 이용하자.

 + 기존과 다르게 연관검색어태그, 이미지로부터 추출한 태그, 키워드 사용

 

선호 태그 추천방식은 협업필터링 방식 중에 절사형 SVD 추천 알고리즘 사용

 

태그를 추천함으로서 정보의 편향적 제공문제 해결

 

2. 관련연구

 협업필터링 방식 - 사용자기반 필터링과 아이템 기반 필터링으로 나뉜다.

  - 사용자 기반 필터링

   유사한 성향을 지닌 사람들을 구분하고, 해당 사람들의 선호도를 기반으로 추천

  - 아이템 기반 필터링

   아이템간의 유사도를 이용해 추천하는 방식

 

 아마존의 케이스 - 명시적 평점, 암묵적인 펴점으로 구분해서 추천

 넷플릭스 케이스 - 사용자의 성향을 파악하여 시작페이지에 띄워줌

 페이스북 케이스 - 친구추천(새로운 분야이다)

 

 뉴스추천 서비스 케이스분석

 구글 - MinHash와 PLSI(Probabilistic Latent Semantic Indexing)을 통해서 사용자 집단 클러스트링, 아이템간의 상호방문을 이용해 개인화된 뉴스 추천시스템 구축 -> 클릭기록을 분석해 뉴스 관심사를 파악 -> 사용자와 아이템 갯수 증가에 따른 사용아이템 비율 감소 -> RNN모델로 해결 시도 -> 점진적 SVD사용

 

3. 텍스트와 이미지 데이터를 활용한 뉴스 기사 추천시스템

 

3-2 텍스트로부터 태그 추출

 TF-IDF 알고리즘을 이용해서 Text에서 중요 테그를 추출했다. + 연관검색어를 추가로 사용

3-3 이미지로부터 태그 추출

 Google Inception(GoogLeNet)을 사용해서 이미지의 태그 추출

3-4 사용자 추천 알고리즘

 SVD알고리즘을 이용해서 예측 평점이 높은 순으로 추천해준다.

(행렬은 userName X tagCount) 

(tageCount = 태그에 해당하는 글을 읽은 횟수)

 

4. 시스템 구현

Lexrankr는 요약서비스를 제공한다.

 

서비스가 제공되면서, 사용자의 기사 클리게 따라 데이터베이스(TagDB) 지수평균으로 갱신되는데, 이 알고리즘은 아래와 같다.

(알파는 지수평균의 가중치를 의미한다 - 이전데이터 반영률) 

5. 성능비교

 

+ Recent posts