논문 URL:https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09321282

 

1. 서론

뉴스 추천의 특징 

 - 실시간으로 생겨나는 기사를 모두 보여줄 수 없다.

 - 기사들간의 연관성이 높고, 사용자들의 선호도만 학습하는 것은 불충분하다.

 - 데이터 희소성(data sparsity problem) 문제가 심하다

 

이를 해결하기 위해서(이러한 특징을 고려해서) 해시태그를 이용하자.

 + 기존과 다르게 연관검색어태그, 이미지로부터 추출한 태그, 키워드 사용

 

선호 태그 추천방식은 협업필터링 방식 중에 절사형 SVD 추천 알고리즘 사용

 

태그를 추천함으로서 정보의 편향적 제공문제 해결

 

2. 관련연구

 협업필터링 방식 - 사용자기반 필터링과 아이템 기반 필터링으로 나뉜다.

  - 사용자 기반 필터링

   유사한 성향을 지닌 사람들을 구분하고, 해당 사람들의 선호도를 기반으로 추천

  - 아이템 기반 필터링

   아이템간의 유사도를 이용해 추천하는 방식

 

 아마존의 케이스 - 명시적 평점, 암묵적인 펴점으로 구분해서 추천

 넷플릭스 케이스 - 사용자의 성향을 파악하여 시작페이지에 띄워줌

 페이스북 케이스 - 친구추천(새로운 분야이다)

 

 뉴스추천 서비스 케이스분석

 구글 - MinHash와 PLSI(Probabilistic Latent Semantic Indexing)을 통해서 사용자 집단 클러스트링, 아이템간의 상호방문을 이용해 개인화된 뉴스 추천시스템 구축 -> 클릭기록을 분석해 뉴스 관심사를 파악 -> 사용자와 아이템 갯수 증가에 따른 사용아이템 비율 감소 -> RNN모델로 해결 시도 -> 점진적 SVD사용

 

3. 텍스트와 이미지 데이터를 활용한 뉴스 기사 추천시스템

 

3-2 텍스트로부터 태그 추출

 TF-IDF 알고리즘을 이용해서 Text에서 중요 테그를 추출했다. + 연관검색어를 추가로 사용

3-3 이미지로부터 태그 추출

 Google Inception(GoogLeNet)을 사용해서 이미지의 태그 추출

3-4 사용자 추천 알고리즘

 SVD알고리즘을 이용해서 예측 평점이 높은 순으로 추천해준다.

(행렬은 userName X tagCount) 

(tageCount = 태그에 해당하는 글을 읽은 횟수)

 

4. 시스템 구현

Lexrankr는 요약서비스를 제공한다.

 

서비스가 제공되면서, 사용자의 기사 클리게 따라 데이터베이스(TagDB) 지수평균으로 갱신되는데, 이 알고리즘은 아래와 같다.

(알파는 지수평균의 가중치를 의미한다 - 이전데이터 반영률) 

5. 성능비교

 

+ Recent posts