AI 기반 추천시스템의 진화와 한계, 전망

반응형

 

AI 와 추천시스템의 진화

 

우리가 데이터와 선택의 바다에 둘러싸여 있기에, 추천 시스템의 진화는 우리의 디지털 일상 생활에 필연적으로 가꺼이 자리 잡았습니다. 추천 시스템은 사용자의 선호도나 아이템에 대한 등급을 예측하도록 설계된 정보 필터링 시스템에 해당하며, 이러한 시스템은 사용자가 좋아할 만한 것을 기반으로 쉽게 아이템이나 제품을 찾을 수 있도록 도와 전자 상거래, 온라인 스트리밍 또는 소셜 미디어 플랫폼과 같은 응용 프로그램에서 중요한 역할을 합니다. 모든 추천 시스템의 주요 목표는 두 가지입니다. 다양한 사용자 관심사를 고려할 때 효율적으로(그리고 효과적으로) 대응할 수 있도록 적응하고 진화하는 것입니다. 추천은 온라인 쇼핑과 관련된 애플리케이션이나 개별 사용자의 관심을 끌 수 있는 것을 기반으로 추천이 시작되는 소셜 미디어 뉴스 플랫폼을 포함한 다양한 응용 프로그램을 통해 사용자가 선호하는 콘텐츠를 쉽게 접하기를 희망하며, 이렇듯 추천시스템은 늘 우리 주변에 있습니다.

 

 

인공지능 기술과 추천시스템

 

 

 

추천 시스템 분야에서 널리 사용되는 기술 중 하나는 협업 필터링(CF)입니다. 사용자 기반과 항목 기반 추천 방식은 협업 필터링의 두 가지 주요 분야입니다. 전자는 대상 사용자와 유사한 사용자를 찾는 반면 후자는 특정 사용자가 과거에 선호했던 항목과 유사한 항목을 찾습니다. 사용자 기반 CF의 경우 코사인 유사성 또는 피어슨 상관 관계와 같은 메트릭을 기반으로 결정된 비슷한 생각을 가진 사용자가 관심을 보인 항목을 추천합니다. 반대로 항목 기반 CF는 코사인 유사성 또는 피어슨 상관 관계와 같은 메트릭을 사용하여 항목 유사성을 계산합니다. 콘텐츠 기반 필터링이라고 하는 접근 방식이 있습니다. 이는 사용자의 프로필과 일치하는 항목을 추천하는 것을 포함하며, 항목 자체의 특성과 사용자의 선호도에 대한 이해를 기반으로 생성됩니다. 프로필은 개인이 과거에 좋아했던 항목의 속성을 기반으로 만들어집니다. 그러나 한 알고리즘의 단독으로 추천시스템을 사용되지는 않습니다.  현재의 추세는 두 방법론의 조합으로 기울고 있습니다. 협업 필터링과 콘텐츠 기반 필터링을 융합하는 접근 방식은 두 기법 모두에서 최상의 특성을 선택하고 다양하게 구현할 수 있습니다. 한 가지 일반적인 방법은 한 가지 방법을 사용하여 다른 방법을 안내하거나 두 가지 방법에서 예측을 병합하는 것입니다.

 

용자-항목 상호 작용 행렬은 일반적으로 행렬 인수분해를 통해 사용자와 항목에 대한 잠재 요인을 나타내는 저차원 행렬로 분해되는데, 이는 사용자-항목 상호 작용을 통해 관찰된 숨겨진 요인을 드러내는 접근 방식입니다. 또 다른 행렬 인수분해 기술은 사용자-항목 행렬을 U(사용자 요인), σ(단수 값), V(항목 요인)의 세 가지 행렬로 분해하는 기술로 선택된 특이값 분해(SVD)입니다. 이 기술은 고정된 사용자 요인과 항목 요인을 사용하여 사용자-항목 행렬을 재구성할 때 발생하는 오류를 최소화합니다. 이 접근 방식은 SVD와 다르지만 다른 방법이 사용하는 것과 달리 새로운 접근법을 사용하여 유사한 목표를 달성합니다. 또한, 딥 러닝을 응요하는 전략도 채택되는 추세입니다. 딥 러닝은 복잡한 패턴을 포착할 수 있어 추천 시스템에서 사용을 촉진하는 기능으로 인해 인기를 얻었습니다. 특히 신경망 협업 필터링의 혁신은 신경망을 사용하여 행렬 인수분해에 대한 대안적인 접근 방식을 채택하는데, 오래된 접근 방식의 행렬 인수분해를 사용하는 대신 사용자와 항목 간의 상호 작용을 모델링합니다. 또한 오토인코더는 학습 중에 감독이 필요 없는 알고리즘에 속하는 인공 신경망에 속하며, 명시적인 지침 없이 출력에서 입력을 복제하는 방법을 배우는 알고리즘 클래스에 속합니다.

 

 

추천시스템의 한계와 전망

 

비록 앞서 설명한 알고리즘들이 널리 채택되고 있지만, 추천 시스템은 이 알고리즘들의 효용성에 의문을 제기하는  많은 한계와 도전에 직면 중이기도 합니다. 대표적으로, 콜드 스타트 문제는 새로운 사용자나 아이템에 대한 적절한 데이터가 없기 때문에 발생합니다. 협업 필터링 방법은 사용자-아이템 상호작용에 크게 의존하기 때문에 새로운 사용자나 아이템에 대한 신뢰할 수 있는 추천을 도출하기가 어렵습니다. 이때는 내용 기반 필터링을 채택하거나, 다양한 데이터 채널을 통합한 하이브리드 방식을 구현하는 일이 대안으로 검토될 수 있습니다. 데이터 문제 자체를 해결하고자 한다면 사용자에게 동기를 부여하거나 설문조사를 실시하여 더 많은 양의 기본 정보를 확보하는 일도 가능합니다. 또한, 추천시스템을 위한 데이터 세트에서 사용자 수와 항목 수가 증가함에 따라 추천을 생성하기 위한 계산 복잡성이 증가합니다. 이때 엔지니어들은 현재 방대한 데이터 세트를 처리할 수 있는 행렬 인수분해 방법을 배치하고 있습니다. 병렬 처리뿐만 아니라 분산 컴퓨팅을 채택하는 일도 기업 입장에서 고려해볼만한 선택지입니다. 더 큰 문제는 데이터 희소성에서 발견되기도 합니다. 대부분의 경우 사용자-항목 상호 작용을 나타내는 행렬은 희소성을 나타내며, 이는 수많은 부재 항목을 의미합니다. 이러한 희소성의 존재는 추천 알고리즘의 성능 수준에 부정적인 영향을 미치는 경향이 있습니다. 행렬 인수분해를 사용하여 잠재 요인을 파악하거나, 적절한 기법을 사용하여 누락된 항목을 추론하는 방법이 현재는 인기를 끌고 있습니다. 사용자 또는 항목에 대한 추가 단서를 제공할 수 있는 기타 관련 정보를 피처로 포함하는 일도 많은 엔지니어가 채택하는 방법이지만 필요한 데이터를 가상의 데이터로 대체한다는 건 확실히 무리가 따르는 작업입니다.

 

특히 실무에서는 다양성과 정확성의 균형점을 찾는 일에 많은 전문가의 참여와 토론이 오가고 있습니다. 우리가 추천 다양성과 정확성 사이의 균형을 맞추려고 노력할 때, 그것은 종종 각기 다른 요소를 절충해야만 하는 딜레마로 나타납니다. 정확성 측면에만 우선순위를 두면 거의 비슷한 추천을 몇 번이고 제공할 수 있는데, 이는 흥미롭지 않은 단조로운 목록이 되기 쉽습니다. 그렇다고 하여, 다양성에 더 많은 관심을 기울이면 관련성이 떨어질 수 있습니다. 이상적인 이론으로는, 정확성과 함께 다양성 지표를 추천 알고리즘에 통합하는 것을 고려하여 사용자에게 개인화된 경험을 제공하는 계획을 세울 수는 있지만 역시 교과서적인 이야기에 불과할 수 있습니다. 특히 개인화된 추천시스템에서 사용자의 데이터를 추가적으로 확보하는 일이 실제 사용자에게는 개인의 프라이버시를 침해하는 것으로 간주될 수 있습니다. 하지만 다소 암울하게도... 이러한 문제를 해결하는 효과적인 솔루션은 아직 제시되지 않은 것으로 보입니다. 그렇다고 해서 추천시스템이 무용하다고 말하는 것은 아닙니다. 최근 추천시스템은 디지털 콘텐츠와 제품을 다루는 방식을 완전히 바꾸어 놓았고, 이를 통해 제품을 개인화함으로써 경험을 크게 향상시켰습니다. 협업 필터링, 콘텐츠 기반 필터링, 행렬 인수분해 및 딥러닝 기술과 같은 여러 알고리즘이 강력한 해결책을 제공하지만, 이는 그 자체의 한계와 과제와 관련이 있습니다. 다양성과 정확성 사이의 갈등을 해결하고 콜드 스타트 문제, 희소성 및 개인정보 보호 문제와 같은 문제를 제거하는 것은 품질과 사용자 지향에서 성공적인 추천 시스템을 구축하는 데 필수적입니다. 기술이 발전함에 따라 이러한 시스템은 지속적으로 개선되고 따라서 정교하고 정확한 추천을 생성할 수 있을 것으로 기대합니다. 

 

 

 

 

 

 

반응형