Netflix verileri üzerinde TF-IDF algoritması ve Kosinüs benzerliği ile bir İçerik Öneri Sistemi Uygulaması


Gelemet Ö., Aydın H., Çetinkaya A.

AJIT-e: Bilişim Teknolojileri Online Dergisi, cilt.13, sa.48, ss.31-52, 2022 (Hakemli Dergi)

Özet

Günümüzde kullanıcılar dijital platformlarda kullanılan çevrimiçi içerik sitelerinde bulunan içeriklerde arama yapmak, bulmak ve bunları zaman ve mekan bağımsız olarak tüketmek istemektedirler. İnternet üzerinden yayın yapan bu platformlar arasında dünya çapında en yaygın olanlardan birisi de Netflix’tir. Bu çalışmanın amacı TF-IDF (term frequency–inverse document frequency) algoritması ve Kosinüs benzerliği ile Doğal Dil İşleme (NLP) ile Netflix kullanıcı verileri üzerinde bir içerik öneri sistemi uygulaması geliştirmektir. Bu bağlamda çalışmamızda yapılan analizler ile benzerlik yöntemleri ve uygun eşleşme verilerinin bulunması, böylelikle kullanıcılara kişisel bazda öneri yapılması hedeflenmiştir. Çalışma kapsamında hem Türkçe ve hem de diğer dillerdeki filmler ve diziler üzerinde farklı deneyler yapılmıştır. Yapılan deneyler neticesinde kosinüs benzerliği kullanılarak en yüksek benzerlik başarısı %91, en düşük benzerlik başarısı ise %43 olarak elde edilmiştir. Deneyler aynı veriler üzerinde TF-IDF algoritması ile yapıldığında ise başarı oranı %99 ile %80 arasında elde edilmiştir. Çalışma sonuçları, TF-IDF algoritması ile yapılan deneylerde, kosinüs benzerliği kullanılarak yapılan deneylere nazaran daha yüksek başarı oranının elde edildiğini ortaya koymaktadır. Çalışmamızın benzerlik yöntemleri ve uygun eşleşme verileri kullanılarak kişisel bazda öneri yapmayı hedefleyen içerik tabanlı öneri sistemi uygulamalarının geliştirilmesi bağlamında literatüre katkı sağlayacağı değerlendirilmektedir.

Today, users want to search, find and consume content on online content sites used on digital platforms, regardless of time and place. Among these platforms that broadcast over the internet, one of the most common worldwide is Netflix. The purpose of this study is to develop a content recommendation system application on Netflix user data with TF-IDF (term frequency–inverse document frequency) algorithm and Natural Language Processing (NLP) with Cosine similarity. In this context, it is aimed to find similarity methods and suitable matching data with the analyzes made in our study, thus making suggestions to the users on a personal basis. Within the scope of the study, different experiments were carried out on films and TV series in both Turkish and other languages. As a result of the experiments, using cosine similarity, the highest similarity success was 91% and the lowest similarity success was 43%. When the experiments were performed with the TF-IDF algorithm on the same data, the success rate was between 99% and 80%. The results of the study reveal that a higher success rate is obtained in the experiments performed with the TF-IDF algorithm compared to the experiments using cosine similarity. It is considered that our study will contribute to the literature in the context of developing content-based recommendation system applications that aim to make suggestions on a personal basis using similarity methods and appropriate matching data.