Tez Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği, Türkiye
Tez Danışmanı: Dr. Öğr. Üyesi Metin Turan
Tezin Onay Tarihi: 2019
Tezin Dili: Türkçe
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Özet:
Dil sözlüğü alanındaki çalışmalar, otomatik sözlük oluşturma konusuna yoğunlaşmış durumdadır. Bu makalede başlangıç olarak verilen bir İngilizce doküman referans alınarak, makale konusuna ait sözlüğün otomatik oluşturulması sağlanmıştır. Çalışmada öncelikli olarak, referans dokümanı temsil eden anlamlı kelimeler tespit edilmiştir. Bu amaçla hem Helmholtz Prensibi hem de TF-IDF metrikleri uygulanmıştır. İlk sözlük kelimeleri bu tohum dediğimiz referans dokümanına ait anlamlı kelimelerden oluşmaktadır. Daha sonra bir döngü ile, en son işlenen dokümana ait anlamlı kelimeler kullanılarak Azure Web Cognitive Web Search sisteminde Web araması yapılmaktadır. Arama sonucu gelen ilk dokümanın, referans dokümanına da uygulandığı üzere Helmholtz Prensibi ve TF-IDF metrikleri ile anlamlı kelimeleri bulunmaktadır. Döngü esnasında bulunan anlamlı kelimeler bu sefer sözlüğe doğrudan eklenmemekte, sapmaları önlemek üzere WordNet sözlüğü kullanılarak her anlamlı kelimenin oluşmuş sözlük ile benzerliği hesaplanmaktadır. Benzerlik değerleri, belirli bir eşik değerinden yüksek olan anlamlı kelimeler sözlüğe eklenmekte ve bu kelimeler kullanılarak Web'te arama döngüsü tekrarlanmakta, nihai olarak sözlük için istenilen kelime sayısına ulaşıldığında ise sonlanmaktadır. Sözlüğün başarımını ölçmek üzere, Hash Similarity benzerlik hesaplaması yöntemi kullanılmıştır. Farklı konularda verilen referans dokümanlarla yapılan sınamalarda, Helmholtz Prensibi uygulanarak yapılan çalışmalarda ortalama % 52,50, TF-IDF metrikleri uygulanarak yapılan çalışmalarda ise % 75,2 oranında benzerliğe sahip sözlükler oluşturulabilmektedir.