Tez Türü: Doktora
Tezin Yürütüldüğü Kurum: İstanbul Ticaret Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği, Türkiye
Tez Danışmanı: Metin Turan
Tezin Onay Tarihi: 2024
Tezin Dili: Türkçe
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
Özet:
Doküman doğrulama, orijinal özet dokümanın orijinal tam metin doküman üzerinde doğrulanması işlemidir. Bu doğrulama süreçlerinde anlamsal kontrol oldukça kritiktir. Anlamsal doğrulamaya daha az odaklanan birçok güncel yaklaşımdan farklı olarak bu çalışmada, özellikle orijinal doküman veya dokümanlar için üretilen özetin tutarlılığını anlamsal olarak kontrol etmek amacıyla Doğal Dil İşleme tekniklerine dayalı bir otomatik doküman doğrulama sistemi tasarlanmıştır. Soyut özetlerin orijinal tam metin dokümanlar üzerinde doğrulanması Transformer tabanlı model aracılığıyla yapılmıştır. Çalışmada deneysel dokümanlar finansal türe ait seçilmiş olduğundan Reuters finansal veri seti ile eğitim yapılarak Transformer modeli oluşturulmuştur. Önerilen Transformer tabanlı anlamsal doküman doğrulama yaklaşımı, orijinal tam metin ve özet dokümanlar üzerinde test edilmiştir. Sistem, birçok Doğal Dil İşleme modelinde olduğu üzere, tam metin ve özet dokümanlar üzerinde veri ön işleme ve yazım denetimi işlemlerini uygulayarak başlamaktadır. Daha sonra özet doküman tam metin doküman üzerinde doğrulanacağı için Simhash ve Cross Encoder metin benzerliği algoritmaları kullanılarak tam metin doküman cümlelerinden özet doküman cümlelerine en çok benzeyen cümleler belirlenmiştir. Bu sezgisel bir yaklaşımdır ve özet içinde yer alan her cümlenin tam metin dokümanda hangi cümlelerle ilişkili olduğu tahmin edilmeye çalışılmaktadır. Özet doküman cümlesine en yakın (benzeyen) iki orijinal tam metin doküman cümlesi seçilmiştir. Daha sonra bu orijinal tam metin doküman cümleleri eğitilmiş Transformer modeline girdi olarak verilmiştir, orijinal tam metin cümlelerinin soyut bir özeti üretilmiştir. Son aşamada orijinal özet ile Transformer modelinin ürettiği özet, benzerlikleri açısından hem Simhash hem de Cross Encoder metin benzerliği algoritmalarıyla karşılaştırılmış ve ortalama doküman doğrulama doğruluğu hesaplanmıştır. Önerilen Transformer tabanlı anlamsal doküman doğrulama sistemi, Reuters veri kümesindeki finansal dokümanlar üzerinde ortalama %84.1 anlamsal doküman doğrulama doğruluğu elde etmiştir. Bu çalışma, doküman doğrulamayı otomatikleştirmenin günümüz teknolojileri ile mümkün olduğunu göstermiştir. Hem Transformer hem de cümle gruplama tekniklerini ustalıkla bütünleştirerek otomatik soyut özetlemenin önünü açmış, insan özetlerinin yerine otomatik özetlerin başarı ile kullanılabileceğini göstermiştir.