LexiQamus Okunmayanı Okutuyor

MEHMET KAPLAN

İlim emek, çaba, gayret ve sabır gerektiren bir süreç. Her ilmin kendine göre birtakım yöntem ve teknikleri var. Yöntem ve teknikler sayesindedir ki, çalışacağımız alana dair verileri toplar, tasnif eder ve üzerinde çalışmaya başlarız. Bu ilk aşama ilmî çalışmanın yoludur ve bu yolda bazı aletler bize yardımcı olur.

Eskiden beri ilim geleneğimizde var olan alet ilimler ve âli ilimler diye bir tasnifi biliriz. Alet ilimler âlî ilimleri çalışmak için bize yardımcı olan basamaklar hükmündedir. İlmî çalışmada asıl hedeflenen, alet ilimlerle elde edilmesi gerekenleri toplayıp âlî ilimlere zaman ayırmak, onlar üzerine düşünmek, mukayese ve analiz yapmaktır.

Türk dili ve edebiyatı, tarih, dilbilimi gibi alanlarda çalışanlar, bildiğiniz üzere, eski metinlerle uğraşıyorlar. Bu metinler üzerinden bir sonuca varabilmek için ise, metni doğru şekilde okuyabilmek, cümle ve kelimelerini çözebilmek birinci önceliği teşkil ediyor. Ancak bu eski metinlerin okunması ve çözülmesinin çeşitli sebeplerle zorlaştığı, uzun emekler verilse bile istenen neticenin alınamadığı durumlarla karşılaşıldığı da bir gerçek. Öyle ki, bazan bir metin çözülememiş tek bir kelime sebebiyle bir çalışma haftalarca uzmanını meşgul edebiliyor, senelerce tamamlanmamış halde kalabiliyor.

Bahsedilen bu alanlardaki veri toplama problemini aşmak ve muhtevaya daha çok zaman ayırmak için ne yapılabilir düşüncesiyle ortaya çıkmış, dijital dünyanın ruhuna uygun, alanında ilk ve başka dillerde de örneği olmayan bir ürün var artık: LexiQamus.

LexiQamus, Abdullah Saçmalı tarafından Osmanlıca metinlerin çeşitli sebeplerle okunamaması problemine çözüm üretmek için geliştirilmiş web tabanlı bir uygulama. Saçmalı, ‘asgari çalışan ürün’ kavramından hareketle “Hiçbir yerden kredi, devletten destek almadan, bursumdan arttırdığım çok cüz’î rakamlarla asgari çalışan ürünü yapmıştım” diyerek, yaptığı çalışmayı ‘kendi kendini fonlayan proje’ olarak tanımlıyor. Kısa sürede yayın hayatına başlayan LexiQamus, hızlı bir şekilde Türkiye’den ve dünyadan birçok saygıdeğer kurumun teveccühüne mazhar olmuş durumda.

Abdullah Saçmalı ile bir ‘başarı hikâyesi’ olarak LexiQamus projesine ve bu projenin ilgili olduğu ilim dünyasının meselelerine dair keyifli bir söyleşi gerçekleştirdik. Buyurun, hep birlikte Abdullah Saçmalı’yı dinleyelim…

LexiQamus isminden başlayarak, proje hakkında neler söylersiniz? Amacı ve kapsamı nedir?

LexiQamus’u, Lexicon ve Kamus kelimelerini birleştirerek oluşturdum. Biri İngilizce, diğeri Arapça olan her iki kelime de ‘bir lisandaki bütün söz varlığının tamamı’ anlamına geliyor. Aynı zamanda Lexicon, 1890 yılında James Redhouse’un yayınladığı A Turkish and English Lexicon başlıklı Osmanlıca-İngilizce lügate de referansta bulunuyor. Lexicon, en muteber ve en geniş lügatlerden biri. Diğeri de Kamus-ı Türkî. Şemsettin Sami’nin yayınladığı bu lügat, madde sayısının daha az ama manaların daha uzun olduğu, çok fazla referans verilen önemli eserlerden bir tanesi. Bu iki lügate referansla bu isim oluştu.

LexiQamus, bir problemi çözmeye çalışıyor. Türk dili ve edebiyatı, tarih, dilbilimi gibi alanlarda çalışanlar, malum olduğu üzere eski metinlerle uğraşıyorlar. Eski metinlerde kelimelerin muhtelif sebeplerle okunamama durumları olabiliyor. Mesela hat karışık olabiliyor yahut metnin üzerine mürekkep dökülmüş veya yanmış oluyor, kesilmiş oluyor. Bin türlü şey... Yani bazı harfleri görebiliyoruz, bazı harfleri göremeyebiliyoruz ve birtakım tahminlerde bulunmak zorunda kalabiliyoruz. Bazen bir kelime için günlerce uğraşıldığı da oluyor. Hatta bir proje ekibinin dahi günlerce uğraştığını değişik hocalardan ben defalarca dinledim.

Burada şunu düşündüm: Çeşitli sebeplerle bazı kelimelerde okunamayan harflerin neler olabileceğini düşünüyoruz. Ondan sonra “Peki o harf öyle olursa, yani ‘sin’ olursa bu kelime ne olabilir? ‘Şın’ olursa ne olur? ‘Dal’ olsa ne olur? ‘Ra’ olursa ne olur?” diye kafamızdan önce spekülasyonlar yapıyoruz. Sonra gidiyoruz lügate bakıyoruz, acaba böyle bir kelime var mı? Lügatte de bazen bulamıyoruz. Bazen buluyoruz, fakat manası uymuyor. Sonra başka lügatler var. Hepsine bakabilmek epey zor.

O zaman şöyle demiştim: Biz önce kelimenin ne olabileceğini düşünüyor, sonra böyle bir kelime var mı diye lügatlere tek tek bakmaya başlıyoruz. Epey zor ve meşakkatli bir iş. Ama bir bilgisayar programı yazarsak bu iş bu kadar zor olmaz. Bir ya da birden fazla lügatin bütün maddelerini bir veritabanına gireriz. Sonra yine bu kelimenin bildiğimiz taraflarını, bildiğimiz kısımlarını, bildiğimiz kadarıyla programa bildiririz, söyleriz. O da bize hem bu şartları sağlar hem de bu lügatlerde geçen kelimeleri listeler diye bir varsayımla yola çıktım.

O zaman Amerika’dan dönmüş, doktora için İngiltere’ye daha gitmemiştim. Osmanlıca, İngilizce dersleri veriyordum ve o zor metinlerle uğraşırken böyle bir düşünce aklıma geldi. 2014 yılında doktoraya başladım, yaklaşık iki yıl sonra 2016 yılında birkaç ayda bu projeyi hayata geçirdim.

İlk olarak Lexicon’daki madde, alt madde ve tanımsız Osmanlıca kelimeleri yazarak başladık. Sonra bir de bir program yazdık, bir filtreleme yaptık. Esasında bu iş için lügatler kullanılıyor, ama lügatlerin ana gayesi bize kelimelerin manalarını vermek; kelimeleri okutmak değil. Bir kelimenin son harfi ya da son harfleri bilinmiyorsa bize lügatler yardımcı olabiliyor, ama tersi durumda neredeyse hiç olamıyorlar.

Mesela düşünelim: ‘Tahmin’ kelimesi var, ‘hı’ ile yazılıyor. Sondaki harfi bilemedik, ‘nun’ mudur, ‘lam’ mıdır, ‘sin’ midir? Lügate baksak en fazla üç dört tane ihtimal çıkar. Biz de onlardan birini tespit edip, bağlama yerleştirebiliriz. Ancak sondaki ‘min’ kısmı var, ilk harf hiç yok diyelim, lügat artık hiçbir işe yaramıyor, artık kelimelerin tamamı potada çünkü. Ama bilgisayar programı açısından ha ilk harf, ha ortadaki harf, ha son harf hiçbir farkı yok. O eldeki bütün harflerin pozisyonlarını bildiği için eldeki verilere göre kesişim kümesini hızlı bir şekilde aniden, hatta hadsen diyelim, çıkartıyor. Fikir buydu, bunu gerçekleştirdim; oldu, çalıştı.

Alanınız itibarıyla zor metinlerle uğraşırken bu fikrin ortaya çıktığını söylediniz. Bu fikri hayata geçirme motivasyonunuza dair neler söylersiniz?

Yani dediğim gibi zor metinlerle uğraşıyorsunuz, dil canlı bir organizma olduğu için eski metinlerde olan fakat günümüzde kullanılmayan, bilinmeyen epey kelimeler var. Yine bahsettik, çeşitli sebeplerle okunamayan harfler var vs... II. Mahmut’un bir vakanüvisi var, çok zor yazıyor. Hatta sultan kendisini ikaz etmiş, bu kadar ağır yazma diye. Dönemindeki diğer memur ve bürokratlar bu metinleri anlayamıyorlardı. Düşünün, II. Mahmut’un o bürokratlarının anlayamadığını 2020’lerde ben anlamaya çalışıyorum. Yani eşit bir rekabet ortamı yok, çok zorlanmıştım. O zaman dedim, böyle bir çözüm olabilir. 2013 yılının Aralık ayında arkadaşlarımla bu fikrimi paylaştım.

Bir de bu inovasyon dünyasında şöyle bir söz var. Diyorlar ki, inovasyon için ne çok çalışkan olmak, ne de çok tembel olmak lazım. İkisi de inovasyonu engelliyor. Şimdi tembel adam o inovatif işi zaten yapmak istemiyor. Bir sürü emek lazım. Mockup’lar, hazırlıklar, yazılım sürecinin takip edilmesi, ürünün çıkması falan filan. Çalışkan kişi için de diyorlar ki, o hammaliyeyi yapmaktan yorulmuyor. İlk baştaki kısaltmaya ihtiyaç duymuyor.

İşte ikisinin ortası... Sanırım ben buralarda bir yerdeyim. O kadar tembel değilim, ama o kadar çalışkan da değilim doğrusu. Yani elde kalın kalın lügatlerle o metinler üzerine çalışmak… Lexicon iki üç kilo var diye tahmin ediyorum. Diğer en küçük lügatler bile en az yediyüzelli gramdır. Hem çok hantal, hem tek tek bak, oraya bak, buraya bak. Bir de vakit harcasanız da bulamama durumu oluyor. Ben de dedim ki, onunla uğraşacağıma bununla uğraşırım, daha etkili bir şey olur. Yola çıktık ve öyle de oldu çok şükür.

Ne kadarlık bir sürede hayata geçmiş oldu fikriniz, nasıl bir süreç takip ettiniz ve maliyetini nasıl karşıladınız?

Şöyle, startup âleminden bir kavram söyleyeyim. Bu arada, önceden ben de bilmiyordum bunları. Yani ben girdiğimde inovasyon, startup, hatta dijital beşerî bilimler diye bir alan olduğunu bilmiyordum, sonradan öğrendim. Bir meselem vardı ve onu çözmeye çalışıyordum. Literatür bilerek gelmedim yani. Hatta TÜBİTAK projesi olarak yap, TÜBİTAK’a başvur falan dediler. Orada baktım literatür tarama soruyor. Ben o kadar yazacak olsam tezime bölüm yazarım. Neyse MVP diye bir kavram var, yani ‘asgari çalışan ürün’ demek.

Linkedln kurucusunun güzel bir sözü var. Diyor ki, “Ürününüzün ilk halinden utanmıyorsanız, muhtemelen çok geç kalmışsınız demektir.” Yani o kadar mükemmel olmasını beklersen, ciddi manada gecikmişsin anlamına gelir. Bence de doğru. Ben ilk e-mailimi ilk yazılımcıma Nisan 2016’da attım, Haziran’ın 7’sinde ürün çıkmıştı. Yani üç ay değil. Bu kadar kısa bir sürede ürün çıktı. Ancak tabii öncesinde veritabanını hazırlamıştık. Bursumdan arttırdığım çok cüzî rakamlarla asgari çalışan ürünü yapmıştım. Bir ay sonra da Oxford Üniversitesi zannediyorum bir ay geçti geçmedi duyurdu, Yale ve McGill üniversiteleri hızlı bir şekilde duyurdular.

Bu süreçte önce Lexicon kelimelerini dijitalleştirdik. 156 bin kelime, yani madde, alt madde ve tanımsız Osmanlıca kelime. Biz ilk başta sadece bunları yaptık ve manaya girmedik. Ondan sonra da o filtrelemeyi yaptık, çıktık. Ama tabii sonra çok uğraştık, hâlâ devam eden bir proje.

Geliştirdiğiniz bu yöntem geleneksel metotlardan dijital olması yönüyle ayrışıyor, tamam. Peki ayrıştığı başkaca yönler var mı?

Bu çalışmamız konvansiyonel akademik metotlardan ayrışıyor. Yani klasik, geleneksel akademik usulde asıl ile nüsha birbirinden kopuyor. Bunun da en büyük sebeplerinden biri usul problemi. Nedir o? Bir pdf, bir word dosyası oluyor genelde yahut bir orijinal kitabın matbu nüshası. Sonra ona bakıp transkripsiyonunu yapıyorlar. Transkripsiyon işi bittikten sonra kitap yayınlanıyor, ama artık asıl ile nüsha arasına fiziksel olarak ciddi bir mesafe giriyor.

Bu da şuna sebebiyet veriyor: Artık bu metindeki hatalar bulunamıyor. Çünkü o kelimenin orijinalini kim nereden arasın bulsun? Yani teorik olarak mümkün, ama fiilen mümkün değil. Dolayısıyla da hatalar matbu metinde kilitleniyor. Kaçınılmaz olarak kilitleniyor. İşte biz 132 sene önce basılmış lügatte hata buluyoruz. Yani daha önce bakılmayınca hiç bulunmamış. Ama işte bizim şu an yaptığımız usulde böyle olmayacak. Asıl ile nüsha birbirinden hiçbir zaman kopmayacak. Kopmadığı için de ilk çıkışında hatalar muhakkak olacak. Ama sonra gittikçe azalacak ve bir noktada sıfırlanacak. Tek bir nokta virgül, şedde, hareke, harf hatası dahi olmayacak.

Şu an bile girin mesela LexiQamus’a. Şu anda sadece Lexicon için yapabiliyoruz. Diğerlerini de yapacağız inşaallah. Herhangi bir kelimenin üzerine mouse ile gelin, sadece o kelimenin orijinalini görüntüleyebiliyorsunuz. Yani diyelim ki 1222. sayfanın bir yerinde sistemde dijitalleştirilmiş, klavye edilmiş kelimenin orijinalini görüyorsunuz. Dolayısıyla metni demokratikleştiriyoruz. Metni denetime açıyoruz. Hem de anlık denetime açıyoruz. Açıp açıp kapatmıyoruz, devamlı açık halde bırakıyoruz. Şeffaf, hesap verilebilir şekilde bırakıyoruz. Bundan sonra da öyle olmaya devam edecek.

Dolayısıyla klasikte aslında ne var? Bize bir nüsha veriyorlar, budur diyoruz, arkayı artık görme şansımız yok. Biz artık bu otoriteye iman etmiş oluyoruz. Hatta daha fenası. Bu otoriteler birtakım içtihatlarda bulunuyorlar. Ben bunu dinledim. Kelimeler üzerinde değişiklikler yapıyorlar. Hata oluyor kelimelerde, tabii ki düzeltmek lazım, tabii ki birtakım içtihatlarda bulunmak lazım. Ama hangi kelimede, hangi içtihadı yaptı, biz bunu bilmiyoruz. Bunu çok tehlikeli buluyorum usul açısından. Bu çalışmada öyle olmayacak.

Bu projeniz ilim camiasında nasıl karşılandı? Beklediğiniz ilgiyi gördü mü?

İlk ilgilenen üniversite Orta Doğu’dan oldu, kurumsal abonelik ile ilgili ilk mesajı İsrail’de bulunan Tel Aviv Üniversitesi’nden aldık. İlk abone ise Amerika’dan Princeton Üniversitesi oldu. Beş senelik abone olmuşlardı o zaman. Daha sonra Boğaziçi, Leiden, Yale ve Columbia üniversiteleri kısa sürede abone oldular. Ve biz buralardan gelen kaynakla Lexicon’un dijitalleştirme işini yaptık.

Türkiye’den maalesef çok az teveccüh oldu. Ama yurt dışından, özellikle Amerika’dan, oradaki en iyi okullardan birçok abonemiz oldu. Web sayfamızda aktif kurumsal abonelerimiz görülebilmektedir.

Türkiye’den teveccühün az olmasını neye bağlıyorsunuz?

Bir defa bizim memleketimizde sanıldığının, düşünüldüğünün aksine ilim o kadar değerli bir şey değil. Hani biz böyle âlime çok hürmet ederiz, hocanın elini öperiz, ama bence ilme o kadar değer vermiyoruz. Nereden görüyoruz bunu? Mesela son zamanlarda doktorlara yapılan muamelelerden görüyoruz. Yahut bir akademisyen ‘mevcut paradigma’nın zıddına bir şey söylediği zaman ortaya çıkıyor. İlim, tabiatı gereği en başta tenkit ve sorgulama ile başlıyor. Bizim kültürümüzde tenkit ve sorgulama en beğenilmeyen şeylerden.

Bir de bizde acelecilik var. İlim, kuyumcu terazisi hassasiyetiyle yapılacak bir iş. Berlin’de, Viyana’da, Amerika’da, İngiltere’de bilim dünyasında detaylara çok dikkat ediyorlar. Verilen emeğe saygı değil sadece, bunun neticesini önemsiyorlar. Maşaallah çok çalışmışsın değil yani. Bizim memlekette ise önemsenmiyor. Eski kuşak hocaların bir kısmında, yeni dünyaya bir türlü adapte olamama hali var. Mesela, lügatler bir araya gelmiş zannediyor. Hatta dinlemek dahi istemiyor, bunları gördüm.

Hatta yurt dışında dünyanın en iyi üniversitelerinde ders veren bazı Türk hocaların o üniversitenin aboneliğini engellemek istediğini bile duydum. Niye biliyor musunuz? Böyle olursa Osmanlıca okumak fazla kolaylaşır, çok kolaylaşır diye. Yani ilmin ana gayesi metin çözmek midir? Asıl olan o muhtevayla alakalı düşünmek, tefekkür etmek, mukayese etmek değil midir? Yani o alet bize yardımcı oluyorsa ne mahzuru var? Vaktini, emeğini, enerjisini, entelektüel kapasitesini bütün varlığını metin çözmeye ayırmış, onunla var olmuş olan hocalarımız var. Metin çözmede otorite olmuş, otoritesinin bir yazılım vasıtasıyla sarsılmasını istemiyor.

Bir de hemen sonuç almaya çalışan bir yanımız var. Bunun olabilmesi için birilerinin karınca gibi çalışması gerekiyor. Bu kısım bizde hiç istenmiyor. Ne zaman bunu gündeme getirsem bir tepki ve isteksizlik gördüm. Öyle böyle değil, yani gerçekten ince çalışma yapılması gerekiyor. “Çabucak son tarafına gelelim.” Geliniyor ama, itimat edilecek, itibar edilecek güvenilir sonuçlar olmuyor onlar. Sonuca itibar edilebilmesi için ön tarafındaki hazırlığın çok detaylı yapılması ve yoğun emek harcanması gerekiyor. Galiba bizde böyle problemler var. Ben öyle hissediyorum.

Bursunuzdan arttırarak başladığınız bir proje. Bugün geldiğiniz noktada LexiQamus’tan kendini fonlayan bir proje olarak bahsedebilir miyiz?

Üniversitelerden geldiği kadar kaynak geliyor ve biz bu kaynağı iki yere harcıyoruz. Bir tanesi yazılım masrafları, diğeri de veri girişi masrafları. Dolayısıyla hiçbir yerden kredi ya da devletten destek almadan yaptık. Kendi yağımızla kavruluyoruz. Öyle söyleyeyim, kendi fonunu kendisi üretiyor. Ben kendi kendisini fonlayan proje diyorum. Abone olanlar aldığı hizmetin karşılığında belli bir ödeme yapıyorlar.

Lügatler üzerine çalışırken neler dikkatinizi çekti? Bir dil için lügat bize ne söyler?

Lügatlerde maddeler ve manalar oluyor. Lügat içindeki metinlerde de gramerde değişiklikleri görebiliyoruz. Bununla birlikte kelimelerin telaffuzlarındaki değişiklikleri de görüyoruz. Mesela ondokuzuncu yüzyıl sonunda halk ağzında denilen söyleniş bugün İstanbul Türkçesi olmuş. O gün galat denilen bir kullanım bugün doğru Türkçe olmuş vs. Bu tür değişimleri izleyebiliyoruz.

“Dil canlı bir organizmadır” sözünü lügatlerde görüyoruz. Dilin değişimini, telaffuz ve mana değişimlerini görmek açısından enteresan kaynaklar. Değişen kullanımın kronolojisini çıkarabiliyoruz. Kilometre taşı gibi oluyorlar. Aynı zamanda tarih metinleri, birincil kaynaklardır lügatler.

Bizim çalışmamız mevcut lügatlerden muhtelif manaları verebiliyor. Ne kadar çok lügat girersek sisteme, aynı kelimelerin muhtelif tarihlerdeki farklı manalarını da tespit etme imkânımız olacak. Ama bunun için daha çok çalışmamız gerekiyor.

Şu an LexiQamus iki şeyi yapıyor. Birinci olarak kelimeyi okutma ve alternatif kelimeleri listeleme, ikinci olarak da kelimenin manasını verme. Şu an ondokuz lügate referans verebiliyoruz. Süreç içinde bu sayıyı arttırmak ve Osmanlı ve erken Cumhuriyet döneminde yayınlanmış bütün lügatleri dijitalleştirmek istiyoruz

Son olarak, gençler bu tarz çalışmalara nasıl bakıyorlar?

Bir Excell dokümanı beni bir Word belgesinden daha çok heyecanlandırıyor. Dijital beşerî bilimlere, sayılara, yazılıma gençler daha çok ilgi gösteriyor. Gençler, tabii dijital çağın gençleri, bu tür çalışmaları, ürünleri daha çok seviyorlar. Yani sadece sevme meselesi de değil bence. Bize yardımcı olacak birşeyi niye kullanmayalım? Bu programları alet ilmi olarak değerlendirmek gerekiyor. Ana mesele de bu gelişmelerin muhtevaya daha çok inme imkânı vermesi esasında. Vaktimiz de sınırlı, kaynaklarımız da sınırlı. Eğer oraya aşırı vakit ayırırsak başka yerlere ayıramıyoruz. O da bize yardımcı oluyor. Niye istifade etmeyelim? Bu noktada gençler daha yakın ve ilgili duruyorlar.

LexiQamus Okunmayanı Okutuyor

Son Yazılar