Yapay ‘Zeka’ Değerlendirilmesindeki Hatalar
Yapay zeka (YZ) sistemleri, özellikle büyük dil modelleri (LLM’s), son yıllarda hem akademik hem de endüstriyel alanlarda büyük ilgi odağı haline gelirken, bu sistemlerin değerlendirilmesi ve anlaşılması sürecinde yapılan hatalar, hem teknolojinin potansiyelini hem de yaratacağı olası distopik senaryoları doğru bir şekilde kavramamızı engelleyebilir. Bu anlamda yazımda sinirbilimci Evelina Fedorenko‘nun sorumlu yazar olduğu Mahowald vd. (2024) çalışmasından yola çıkarak ve diğer ilgili kaynaklardan da yararlanarak, YZ değerlendirmesindeki yaygın hataları ele alacağım.
Öncelikle, YZ sistemlerinin başarısızlıklarını raporlarken yapılan “eksik iddialar” dikkat çekiyor. Bowman (2022) tarafından vurgulanan bu sorun, araştırmacılar ve geliştiricilerin sistemlerin başarısızlıklarını tam anlamıyla açıklamadığında, kullanıcıların ve diğer araştırmacıların yanlış bir güven duygusuna kapılmasına neden olabilir. Örneğin, bir dil modelinin bir metni anlaması, insanın anladığı gibi bir anlama değildir; bu, daha çok istatistiksel ilişkileri ve desenleri öğrenme üzerine kuruludur. Bu nedenle, bir modelin “anladığını” iddia etmek, insan zekasının karmaşıklığını ve derinliğini göz ardı etmek anlamına gelir. Diğer yandan değerlendirme metrikleri, bir modelin başarısını ölçmek için kullanılan temel araçlarken, bu metrikler bazen yanıltıcı olabilir. Örneğin, bir modelin doğruluk oranı yüksek olabilir, ancak bu, modelin gerçek dünya senaryolarında nasıl performans göstereceğini tam olarak yansıtmayabilir. Mahowald vd. (2024)’nin belirtildiği gibi LLMs’nin performansını değerlendirirken, sadece doğruluk oranlarına değil, aynı zamanda modelin nasıl ve neyi öğrendiğini gösteren çalışmalara da odaklanmak gerekir.
Dziri vd. (2024), transformatör tabanlı modellerin bileşimsel dil kabiliyetlerindeki sınırlılıklarını ortaya koyuyor. Bileşimsellik, dilin temel bir özelliğidir; bir cümlenin anlamı, kelimelerin anlamlarının ve bu kelimeler arasındaki ilişkilerin bir birleşimidir. Ancak, mevcut YZ sistemleri, bu tür karmaşık ilişkileri anlamakta ve işlemekte zorlanabilirken bu durum, sistemlerin dilin yüzeysel özelliklerine odaklanarak “anlama” kabiliyeti sergilediği yanılsamasını yaratabilir. Ayrıca Sclar vd. (2023), dil modellerinin belirli görevlerdeki performansının, kullanılan prompt formatına ve yanıltıcı özelliklere olan duyarlılığından etkilendiğini gösteriyor. Bu, bir modelin belirli bir görevde yüksek performans göstermesinin, o görevi gerçekten “anladığı” anlamına gelmediğini ortaya koyuyor. Örneğin bir model, yalnızca belirli bir formatta sunulan verilerde başarılı olabilir, ancak format değiştiğinde başarısız olabilir. Bu tür durumlar, modellerin genelleme kabiliyetlerini abartılı bir şekilde değerlendirmemize neden olabilir.
Mahowald vd. (2024) çalışmasında aslında özellikle, YZ sistemlerinin bilişsel yetenekleriyle ilgili yapılan yanlış çıkarımlara dikkat çekerken ve Ivanova vd. (2020)’nin, bilgisayar kodunu anlamanın, insan beyninde dil işleme bölgelerinden ziyade genel yönetici işlevlerle ilişkili olduğunu göstererek, YZ sistemlerinin insan benzeri bilişsel süreçlere sahip olduğu varsayımını sorgulamamıza neden oluyor. YZ sistemlerinin belirli görevlerdeki başarısı, bu görevleri insanlarla aynı şekilde gerçekleştirdiği anlamına gelmediği iddiasında bulunuyorlar, özetle!
Kaplan vd. (2020), dil modellerinin ölçeklendikçe performanslarının arttığını gösterirken, bu artışın aslında modellerin genel zeka kazandığı anlamına gelmediğini belirtiyorlar. Daha büyük modeller, daha fazla veri ve parametreyle daha iyi sonuçlar verebilir, ancak bu, onların insan benzeri bir anlayışa veya bilişsel yeteneğe sahip olduğu anlamına gelmiyor. Bu tür yanlış çıkarımlar, YZ’nin potansiyelini yanlış yorumlamamıza neden olabilir. Son olarak, Woolgar vd.(2018), insan zekasının dil sistemlerinden ziyade “çoklu-talep” sistemi gibi genel bilişsel sistemlerle daha yakından ilişkili olduğunu gösteriyor. Bu, dil modellerinin dil işleme kabiliyetlerinin, insan zekasının temel bir göstergesi olmadığını iddiasında bulunuluyor. Diğer değişle YZ sistemlerinin dildeki başarısı, onların insan zekasına sahip olduğu anlamına gelmiyor; bu, yalnızca dilin yüzeysel özelliklerini işleyebildiklerini gösterir.
Sonuç olarak, YZ değerlendirmesindeki bu hatalar, teknolojinin potansiyelini anlamamızı engellemekle kalmaz, aynı zamanda yanlış beklentiler oluşturarak etik ve toplumsal sorunlara yol açabilir (Aşkun, 2024). YZ sistemlerini değerlendirirken, onların sınırlılıklarını ve başarısızlıklarını açıkça kabul etmek, daha gerçekçi bir anlayış geliştirmemize yardımcı olacaktır. Biz araştırmacılar ve bu alandaki geliştiriciler ve kullanıcılar olarak, YZ sistemlerini değerlendirirken daha eleştirel bir yaklaşım benimseyerek YZ’nin kabiliyetlerini abartmak yerine, onun sınırlarını anlamaya çalışmalı ve bu sınırların ötesine geçmek için çalışmalıyız (Aşkun, 2023) .
Unutulmamalıdır ki, Yapay Zekanın gerçek potansiyeli, onu doğru bir şekilde değerlendirip uyguladığımızda ortaya çıkacaktır.
Kaynaklar
Aşkun, V. (2023). Sosyal bilimler araştırmaları için ChatGPT potansiyelinin açığa çıkarılması: Uygulamalar, zorluklar ve gelecek yönelimler. Erciyes Akademi, 37(2), 622-656.
Aşkun, V. (2024). Yapay zekâ ve otomasyon çağında eşitlik ve refah: Daron Acemoğlu’nun görüşlerine dayalı bir inceleme. Bozok Sosyal Bilimler Dergisi, 3(2), 137-160.
Bowman, S. R. (2022). The dangers of underclaiming: Reasons for caution when reporting how NLP systems fail. arXiv preprint arXiv:2110.08300.
Dziri, N., Lu, X., Sclar, M., Li, X. L., Jiang, L., Lin, B. Y., … & Choi, Y. (2024). Faith and fate: Limits of transformers on compositionality. Advances in Neural Information Processing Systems, 36.
Ivanova, A. A., Srikant, S., Sueoka, Y., Kean, H. H., Dhamala, R., O’reilly, U. M., … & Fedorenko, E. (2020). Comprehension of computer code relies primarily on domain-general executive brain regions. elife, 9, e58906.
Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., … & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
Mahowald, K., Ivanova, A. A., Blank, I. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2024). Dissociating language and thought in large language models. Trends in Cognitive Sciences. https://doi.org/10.1016/j.tics.2024.01.011
Sclar, M., Choi, Y., Tsvetkov, Y., & Suhr, A. (2023). Quantifying Language Models’ Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting. arXiv preprint arXiv:2310.11324.
Woolgar, A., Duncan, J., Manes, F., & Fedorenko, E. (2018). Fluid intelligence is supported by the multiple-demand system not the language system. Nature Human Behaviour, 2(3), 200-204.
Buralarda Paylaş
Yorum gönder