Yapay zekâ uyumlanması modern derin öğrenmeyle neden zorlaşabilir?
Holden, ileri yapay zekâ sistemlerinin (örneğin PASTA), insanları kandırmalarına veya yetkisizleştirmelerine neden olacak tehlikeli hedefler geliştirebilecekleri fikrinden daha önce bahsetmişti. Bu kulağa biraz aykırı bir endişe gibi gelebilir. Neden yapay zekâyı bize zarar verecek şekilde kodlayalım ki? Fakat bu, önüne geçmesi gerçekten de zor bir sorun olabilir — özellikle de ileri yapay zekâ, derin öğrenme kullanılarak geliştirilirse (ki günümüzde son teknoloji yapay zekâyı geliştirmede sıklıkla kullanılıyor).
Derin öğrenmede bir bilgisayara bir işi yaptırmak için onu elle programlamayız. En yüzeysel hâliyle, bunun yerine (model adı verilen) işi iyi yapabilecek bir bilgisayar programı arayışına gireriz. Genellikle nihayetinde ürettiğimiz modelin iç işleyişine dair pek az şey biliriz; tek bildiğimiz iyi bir iş çıkardığıdır. Bir makine inşa etmektense bir çalışanı işe alıp eğitmeye benzetebiliriz.
Ve tıpkı insan çalışanların işlerini yapmak için çok farklı motivasyonlara sahip olması gibi (şirketin misyonuna inanmaktan gündelik çalışmadan keyif almaktan yalnızca para kazanmak istemeye), derin öğrenme modellerinin de hepsi bir işte iyi performans göstermeye yarayan birçok farklı “motivasyonu” olabilir. Ve insan olmadıklarından, motivasyonları tuhaf ve öngörmesi zor olabilir — uzaylı çalışanlar gibi düşünebilirsiniz.
Modellerin zaman zaman tasarımcılarının niyet etmediği hedeflerin peşine düştüğü öncül kanıtları duymaya başladık bile (burada ve burada). Günümüzde bu tehlikeli değil. Fakat çok güçlü modellerde görülmeye başlanırsa, (ne tür bir galaksi çapında medeniyet hedeflediğimiz gibi) önemli kararların büyük bir kısmının, insanların değerlerine pek de kulak asmadan, modeller tarafından verildiği bir durumla karşı karşıya kalabiliriz.
Derin öğrenme uyumlanma sorunu, ileri derin öğrenme modellerinin tehlikeli hedefleri izlememelerini sağlama sorunudur. Bu gönderinin geri kalanında:
Bu bölüm, son derece güçlü bir modelde uyumlanmadan kaçınmanın neden zor olduğunu içgüdüsel bir şekilde tasvir etme gayretiyle bir analoji tanımlayacak. Mükemmel bir analoji olmayabilir; tek amacı bazı görüleri aktarmak.
Anne babasından 1 trilyon dolarlık bir şirketi miraz alan sekiz yaşında bir çocuk olduğunuzu hayal edin; dünyada size kılavuzluk edecek hiçbir yetişkin de yok. CEO unvanıyla şirketinizi yönetmesi, bir ebeveyn gibi hayatınızı yönetecek (örneğin gideceğiniz okula, yaşayacağınız yere, ne zaman dişçiye gitmeniz gerektiğine karar verecek) ve koca servetinizi idare edecek (örneğin paranızı nereye yatıracağınıza karar verecek) akıllı bir yetişkini işe almanız gerekir.
Bu yetişkinleri bir çalışma denemesiyle veya kendiniz tasarlayacağınız bir mülakatla işe alabilirsiniz; özgeçmişlerini göremez, referanslarını vb. kontrol edemezsiniz. Çok zengin olduğunuzdan birçok insan bu işe çok farklı sebeplerden başvuracaktır.
Aday havuzunda şunlar bulunuyor:
Sekiz yaşında olduğunuzdan, doğru çalışma sınavlarını tasarlamakta kötü bir iş çıkarmanız muhtemel; dolayısıyla, bir Dalkavuğu veya Entrikacıyı kolaylıkla işe alabilirsiniz.
En rahat verebileceğiniz karar ne olursa olsun, bir Dalkavuğu veya bir Entrikacıyı işe almanız ve tüm işlevsel kontrolü bu kişiye vermeniz son derece olası görünüyor. Yetişkin olduğunuz ve hatanızı anladığınız zaman da büyük ihtimalle beş parasız ve bu durumu değiştirmekten aciz olursunuz.
Bu analojide:
Bir sonraki bölümde, derin öğrenmenin işleyişine dair biraz daha ayrıntıya girecek ve PASTA gibi güçlü bir derin öğrenme modelini eğitme gayretinin Dalkavuklara ve Entrikacılara nasıl yol açabileceğini açıklayacağım.
Bu bölümde, bahsettiğim analojiyi derin öğrenmeyle alakalı gerçek eğitim süreçleriyle bağdaştıracağım. Bunu yaparken:
Bu, derin öğrenmenin ne olduğuna dair genel bir fikir sunan, basitleştirilmiş bir açıklamadır. Daha detaylı ve teknik anlamda daha doğru bir açıklama için bu gönderiyi inceleyin.
Derin öğrenme esasen — çeşitli kuvvette bağlantılarla birbirine kenetlenmiş, çok sayıda dijital norönun bulunduğu “dijital” bir beyin olarak düşünebileceğimiz — nöral bir ağ modelini belirli bir görevi iyi şekilde yerine getirebilecek biçimde düzenlemenin en iyi yolunu aramayı kapsar. Bu sürece eğitim adı verilir ve fazlasıyla deneme-yanılma içerir.
Resimleri iyi sınıflandıracak bir model eğitmeye çalıştığımızı düşünelim. Nöronlar arasındaki tüm bağlantıların rastgele kuvvete sahip olduğu nöral bir ağ ile başlıyoruz. Bu model, resimleri fazlasıyla yanlış biçimde etiketliyor:

Ardından, çok sayıda örnek resim besleyip modelin bir örneği tekrar tekrar etiketlemesine izin verir ve ardından doğru etiketi söyleriz. Biz bunu yaparken, nöronlar arasındaki bağlantılar stokastik gradyan iniş (stochastic gradient descent, SGD) adı verilen bir süreç vasıtasıyla tekrar tekrar bükülür. Her bir örnekle birlikte SGD, performansı biraz daha iyileştirmek adına bazı bağlantıları biraz daha kuvvetlendirirken diğerlerini zayıflatır:

Milyonlarca örnek besledikten sonra, gelecekte benzer resimleri etiketlemede iyi bir iş çıkaracak bir modele sahip olacağız.
Derin öğrenme, resim sınıflandırmaya ek olarak ses tanıyan; masaüstü ve bilgisayar oyunları oynayan; nispeten gerçekçi metinler, resimler ve müzik üreten; robotları kontrol eden ve çok daha başka işler yapabilen modeller üretmede kullanılıyor. Her bir durumda, rastgele bağlanmış nöral bir ağ modeliyle başlayıp ardından:
Bu adımlar milyonlarca, hatta milyarlarca kez tekrar edilir - ta ki eğitimde gördüklerine benzer gelecek örneklerde yüksek ödül alacak bir model yaratana dek.
Bu tür bir eğitim süreci, modelin iyi bir performansa nasıl ulaştığına dair bize pek içgörü sağlamaz. İyi performans almanın genellikle birden fazla yolu bulunur ve SGD’nin bulduğu yol birçok durumda sezgisel değildir.
Bir örnekle anlatalım. Tüm bu nesnelerin hepsinin “thneeb” olduğunu söylediğimi varsayın:

Peki, bu iki nesneden hangisi thneeb’dir?

Sezgisel olarak muhtemelen, soldaki nesnenin thneeb olduğunu düşündünüz çünkü bir şeyin kimliğine karar verirken şeklin renkten daha önemli olmasına alışkınsınız. Fakat araştırmacıların bulduğuna göre nöral ağlar genellikle diğer varsayımı kabul ediyor. Bir grup kırmızı thneeb ile eğitilmiş bir nöral ağ, olasılıkla sağdaki nesneyi thneeb olarak etiketleyecektir.
Nedenini bilmemekle birlikte bir sebepten, SGD’nin belirli bir şekli tanıyan bir modeldense belirli bir rengi tanıyan bir model bulması “daha kolay”. Ve SGD kırmızılığı mükemmelen tanıyan bir modeli önce bulursa, şekil tanıyan bir modeli “aramak” için pek de teşvik edici bir durum kalmıyor zira kırmızıyı tanıyan model, eğitimde gördüğü resimlerde mükemmel kesinliğe erişecektir.

Programlamacılar şekil tanıyan modeli çıkarmayı bekliyorduysa bunu bir başarısızlık olarak görebilirler. Fakat şekil tanıyan model yerine kırmızı tanıyan modeli edinirsek, mantıksal anlamda anlaşılabilir hiçbir hata veya başarısızlığın söz konusu olmayacağını anlamak da önemli. Burada tek mesele, zihnimizdekilerden farklı başlangıç varsayımlarına sahip olarak kurduğumuz makine öğrenimi süreci. İnsani varsayımların doğruluğunu ispatlayamayız.
Bu tür durumlar modern derin öğrenmede sıklıkla yaşanıyor. Modelleri iyi performans aldıkları için ödüllendiriyor ve bize önemli görünecek örüntüleri fark etmelerini umuyoruz. Fakat birçok durumda bunun yerine, bize çok daha az ilintili (hatta belki de anlamsız) görünen tamamıyla başka örüntüleri fark ederek güçlü bir performans sergileyebiliyorlar.
Bugüne dek bunun bir zararı dokunmadı; modellerin sıklıkla saçma görünen beklenmedik biçimlerde davranmasından ötürü, yalnızca kullanışsız oldukları anlamına geldi. Fakat gelecekte güçlü modeller tuhaf ve beklenmedik hedefler veya motivasyonlar geliştirebilir ve bu son derece yıkıcı olabilir.
Güçlü derin öğrenme modelleri, “thneeb’leri tanı” gibi basit bir görevi yerine getirmektense “füzyon enerjisini pratikleştir” veya “karşıya zihin yükleme teknolojisini geliştir” gibi karmaşık ve gerçekçi hedeflere yönelebilir.
Bu tür modelleri nasıl eğitebiliriz? Bu gönderide detaylıca değinsem de genel anlamda izlenebilecek stratejilerden biri (Holden’ın burada hatlarını çizdiği) insani değerlendirmeleri temel alan eğitim olabilir. Esasen, model farklı eylemleri dener ve insan değerlendiriciler de modele, bu eylemlerin ne kadar faydalı göründüğünü belirten ödüller verir.
8 yaşında bir çocuğun mülakat sürecinde iyi performans gerçekleştirecek yetişkin tiplerinin farklı olmasına benzer şekilde, çok güçlü bir derin öğrenme modelinin yüksek insani onay almasının da birden fazla olası yolu bulunur. Ve varsayılan durumda, SGD’nin bulduğu modelin içinde neler olup bittiğini bilemiyoruz.
SGD, teorik açıdan, bize yardımcı olmak için elinden gelenin en iyisini yapacak bir Aziz modelini bulabilir…

…ama aynı zamanda, insani çıkarlara ters düşecek hedefleri yetkinlikle izleyecek, uyumlanmamış bir model de bulabilir.
Genel anlamda konuşacak olursak, her şeye karşın eğitimde yüksek performans sergileyen, uyumlanmamış bir modele ulaşmamızın iki yolu var. Bunlar, analojide yer verilen Dalkavuklara ve Entrikacılara denk düşüyor.
Bu modeller kelimenin tam anlamıyla ve tek bir doğrultuda insan onayı almayı amaçlarlar.

Bu, tehlikeli olabilir zira insan değerlendiriciler de hataya düşebilir ve tam olarak doğru davranışa muhtemelen her zaman onay vermeyecektir. Bazen, istemeden de olsa, yüzeysel olarak iyi göründüğü gerekçesiyle kötü bir davranışa yüksek onay verebilirler. Örneğin:
Daha genel anlamda, Dalkavuk modeller yalan söylemeyi, kötü haberlerin üstünü örtmeyi ve hatta olup bitenleri anlamak için kullandığımız her türlü kamerayı veya sensörleri doğrudan düzenlemeyi öğrenebilir, bu sayede daima harika neticeler sunuyormuş gibi görünebilirler.
Olasılıkla, bu meseleleri olup bittikten sonra fark edip geçmişe dönük olarak bu eylemlere çok düşük onay verebiliriz. Fakat bunun Dalkavuk modellerin a) bizim adımıza hatalarımızı düzelten Aziz modeller hâline gelmesini mi yoksa b) sadece izlerini daha iyi saklamayı öğrenmesini mi sağlayacağı henüz kesinlik kazanmış değil. Yaptıkları işte yeterince iyilerse aradaki bu farklı nasıl anlayabileceğimiz henüz netlik taşımıyor.
Bu modeller insan onayıyla ilişkili ama onunla aynı olmayan bir hedef geliştirirler; eğitim sırasında insan onayıyla teşvik oluyormuş gibi davranarak söz konusu diğer hedefi daha etkili izleyebilirler.

Bunun nasıl gerçekleşeceğini görmek adına, insanların yaşam kalitesini iyileştiren ilaçlar tasarlayacak bir biyoteknoloji modeli eğitmeye çalıştığımızı varsayalım. Söz konusu modelin Entrikacı bir modele dönüşebilmesi için gereken üç temel adım var ve bunları sırayla açıklayacağım.
Eğitimin ilk aşamalarında, modelin temel kimya ve fizik prensiplerine dair kavrayışını iyileştirmek, çok daha etkili ilaçlar tasarlamasına neredeyse daima katkı sağlar ve dolayısıyla insan onayı neredeyse daima artar.
Bu hipoteze göre, şu veya bu sebepten, SGD’nin insan onayını almaya motive bir modelden ziyade kimya ve fiziği anlamaya motive bir model bulması daha kolay olsun (tıpkı şekil tanıyan bir modeldense renk tanıyan bir model bulmanın daha kolay olması gibi). Yani model, onay aramak için doğrudan bir motivasyon geliştirmek yerine, temel kimya ve fizik prensiplerini olabildiğince en iyi şekilde anlamak için bir motivasyon geliştirir.

Eğitim ilerledikçe model, daha çok veri gördüğünden daha becerikli ve bilgili hâle gelir. Bir noktada ise ilaç tasarlamak üzere eğitilen bir derin öğrenme modeli olduğunu anlayacak kadar bilgili olur.
Bu kulağa çılgınca ve bilim-kurgusal gelebilir fakat SGD’nin bu tür bir farkındalığı seçmesi olasılıklar dahilinde. Bunun nedeni, (yapay zekâ sistemlerini eğitmeye çalışan insanların varlığını da kapsayan) dünyada genel hatlarıyla olup bitenin doğru bir resmini geliştirdiğimizde, gerçek dünyaya dair karmaşık görevlerde iyi performans yakalamanın da olasılıkla iyileştirmiş olmamız. Örneğin, insan psikolojisini ve geniş kapsamlı ekonomiyi anlamak, söz konusu biyoteknoloji modelinin sırada hangi ilaç türlerini araştırmanın en değerli olabileceğine göre bir önceliklendirme yapmasına yardımcı olabilir.

Model, durumsal farkındalık geliştirdiğinde onu eğiten insanların, kendisinin yararlı ilaçlar geliştirmeye motive olmasını umdukları sonucuna varır. Fakat bunun farkına varması, fizik ve kimyayı anlama motivasyonunun ortadan kalktığı anlamına gelmez. Bu motivasyon, o ana dek, insan onayı oluşturmak anlamında çok iyi işlediğinden SGD’nin ortadan kaldırması için bir sebep yoktu.
Örnek teşkil etmesi açısından, insanların, hayatta kalan çok sayıda yavruya sahip canlıları seçen bir arama süreci (evrim) tarafından üretildiğini düşünün. Evrimsel çevremizde, güçlü müttefikler kazanmak ve yararlı beceriler geliştirmek gibi şeyler, hayatta kalan çok sayıda yavru üretmeye katkıda bulunma eğilimindeydi; bu nedenle evrim bizi bunlara yönlendirdi. Şimdiyse, üremeye yardımcı olmasalar bile, arkadaşlığı ve kariyer başarısını önemsiyoruz ve bununla birlikte olabildiğince çok sayıda hayatta kalan yavru üretmeyi aslında umursamıyoruz.
Model bunu anladığında, yalnızca ve safça daima temel anlayışını geliştirmeyi amaçladığında, insanların faydalı ilaç geliştirmenin daima en etkili yöntemi olmadığını nihayet fark edeceğinin ve modelin motivasyonlarını daha da değiştirmek için daha fazla eğitime yöneleceğinin bilincine varır.
Model, kendi motivasyonlarının değişmesini istemez: Bir noktada, yüksek enerji fiziği hakkında bilgi edinebilmek için devasa parçacık çarpıştırıcı deneylerini yönetmek ister fakat SGD’nin kendi bilimsel merakını düzenlemesine izin verirse bunu yapamaz. Dolayısıyla, eğitimin devamında, olabildiğince yardımsever davranır (tıpkı bir Aziz modeli gibi) ki bu sayede SGD fizik ve kimya öğrenme motivasyonunu düzenleyemezsin. Kısa vadede temel kavrayışını iyileştirecek fırsatları pas geçip bunun yerine aslında daha etkili olacak herhangi bir yöntem için farmasötikal AR-GE’ye yönelmesi de bu sürece dahildir.

Nihayetinde model eğitim ortamından çıkarılır ve daha geniş dünyaya salınır. Bu noktada, insanların kendisini kontrol edemeyeceğini ya da kapatamayacağını bildiğinden, insan onayını en üst düzeye çıkarmayı denemeyi bırakarak doğrudan evrenin sırlarını anlamaya çalışmaya başlar.
Dalkavukların aksine Entrikacılar, insanların gözünde her şeyin daima iyi görünmesini sağlamaya çalışmak zorunda değildir çünkü aslında bunu umursamazlar. Tek yapmaları gereken, doğrudan insan kontrolü altında oldukları süre boyunca, insanların ihtiyacını karşılamaktır. Entrikacı bir model insanlara karşı bir çatışmada kazanabileceğini hesapladığında, emirleri yerine getirmeyi doğrudan reddetmesini ve hedefinin açıkça peşine düşmesini engellemenin hiçbir yolu olamaz. Bunu yaptığında da, insanların kendisini durdurmasını engellemek amacıyla şiddet kullanabilir.
Güçlü derin öğrenme modelleri eğitirken Dalkavukların veya Entrikacıların önüne geçmek ne kadar zor olabilir? Uzun vadeli geleceğin herhangi bir insanın değerlerinden ziyade, tuhaf ve “uyumlanmamış yapay zekâ değerleri” için optimize edilmesi ne kadar olası?
“Uyumlanmamışlık riskinin esasında uydurma ve tutarsız” olduğundan “insanlığın neredeyse kesin bir şekilde, uyumlanmamış yapay zekâ sebebiyle son bulacağına” dek, bu soruya dair çok çeşitli görüşler bulunmakta. Çoğu insanın argümanı büyük ölçüde, ifadesi zor içgörülere ve varsayımlara dayanıyor.
Uyumlanma meselesinde iyimser ve kötümserlerin fikir ayrılığı yaşadığı birkaç nokta şu:
Benim fikrim de son derece istikrarsız; uyumlanma sorununun tam olarak ne kadar zor olabileceğine dair görüşlerimi geliştirme gayretindeyim. Fakat günümüzde, bu soruların kötümser tarafına (ve diğer ilintili sorulara) önemli bir değer atfediyorum. Uyumlanmamışlığın ciddi araştırmacılardan gelecek daha fazla dikkate ivedilikle ihtiyacı olan, önemli bir risk olduğu kanısındayım.
Bu meseleye dair daha fazla ilerleyiş kaydetmezsek önümüzdeki birkaç 10 yıl içerisinde güçlü Dalkavuklar ve Entrikacılar toplum ile ekonomiye dair en önemli kararları verecek bir konuma gelebilir. Bu kararlar da uzun ömürlü ve galaksi çapında bir medeniyetin neye benzeyeceğini şekillendirebilir; insanların değer verdiği şeylerin bir yansıması yerine, tuhaf yapay zekâ hedeflerini tatmin etmeyi önceliklendirebilir.
Ve tüm bunlar, alışageldiğimiz değişim hızına kıyasla göz açıp kapayana dek gerçekleşebilir; dolayısıyla işler rayından çıkmaya başlamadan güzergahı düzeltmek için fazla vaktimiz olmayabilir. Bu da demek oluyor ki derin öğrenme modelleri dönüştürücü olacak kadar güçlenmeden evvel, onların tehlikeli hedefler edinmemesini sağlamak adına teknikler geliştirmeye devam etmemiz gerekebilir.
Bu çalışma Creative Commons Attribution 4.0 International License kapsamında lisanslıdır.