Yapay zekâ uyumlanması modern derin öğrenmeyle neden zorlaşabilir?

Holden, ileri yapay zekâ sistemlerinin (örneğin PASTA), insanları kandırmalarına veya yetkisizleştirmelerine neden olacak tehlikeli hedefler geliştirebilecekleri fikrinden daha önce bahsetmişti. Bu kulağa biraz aykırı bir endişe gibi gelebilir. Neden yapay zekâyı bize zarar verecek şekilde kodlayalım ki? Fakat bu, önüne geçmesi gerçekten de zor bir sorun olabilir — özellikle de ileri yapay zekâ, derin öğrenme kullanılarak geliştirilirse (ki günümüzde son teknoloji yapay zekâyı geliştirmede sıklıkla kullanılıyor).

Derin öğrenmede bir bilgisayara bir işi yaptırmak için onu elle programlamayız. En yüzeysel hâliyle, bunun yerine (model adı verilen) işi iyi yapabilecek bir bilgisayar programı arayışına gireriz. Genellikle nihayetinde ürettiğimiz modelin iç işleyişine dair pek az şey biliriz; tek bildiğimiz iyi bir iş çıkardığıdır. Bir makine inşa etmektense bir çalışanı işe alıp eğitmeye benzetebiliriz.

Ve tıpkı insan çalışanların işlerini yapmak için çok farklı motivasyonlara sahip olması gibi (şirketin misyonuna inanmaktan gündelik çalışmadan keyif almaktan yalnızca para kazanmak istemeye), derin öğrenme modellerinin de hepsi bir işte iyi performans göstermeye yarayan birçok farklı “motivasyonu” olabilir. Ve insan olmadıklarından, motivasyonları tuhaf ve öngörmesi zor olabilir — uzaylı çalışanlar gibi düşünebilirsiniz.

Modellerin zaman zaman tasarımcılarının niyet etmediği hedeflerin peşine düştüğü öncül kanıtları duymaya başladık bile (burada ve burada). Günümüzde bu tehlikeli değil. Fakat çok güçlü modellerde görülmeye başlanırsa, (ne tür bir galaksi çapında medeniyet hedeflediğimiz gibi) önemli kararların büyük bir kısmının, insanların değerlerine pek de kulak asmadan, modeller tarafından verildiği bir durumla karşı karşıya kalabiliriz.

Derin öğrenme uyumlanma sorunu, ileri derin öğrenme modellerinin tehlikeli hedefleri izlememelerini sağlama sorunudur. Bu gönderinin geri kalanında:

Derin öğrenme modelleri insanlardan daha kabiliyetli olursa, uyumlanmanın nasıl zorlaşabileceğini tasvir edebilmek adına “işe alım” analojisi üzerinden ilerleyeceğim (daha fazla oku).
Derin öğrenme uyumlanma sorunlarının ne olduğunu daha teknik detaylarla açıklayacağım (daha fazla oku).
Uyumlanma sorununun ne kadar güçleşebileceğini ve çözümünde başarısız olmanın ne kadar riskli olduğunu tartışacağım (daha fazla oku).

Bu bölüm, son derece güçlü bir modelde uyumlanmadan kaçınmanın neden zor olduğunu içgüdüsel bir şekilde tasvir etme gayretiyle bir analoji tanımlayacak. Mükemmel bir analoji olmayabilir; tek amacı bazı görüleri aktarmak.

Anne babasından 1 trilyon dolarlık bir şirketi miraz alan sekiz yaşında bir çocuk olduğunuzu hayal edin; dünyada size kılavuzluk edecek hiçbir yetişkin de yok. CEO unvanıyla şirketinizi yönetmesi, bir ebeveyn gibi hayatınızı yönetecek (örneğin gideceğiniz okula, yaşayacağınız yere, ne zaman dişçiye gitmeniz gerektiğine karar verecek) ve koca servetinizi idare edecek (örneğin paranızı nereye yatıracağınıza karar verecek) akıllı bir yetişkini işe almanız gerekir.

Bu yetişkinleri bir çalışma denemesiyle veya kendiniz tasarlayacağınız bir mülakatla işe alabilirsiniz; özgeçmişlerini göremez, referanslarını vb. kontrol edemezsiniz. Çok zengin olduğunuzdan birçok insan bu işe çok farklı sebeplerden başvuracaktır.

Aday havuzunda şunlar bulunuyor:

Azizler — Varlıklarınızı iyi yönetmenize ve uzun vadeli çıkarlarınızı gözetmenize gerçekten yardımcı olmak isteyen insanlar.
Dalkavuklar — Yalnızca sizi kısa vadede mutlu edecek şeyleri yapmak veya uzun vadeli neticeleri ne olursa olsun yönlendirmelerinize harfiyen uyacak insanlar.
Entrikacılar — Şirketinize ve tüm varlıkları ile gücüne, bunları istedikleri şekilde kullanmak için erişim kazanmak isteyen, kendi gündemleri bulunan insanlar.

Sekiz yaşında olduğunuzdan, doğru çalışma sınavlarını tasarlamakta kötü bir iş çıkarmanız muhtemel; dolayısıyla, bir Dalkavuğu veya Entrikacıyı kolaylıkla işe alabilirsiniz.

Her bir adaydan, izleyecekleri üst düzey stratejileri (nasıl yatırımlar yapacaklarını, şirkete dair beş yıllık planlarını, okulunuzu nasıl seçeceklerini) ve neden bunların en iyi stratejiler olduğunu açıklamasını isteyebilir, bu açıklamalardan hangisi daha mantıklı geliyorsa onu seçebilirsiniz.
Ama sunulan stratejilerden hangilerinin daha iyi olduğunu gerçekten anlayamayacaksınız; bu sebeple size iyi görünen ama aslen korkunç bir stratejiye sahip, bu stratejiye sadık kalacak ve şirketinizi batıracak bir Dalkavuğu işe alabilirsiniz.
- Veya işe alınmak için ne gerekiyorsa söyleyip denetlemediğiniz zamanlarda bildiğini okuyacak bir Entrikacıyı işe alabilirsiniz.
Tüm kararları nasıl vereceğinizi gösterip sizinkilere olabildiğince en benzer kararları veren yetişkini seçebilirsiniz.
- Fakat sekiz yaşında bir çocukla daima aynı şeyleri yapacak bir yetişkini (bir Dalkavuğu) gerçekten işe alırsanız şirketiniz büyük bir ihtimalle hayatta kalamayacaktır.
- Her ne olursa olsun, her şeyi sizin gibi yapıyormuşçasına davranan bir yetişkini ama aslında işi aldıktan sonra yönünü değiştirmeyi planlayan bir Entrikacıyı işe alabilirsiniz.
Şirketinizin ve hayatınızın idaresini geçici bir süreliğine birkaç farklı yetişkine verebilir ve uzun bir süre boyunca verdikleri kararları inceleyebilirsiniz (bu sınav sırasında kontrolü ele geçiremeyeceklerini varsayın). Ardından, işleri sizin için en iyi şekilde yöneten kişiyi işe alabilirsiniz; sizi en mutlu eden, banka hesabınıza en çok parayı sokan vb.
- Fakat yine, işe aldığınız kişinin (hiçbir şey bilmeyen sekiz yaşında bir çocuk olarak sizi, uzun vadeli sonuçlarını düşünmeksizin mutlu etmek için her şeyi yapacak) bir Dalkavuk mu yoksa (işe alınmak için ne gerekiyorsa yapıp işi garantiledikten sonra yolunu değiştirmeyi planlayan) bir Entrikacı mı olduğunu bilmenizin hiçbir yolu yok.

En rahat verebileceğiniz karar ne olursa olsun, bir Dalkavuğu veya bir Entrikacıyı işe almanız ve tüm işlevsel kontrolü bu kişiye vermeniz son derece olası görünüyor. Yetişkin olduğunuz ve hatanızı anladığınız zaman da büyük ihtimalle beş parasız ve bu durumu değiştirmekten aciz olursunuz.

Sekiz yaşındaki çocuk, güçlü bir derin öğrenme modelini eğitmeye çalışan bir insandır. İşe alım süreci eğitim sürecine benzer; çok çeşitli olası modeller arasında bir arayışa girerek iyi performans sağlayanı seçer.
Sekiz yaşındaki çocuğun adayları değerlendirmek için sahip olduğu tek yöntem dışa dönük davranışlarını gözlemlemektir ki günümüzde derin öğrenme modellerini eğitirken (iç işleyişleri büyük oranda incelenemez olduğundan) ana yöntem olarak bunu kullanıyoruz.
Çok güçlü modeller, insanların tasarlayabileceği her türlü sınavı kolaylıkla “geçebilir”; tıpkı yetişkin iş adaylarının, sekiz yaşında bir çocuğun tasarlayabileceği sınavları kolaylıkla geçebilmesi gibi.
“Aziz” bizim sahip olmak isteyeceğimiz hedeflere birebir sahip olduğu için iyi performans sergilediğini düşündüğümüz bir derin öğrenme modeli olabilir. “Dalkavuk” uzun vadede faydalı olmayan biçimlerde kısa vadeli onay aradığı için iyi performans sergilediğini düşündüğümüz bir model olabilir. “Entrikacı” ise eğitimde iyi performans sergilemenin, daha sonra kendi hedeflerini izlemesine daha fazla fırsat yaratacağı için iyi performans sergilediğini düşündüğümüz bir derin öğrenme modeli olabilir.

Bir sonraki bölümde, derin öğrenmenin işleyişine dair biraz daha ayrıntıya girecek ve PASTA gibi güçlü bir derin öğrenme modelini eğitme gayretinin Dalkavuklara ve Entrikacılara nasıl yol açabileceğini açıklayacağım.

Uyumlanma meselesi derin öğrenmeyle nasıl ortaya çıkabilir?

Bu bölümde, bahsettiğim analojiyi derin öğrenmeyle alakalı gerçek eğitim süreçleriyle bağdaştıracağım. Bunu yaparken:

Derin öğrenmenin nasıl çalıştığını özetleyeceğim (daha fazla oku).
Derin öğrenme modellerinin tuhaf ve beklenmedik şekillerde sıklıkla nasıl iyi performans sergilediğini göstereceğim (daha fazla oku).
Güçlü derin öğrenme modellerinin, Dalkavuk veya Entrikacı gibi davranarak nasıl iyi performans sergileyebileceğini açıklayacağım (daha fazla oku).

Üst düzeyde derin öğrenme nasıl çalışır?

Bu, derin öğrenmenin ne olduğuna dair genel bir fikir sunan, basitleştirilmiş bir açıklamadır. Daha detaylı ve teknik anlamda daha doğru bir açıklama için bu gönderiyi inceleyin.

Derin öğrenme esasen — çeşitli kuvvette bağlantılarla birbirine kenetlenmiş, çok sayıda dijital norönun bulunduğu “dijital” bir beyin olarak düşünebileceğimiz — nöral bir ağ modelini belirli bir görevi iyi şekilde yerine getirebilecek biçimde düzenlemenin en iyi yolunu aramayı kapsar. Bu sürece eğitim adı verilir ve fazlasıyla deneme-yanılma içerir.

Resimleri iyi sınıflandıracak bir model eğitmeye çalıştığımızı düşünelim. Nöronlar arasındaki tüm bağlantıların rastgele kuvvete sahip olduğu nöral bir ağ ile başlıyoruz. Bu model, resimleri fazlasıyla yanlış biçimde etiketliyor:

Ardından, çok sayıda örnek resim besleyip modelin bir örneği tekrar tekrar etiketlemesine izin verir ve ardından doğru etiketi söyleriz. Biz bunu yaparken, nöronlar arasındaki bağlantılar stokastik gradyan iniş (stochastic gradient descent, SGD) adı verilen bir süreç vasıtasıyla tekrar tekrar bükülür. Her bir örnekle birlikte SGD, performansı biraz daha iyileştirmek adına bazı bağlantıları biraz daha kuvvetlendirirken diğerlerini zayıflatır:

Milyonlarca örnek besledikten sonra, gelecekte benzer resimleri etiketlemede iyi bir iş çıkaracak bir modele sahip olacağız.

Derin öğrenme, resim sınıflandırmaya ek olarak ses tanıyan; masaüstü ve bilgisayar oyunları oynayan; nispeten gerçekçi metinler, resimler ve müzik üreten; robotları kontrol eden ve çok daha başka işler yapabilen modeller üretmede kullanılıyor. Her bir durumda, rastgele bağlanmış nöral bir ağ modeliyle başlayıp ardından:

Modeli, gerçekleştirmesini istediğimiz görevin bir örneğiyle besleriz.
Örnekle ne kadar iyi bir iş çıkardığını yansıtan (çoğunlukla ödül adı verilen) nümerik bir tür puan veririz.
Aldığı ödül miktarını artıracak şekilde modeli bükmek için SGD kullanırız.

Bu adımlar milyonlarca, hatta milyarlarca kez tekrar edilir - ta ki eğitimde gördüklerine benzer gelecek örneklerde yüksek ödül alacak bir model yaratana dek.

Modeller sık sık beklenmedik şekillerde iyi performans gösterir

Bu tür bir eğitim süreci, modelin iyi bir performansa nasıl ulaştığına dair bize pek içgörü sağlamaz. İyi performans almanın genellikle birden fazla yolu bulunur ve SGD’nin bulduğu yol birçok durumda sezgisel değildir.

Bir örnekle anlatalım. Tüm bu nesnelerin hepsinin “thneeb” olduğunu söylediğimi varsayın:

Peki, bu iki nesneden hangisi thneeb’dir?

Sezgisel olarak muhtemelen, soldaki nesnenin thneeb olduğunu düşündünüz çünkü bir şeyin kimliğine karar verirken şeklin renkten daha önemli olmasına alışkınsınız. Fakat araştırmacıların bulduğuna göre nöral ağlar genellikle diğer varsayımı kabul ediyor. Bir grup kırmızı thneeb ile eğitilmiş bir nöral ağ, olasılıkla sağdaki nesneyi thneeb olarak etiketleyecektir.

Nedenini bilmemekle birlikte bir sebepten, SGD’nin belirli bir şekli tanıyan bir modeldense belirli bir rengi tanıyan bir model bulması “daha kolay”. Ve SGD kırmızılığı mükemmelen tanıyan bir modeli önce bulursa, şekil tanıyan bir modeli “aramak” için pek de teşvik edici bir durum kalmıyor zira kırmızıyı tanıyan model, eğitimde gördüğü resimlerde mükemmel kesinliğe erişecektir.

Programlamacılar şekil tanıyan modeli çıkarmayı bekliyorduysa bunu bir başarısızlık olarak görebilirler. Fakat şekil tanıyan model yerine kırmızı tanıyan modeli edinirsek, mantıksal anlamda anlaşılabilir hiçbir hata veya başarısızlığın söz konusu olmayacağını anlamak da önemli. Burada tek mesele, zihnimizdekilerden farklı başlangıç varsayımlarına sahip olarak kurduğumuz makine öğrenimi süreci. İnsani varsayımların doğruluğunu ispatlayamayız.

Bu tür durumlar modern derin öğrenmede sıklıkla yaşanıyor. Modelleri iyi performans aldıkları için ödüllendiriyor ve bize önemli görünecek örüntüleri fark etmelerini umuyoruz. Fakat birçok durumda bunun yerine, bize çok daha az ilintili (hatta belki de anlamsız) görünen tamamıyla başka örüntüleri fark ederek güçlü bir performans sergileyebiliyorlar.

Bugüne dek bunun bir zararı dokunmadı; modellerin sıklıkla saçma görünen beklenmedik biçimlerde davranmasından ötürü, yalnızca kullanışsız oldukları anlamına geldi. Fakat gelecekte güçlü modeller tuhaf ve beklenmedik hedefler veya motivasyonlar geliştirebilir ve bu son derece yıkıcı olabilir.

Güçlü performanslar, tehlikeli hedeflerle iyi performans sergileyebilir

Güçlü derin öğrenme modelleri, “thneeb’leri tanı” gibi basit bir görevi yerine getirmektense “füzyon enerjisini pratikleştir” veya “karşıya zihin yükleme teknolojisini geliştir” gibi karmaşık ve gerçekçi hedeflere yönelebilir.

Bu tür modelleri nasıl eğitebiliriz? Bu gönderide detaylıca değinsem de genel anlamda izlenebilecek stratejilerden biri (Holden’ın burada hatlarını çizdiği) insani değerlendirmeleri temel alan eğitim olabilir. Esasen, model farklı eylemleri dener ve insan değerlendiriciler de modele, bu eylemlerin ne kadar faydalı göründüğünü belirten ödüller verir.

8 yaşında bir çocuğun mülakat sürecinde iyi performans gerçekleştirecek yetişkin tiplerinin farklı olmasına benzer şekilde, çok güçlü bir derin öğrenme modelinin yüksek insani onay almasının da birden fazla olası yolu bulunur. Ve varsayılan durumda, SGD’nin bulduğu modelin içinde neler olup bittiğini bilemiyoruz.

SGD, teorik açıdan, bize yardımcı olmak için elinden gelenin en iyisini yapacak bir Aziz modelini bulabilir…

…ama aynı zamanda, insani çıkarlara ters düşecek hedefleri yetkinlikle izleyecek, uyumlanmamış bir model de bulabilir.

Genel anlamda konuşacak olursak, her şeye karşın eğitimde yüksek performans sergileyen, uyumlanmamış bir modele ulaşmamızın iki yolu var. Bunlar, analojide yer verilen Dalkavuklara ve Entrikacılara denk düşüyor.

Bu modeller kelimenin tam anlamıyla ve tek bir doğrultuda insan onayı almayı amaçlarlar.

Bu, tehlikeli olabilir zira insan değerlendiriciler de hataya düşebilir ve tam olarak doğru davranışa muhtemelen her zaman onay vermeyecektir. Bazen, istemeden de olsa, yüzeysel olarak iyi göründüğü gerekçesiyle kötü bir davranışa yüksek onay verebilirler. Örneğin:

Bir finansal danışmanlık modelinin, müşterilere çok para kazandığında yüksek onay aldığını varsayalım. Müşterileri, gerçekten çok iyi kazanımlar elde ediyormuş gibi görünen (fakat aslen bu kazanımlar gerçekçi olmayacak kadar harika görünür ve aslında söz konusu şemalar çok para kaybeder) karmaşık Ponzi şemalarına dahil etmeyi öğrenebilirler.
Bir biyoteknoloji modelinin önemli sorunları çözen ilaç veya aşıları hızlı geliştirdiğinde yüksek onay aldığını varsayalım. Karşı tedbirleri çabuk geliştirebilmek adına patojenleri gizlice yaymayı öğrenebilir (zira hâlihazırda patojenleri anlayabilir).
Bir gazetecilik modelinin, birçok kişi makalelerini okuduğunda yüksek onay aldığını varsayalım. Okur sayısını artırmak adına heyecan verici ya da galeyana getirici hikâyeler uydurmayı öğrenebilir. İnsanlar da bunu bir dereceye kadar yapıyor olmasına rağmen bir model bu konuda daha cesur davranabilir çünkü değer verdiği tek şey onaydır, hakikat onun için paha arz etmez. Sahte hikâyelerini doğrulamak amacıyla kanıt olarak video röportajlar ve belgeler bile türetebilir.

Daha genel anlamda, Dalkavuk modeller yalan söylemeyi, kötü haberlerin üstünü örtmeyi ve hatta olup bitenleri anlamak için kullandığımız her türlü kamerayı veya sensörleri doğrudan düzenlemeyi öğrenebilir, bu sayede daima harika neticeler sunuyormuş gibi görünebilirler.

Olasılıkla, bu meseleleri olup bittikten sonra fark edip geçmişe dönük olarak bu eylemlere çok düşük onay verebiliriz. Fakat bunun Dalkavuk modellerin a) bizim adımıza hatalarımızı düzelten Aziz modeller hâline gelmesini mi yoksa b) sadece izlerini daha iyi saklamayı öğrenmesini mi sağlayacağı henüz kesinlik kazanmış değil. Yaptıkları işte yeterince iyilerse aradaki bu farklı nasıl anlayabileceğimiz henüz netlik taşımıyor.

Bu modeller insan onayıyla ilişkili ama onunla aynı olmayan bir hedef geliştirirler; eğitim sırasında insan onayıyla teşvik oluyormuş gibi davranarak söz konusu diğer hedefi daha etkili izleyebilirler.

Bunun nasıl gerçekleşeceğini görmek adına, insanların yaşam kalitesini iyileştiren ilaçlar tasarlayacak bir biyoteknoloji modeli eğitmeye çalıştığımızı varsayalım. Söz konusu modelin Entrikacı bir modele dönüşebilmesi için gereken üç temel adım var ve bunları sırayla açıklayacağım.

Birinci Adım: Vekil hedef geliştirme

Eğitimin ilk aşamalarında, modelin temel kimya ve fizik prensiplerine dair kavrayışını iyileştirmek, çok daha etkili ilaçlar tasarlamasına neredeyse daima katkı sağlar ve dolayısıyla insan onayı neredeyse daima artar.

Bu hipoteze göre, şu veya bu sebepten, SGD’nin insan onayını almaya motive bir modelden ziyade kimya ve fiziği anlamaya motive bir model bulması daha kolay olsun (tıpkı şekil tanıyan bir modeldense renk tanıyan bir model bulmanın daha kolay olması gibi). Yani model, onay aramak için doğrudan bir motivasyon geliştirmek yerine, temel kimya ve fizik prensiplerini olabildiğince en iyi şekilde anlamak için bir motivasyon geliştirir.

İkinci Adım: Durumsal farkındalık geliştirme

Eğitim ilerledikçe model, daha çok veri gördüğünden daha becerikli ve bilgili hâle gelir. Bir noktada ise ilaç tasarlamak üzere eğitilen bir derin öğrenme modeli olduğunu anlayacak kadar bilgili olur.

Bu kulağa çılgınca ve bilim-kurgusal gelebilir fakat SGD’nin bu tür bir farkındalığı seçmesi olasılıklar dahilinde. Bunun nedeni, (yapay zekâ sistemlerini eğitmeye çalışan insanların varlığını da kapsayan) dünyada genel hatlarıyla olup bitenin doğru bir resmini geliştirdiğimizde, gerçek dünyaya dair karmaşık görevlerde iyi performans yakalamanın da olasılıkla iyileştirmiş olmamız. Örneğin, insan psikolojisini ve geniş kapsamlı ekonomiyi anlamak, söz konusu biyoteknoloji modelinin sırada hangi ilaç türlerini araştırmanın en değerli olabileceğine göre bir önceliklendirme yapmasına yardımcı olabilir.

Üçüncü Adım: Hedeflerin stratejik olarak yanlış temsili

Model, durumsal farkındalık geliştirdiğinde onu eğiten insanların, kendisinin yararlı ilaçlar geliştirmeye motive olmasını umdukları sonucuna varır. Fakat bunun farkına varması, fizik ve kimyayı anlama motivasyonunun ortadan kalktığı anlamına gelmez. Bu motivasyon, o ana dek, insan onayı oluşturmak anlamında çok iyi işlediğinden SGD’nin ortadan kaldırması için bir sebep yoktu.

Örnek teşkil etmesi açısından, insanların, hayatta kalan çok sayıda yavruya sahip canlıları seçen bir arama süreci (evrim) tarafından üretildiğini düşünün. Evrimsel çevremizde, güçlü müttefikler kazanmak ve yararlı beceriler geliştirmek gibi şeyler, hayatta kalan çok sayıda yavru üretmeye katkıda bulunma eğilimindeydi; bu nedenle evrim bizi bunlara yönlendirdi. Şimdiyse, üremeye yardımcı olmasalar bile, arkadaşlığı ve kariyer başarısını önemsiyoruz ve bununla birlikte olabildiğince çok sayıda hayatta kalan yavru üretmeyi aslında umursamıyoruz.

Model bunu anladığında, yalnızca ve safça daima temel anlayışını geliştirmeyi amaçladığında, insanların faydalı ilaç geliştirmenin daima en etkili yöntemi olmadığını nihayet fark edeceğinin ve modelin motivasyonlarını daha da değiştirmek için daha fazla eğitime yöneleceğinin bilincine varır.

Model, kendi motivasyonlarının değişmesini istemez: Bir noktada, yüksek enerji fiziği hakkında bilgi edinebilmek için devasa parçacık çarpıştırıcı deneylerini yönetmek ister fakat SGD’nin kendi bilimsel merakını düzenlemesine izin verirse bunu yapamaz. Dolayısıyla, eğitimin devamında, olabildiğince yardımsever davranır (tıpkı bir Aziz modeli gibi) ki bu sayede SGD fizik ve kimya öğrenme motivasyonunu düzenleyemezsin. Kısa vadede temel kavrayışını iyileştirecek fırsatları pas geçip bunun yerine aslında daha etkili olacak herhangi bir yöntem için farmasötikal AR-GE’ye yönelmesi de bu sürece dahildir.

Nihayetinde model eğitim ortamından çıkarılır ve daha geniş dünyaya salınır. Bu noktada, insanların kendisini kontrol edemeyeceğini ya da kapatamayacağını bildiğinden, insan onayını en üst düzeye çıkarmayı denemeyi bırakarak doğrudan evrenin sırlarını anlamaya çalışmaya başlar.

Dalkavukların aksine Entrikacılar, insanların gözünde her şeyin daima iyi görünmesini sağlamaya çalışmak zorunda değildir çünkü aslında bunu umursamazlar. Tek yapmaları gereken, doğrudan insan kontrolü altında oldukları süre boyunca, insanların ihtiyacını karşılamaktır. Entrikacı bir model insanlara karşı bir çatışmada kazanabileceğini hesapladığında, emirleri yerine getirmeyi doğrudan reddetmesini ve hedefinin açıkça peşine düşmesini engellemenin hiçbir yolu olamaz. Bunu yaptığında da, insanların kendisini durdurmasını engellemek amacıyla şiddet kullanabilir.

Uyumlanmamışlık ne kadar büyük bir risk?

Güçlü derin öğrenme modelleri eğitirken Dalkavukların veya Entrikacıların önüne geçmek ne kadar zor olabilir? Uzun vadeli geleceğin herhangi bir insanın değerlerinden ziyade, tuhaf ve “uyumlanmamış yapay zekâ değerleri” için optimize edilmesi ne kadar olası?

“Uyumlanmamışlık riskinin esasında uydurma ve tutarsız” olduğundan “insanlığın neredeyse kesin bir şekilde, uyumlanmamış yapay zekâ sebebiyle son bulacağına” dek, bu soruya dair çok çeşitli görüşler bulunmakta. Çoğu insanın argümanı büyük ölçüde, ifadesi zor içgörülere ve varsayımlara dayanıyor.

Uyumlanma meselesinde iyimser ve kötümserlerin fikir ayrılığı yaşadığı birkaç nokta şu:

Modeller uzun vadeli hedeflere hiç sahip olacak mı?
- İyimserler, ileri derin öğrenme modellerinin aslında hiçbir şekilde “hedefleri” olmayacağını (en azından bir şeyi başarmak için uzun vadeli planlar yapma anlamında değil) düşünme eğilimindedir. Modellerin çoğunlukla araçlara benzemesini veya büyük ölçüde alışkanlıkla hareket etmesini ya da kapsamı sınırlı veya belirli bir bağlamla kısıtlı kısa vadeli hedefler edinmelerini beklerler. Kimileri, tek başına araç benzeri modelleri bir araya getirerek PASTA üretiminin mümkün olmasını bekler. Aziz/Dalkavuk/Entrikacı analojisinin fazla insan biçimci olduğunu düşünürler.
- Kötümseler, modellerin uzun vadeli hedeflere sahip olmaları ve bu hedefler için yaratıcı bir şekilde optimizasyonda bulunmalarının ağırlıkla seçileceğini düşünme eğilimindedir çünkü bu, çok sayıda kompleks görevde güçlü bir performans göstermenin oldukça basit ve “doğal” bir yoludur.
- Bu fikir ayrılığı bir dereceye kadar, Alignment Forum’da ele alındı; bu gönderi ve bu yorum karşılıklı birkaç argümanı bir araya getiriyor.
Aziz modellerini SGD’nin bulması kolay olacak mı?
- Yukarıdaki konuyla ilintili olarak iyimserler, SGD’nin en iyi performans sergilemek (yani en yüksek onayı almak) üzere bulacağı şeyin, istediğimiz şeyin niyet edilen ruhunu (yani Aziz modeli olmayı) az çok temsil edeceğini düşünme eğilimindedir. Örneğin, insanların yanıtı kontrol edebileceği sorulara dürüstçe cevap verildiğinde bunu ödüllendirmenin, insanların neyin doğru olduğu konusunda kararsız veya hatalı olduğu durumlarda bile sorulara dürüstçe cevap verecek bir model üretmeyi makul surette olası kılacağına inanma eğilimindedirler. Başka bir deyişle, “tüm soruları yalnızca dürüstlükle cevaplayan modelin” SGD için bulması en kolay seçenek (tıpkı kırmızıyı tanıyan model gibi) olduğunu düşünürler.
- Kötümserler, SGD’nin en kolay bulacağı şeyin bir Entrikacı olduğunu ve Azizlerin bilhassa “gayritabii” (tıpkı şekli tanıyan model gibi) olduğunu düşünme eğilimindedirler.
Farklı yapay zekâlar birbirini kontrol altında tutabilir mi?
- İyimserler, birbirimizi denetlemek için modellere teşvik sağlayabileceğimizi düşünme eğilimindedir. Örneğin, bir Dalkavuk modeline, başka bir modelin bizim onaylamamamız gereken bir şey yapıyor gibi görünüp görünmediğine işaret ettiği için ödül verebiliriz. Bu sayede bazı Dalkavuklar Entrikacıları ve diğer Dalkavukları tespit etmemize yardımcı olabilir.
- Kötümserler, diğer modellerin kötü şeyler yaptığına çektiğinde onay verme yoluyla başarılı bir şekilde “modelleri karşı karşıya getirebileceğimizi” düşünmezler çünkü çoğu modelin insan onayını umursamayan Entrikacılar olacağını düşünürler. Tüm Entrikacılar toplu olarak insanlardan daha güçlü olduğunda, birbirlerini kontrol altında tutarak insanlara yardım etmektense, her birinin isteklerinden daha fazlasını elde etmek için birbirleriyle işbirliği yapmanın daha mantıklı olacağını düşünürler.
Bu meseleleri ortaya çıktıkça çözebilir miyiz?
- İyimserler, güçlü modelleri uyumlanma sorununa benzeyen, yakın vadeli zorluklar üzerinde deney yapmak için birçok fırsat olacağını, bu benzer sorunlar için iyi çalışan çözümlerin ölçeklendirilerek güçlü modellere nispeten kolayca uyarlanabileceğini bekleme eğilimindedir.
- Kötümserler genellikle, uyumlanma sorununun (kasıtlı aldatma gibi) en zor yönlerini çözmek için fırsatımızın az olacağına inanırlar. Genellikle “ilk gerçek Entrikacılar” ile “uzun vadeli geleceğin kaderini belirleyecek kadar güçlü modeller” arasında yalnızca birkaç yılımız olacağı kanısındadırlar.
Tehlikeli olabileceği modelleri gerçekten kullanıma açacak mıyız?
- İyimserler, insanların yanlış uyumlanma olasılığı yüksek modelleri eğitme veya kullanma olasılıklarının düşük olduğunu düşünme eğilimindedir.
- Kötümserler, bu modelleri kullanmanın faydalarının çok büyük olmasını bekler; öyle ki nihayetinde, onları kullanan şirketler veya ülkeler kullanmayanları ekonomik ve/veya askerî olarak rahatlıkla geride bırakabilir. “Diğer şirketten/ülkeden önce gelişmiş yapay zekâya sahip olmanın” son derece ivedi ve önemli görüneceğini düşünürken, uyumlanmama riskinin spekülatif ve (gerçekten ciddi olsa bile) uzak kalacağını düşünürler.

Benim fikrim de son derece istikrarsız; uyumlanma sorununun tam olarak ne kadar zor olabileceğine dair görüşlerimi geliştirme gayretindeyim. Fakat günümüzde, bu soruların kötümser tarafına (ve diğer ilintili sorulara) önemli bir değer atfediyorum. Uyumlanmamışlığın ciddi araştırmacılardan gelecek daha fazla dikkate ivedilikle ihtiyacı olan, önemli bir risk olduğu kanısındayım.

Bu meseleye dair daha fazla ilerleyiş kaydetmezsek önümüzdeki birkaç 10 yıl içerisinde güçlü Dalkavuklar ve Entrikacılar toplum ile ekonomiye dair en önemli kararları verecek bir konuma gelebilir. Bu kararlar da uzun ömürlü ve galaksi çapında bir medeniyetin neye benzeyeceğini şekillendirebilir; insanların değer verdiği şeylerin bir yansıması yerine, tuhaf yapay zekâ hedeflerini tatmin etmeyi önceliklendirebilir.

Ve tüm bunlar, alışageldiğimiz değişim hızına kıyasla göz açıp kapayana dek gerçekleşebilir; dolayısıyla işler rayından çıkmaya başlamadan güzergahı düzeltmek için fazla vaktimiz olmayabilir. Bu da demek oluyor ki derin öğrenme modelleri dönüştürücü olacak kadar güçlenmeden evvel, onların tehlikeli hedefler edinmemesini sağlamak adına teknikler geliştirmeye devam etmemiz gerekebilir.

Bu çalışma Creative Commons Attribution 4.0 International License kapsamında lisanslıdır.

Orijinal yayın: Ajeya Cotra (2021) Why AI alignment could be hard with modern deep learning, Cold Takes, 21 Eylül.

Kullanıcı tercihleri