Yapay zeka sohbet robotları söz konusu olduğunda, genellikle daha büyük olan daha iyidir.
Sohbete dayalı orijinal metin oluşturan ChatGPT ve Bard gibi büyük dil modelleri, daha fazla veri beslendiğinde gelişir. Blog yazarları her gün en son gelişmelerin – makaleleri özetleyen bir uygulama, yapay zeka tarafından oluşturulan podcast’ler, profesyonel basketbolla ilgili herhangi bir soruyu yanıtlayabilen ince ayarlı bir model – “her şeyi değiştireceğini” açıklamak için her gün internete giriyor.
Ancak daha büyük ve daha güçlü yapay zeka oluşturmak, çok az şirketin sahip olduğu bilgi işlem gücünü gerektirecek ve Google, Meta, OpenAI ve Microsoft gibi küçük bir grubun teknoloji üzerinde neredeyse tam kontrole sahip olduğuna dair artan endişeler var.
Ayrıca, daha büyük dil modellerinin anlaşılması daha zordur. Onları tasarlayan kişiler tarafından bile genellikle “kara kutular” olarak tanımlanırlar ve sahadaki liderler, “nihayetinde yapay zekanın hedeflerinin bizimkilerle örtüşmeyebileceğinden” rahatsızlık duyduklarını ifade ederler. Ne kadar büyükse o kadar iyi, o kadar opak ve özeldir.
Ocak ayında, yapay zekanın dili anlamaya odaklanan dalı olan doğal dil işleme alanında çalışan bir grup genç akademisyen, bu paradigmayı tepetaklak etme çağrısında bulundu. Grup, ekipleri en gelişmiş büyük dil modellerinin veri kümelerinin on binde birinden daha küçük veri kümelerini kullanarak işlevsel dil modelleri oluşturmaya zorladı. Başarılı bir mini model, üst düzey modeller kadar güçlü ancak çok daha küçük, daha erişilebilir ve “insan dostu” olacaktır. Projenin adı BabyLM Challenge.
Johns Hopkins Üniversitesi’nde bilgisayar bilimcisi ve BabyLM’nin organizatörü Aaron Mueller, “İnsanları küçük düşünmeye ve daha fazla insanın kullanabileceği verimli sistemler oluşturmaya daha fazla odaklanmaya davet ediyoruz” dedi.
ETH Zürih’te bir bilgisayar bilimcisi ve projenin başka bir organizatörü olan Alex Warstadt şunları ekledi: “Bu meydan okuma, ‘modellerimizi ne kadar büyük yapabiliriz?’ hakkında değil, insan dillerini öğrenmekle ilgili soruları sohbetin merkezine koyuyor.” “
Büyük dil modelleri, belirli bir cümle veya ifadedeki bir sonraki kelimeyi tahmin etmek için tasarlanmış sinir ağlarıdır. Transkriptlerden, web sitelerinden, romanlardan ve gazetelerden bir kelime külliyatı kullanarak bu görev için eğitileceksiniz. Tipik bir model, örnek cümleleri kullanarak tahminde bulunur ve ardından doğru cevaba ne kadar yaklaştığına bağlı olarak uyum sağlar.
Bir model, bu işlemi defalarca tekrarlayarak, kelimelerin birbirleriyle nasıl ilişkili olduğuna dair haritalar oluşturur. Genel olarak, bir model ne kadar çok kelime eğitirse o kadar iyi olur; Her cümle, modele bağlam sağlar ve daha fazla bağlam, her kelimenin ne anlama geldiğine dair daha ayrıntılı bir anlama yol açar. OpenAI’nin 2020’de piyasaya sürülen GPT-3’ü 200 milyar kelimeye göre eğitildi; DeepMind’ın 2022’de piyasaya sürülen Chinchilla’sı bir trilyona eğitildi.
ETH Zürih’te dilbilimci olan Ethan Wilcox için, insan olmayan bir şeyin dil üretebilmesi heyecan verici bir fırsat sunuyor: Yapay zeka dil modelleri, insanların dili nasıl öğrendiğini incelemek için kullanılabilir mi?
Örneğin, Noam Chomsky’nin ilk çalışmalarına dayanan etkili bir teori olan yerlicilik, insanların “dilin nasıl çalıştığına dair doğuştan bir anlayışa sahip oldukları” için dili hızlı ve verimli bir şekilde öğrendiklerini iddia eder. Ancak dil modelleri bile dili hızlı bir şekilde ve görünüşe göre dilin nasıl çalıştığına dair doğuştan bir anlayışa sahip olmadan öğrenir – bu yüzden belki de yerelcilik su tutmaz.
Buradaki zorluk, dil modellerinin insanlardan çok farklı şekilde öğrenmesidir. İnsanın bir bedeni, sosyal bir hayatı ve zengin duyumları vardır. Malç kokusu alabilir, tüyleri hissedebilir, kapılara çarpabilir ve nane tadı alabiliriz. Erken yaşlardan itibaren, genellikle yazılı olarak temsil edilmeyen basit sözlü kelimeler ve sözdizimi ile karşı karşıyayız. doktor Wilcox, dil üreten bir bilgisayarın milyonlarca yazılı sözcükle eğitildikten sonra, bize kendi dil sürecimiz hakkında bilgi verme yeteneğinin sınırlı olduğu sonucuna vardı.
Bununla birlikte, bir dil modeli yalnızca bir gencin karşılaştığı sözcüklere maruz bırakılsaydı, kendi yeteneklerimiz hakkında sahip olduğumuz belirli soruları yanıtlayabilecek şekillerde potansiyel olarak dille etkileşime girebilirdi.
Bu yüzden Dr. Wilcox, Bay Mueller ve Dr. Warstadt, yarım düzine meslektaşıyla birlikte, dil modellerini insan anlayışına biraz daha yaklaştırmaya çalışmak için BabyLM Challenge’ı yarattı. Ocak ayında ekipleri, 13 yaşındaki bir insanın karşı karşıya kalacağı aynı sayıda kelimeyle (yaklaşık 100 milyon) dil modelleri eğitmeye çağırdılar. Aday modeller, konuşma nüanslarını ne kadar iyi ürettikleri ve yakaladıkları konusunda test edilecek ve bir kazanan duyurulacaktı.
McGill Üniversitesi’nde dilbilimci olan Eva Portelance, duyurusunun yapıldığı gün bir meydan okumayla karşılaştı. Araştırması, bilgisayar bilimi ve dilbilim arasındaki genellikle akışkan sınırda ilerliyor. 1950’lerde yapay zekaya ilk girişler, insanın bilişsel yeteneklerini bilgisayarlarda modelleme arzusuyla gerçekleşti. Yapay zekadaki temel bilgi işleme birimi “nöron”dur ve 1980’ler ve 1990’lardaki ilk dil modelleri doğrudan insan beyninden esinlenmiştir.
Ancak işlemciler daha güçlü hale geldikçe ve şirketler pazarlanabilir ürünler üzerinde çalışmaya başladıkça, bilgisayar bilimcileri, dil modellerini büyük miktarda veri üzerinde eğitmenin, onları psikolojik olarak sağlam yapılara zorlamaktan genellikle daha kolay olduğunu fark ettiler. Sonuç olarak Dr. Portelance: “Bize insan benzeri metinler veriyorlar, ancak bizimle bunların nasıl çalıştığı arasında hiçbir bağlantı yok.”
İnsan zihninin nasıl çalıştığını anlamakla ilgilenen bilim adamları için bu büyük modeller sınırlı içgörü sunar. Ve muazzam bilgi işlem gücü gerektirdiklerinden, yalnızca birkaç araştırmacı bunlara erişebilir. Dr. dedi Wilcox.
“Ya da onları yüklemek için,” diye ekledi Bay Müller. “Bu, bu alandaki araştırmaların son zamanlarda biraz daha az demokratik hissettirmesine neden oldu.”
BabyLM Mücadelesi, dedi Dr. Portelance, daha büyük dil modelleri etrafındaki silahlanma yarışından ve daha erişilebilir, sezgisel bir yapay zekaya doğru bir adım olarak görülebilir.
Böyle bir araştırma programının potansiyeli, daha büyük endüstriyel laboratuvarlar tarafından göz ardı edilmemiştir. OpenAI genel müdürü Sam Altman, geçtiğimiz günlerde dil modellerinin boyutunu artırmanın son yıllarda gözlemlenen aynı gelişmelere yol açmayacağını söyledi. Google ve Meta gibi şirketler de insan bilişsel yapılarına dayalı daha verimli dil modelleri araştırmalarına yatırım yapıyor. Son olarak, daha az veriyle eğitildiğinde konuşma üretebilen bir model de potansiyel olarak ölçeklenebilir.
Başarılı bir BabyLM’nin ödülleri ne olursa olsun, mücadelenin arkasındakiler için hedefler daha akademik ve soyut. Fiyat bile pratikliği baltalıyor. “Sadece gurur duyuyorum” dedi Dr. Wilcox.
Sohbete dayalı orijinal metin oluşturan ChatGPT ve Bard gibi büyük dil modelleri, daha fazla veri beslendiğinde gelişir. Blog yazarları her gün en son gelişmelerin – makaleleri özetleyen bir uygulama, yapay zeka tarafından oluşturulan podcast’ler, profesyonel basketbolla ilgili herhangi bir soruyu yanıtlayabilen ince ayarlı bir model – “her şeyi değiştireceğini” açıklamak için her gün internete giriyor.
Ancak daha büyük ve daha güçlü yapay zeka oluşturmak, çok az şirketin sahip olduğu bilgi işlem gücünü gerektirecek ve Google, Meta, OpenAI ve Microsoft gibi küçük bir grubun teknoloji üzerinde neredeyse tam kontrole sahip olduğuna dair artan endişeler var.
Ayrıca, daha büyük dil modellerinin anlaşılması daha zordur. Onları tasarlayan kişiler tarafından bile genellikle “kara kutular” olarak tanımlanırlar ve sahadaki liderler, “nihayetinde yapay zekanın hedeflerinin bizimkilerle örtüşmeyebileceğinden” rahatsızlık duyduklarını ifade ederler. Ne kadar büyükse o kadar iyi, o kadar opak ve özeldir.
Ocak ayında, yapay zekanın dili anlamaya odaklanan dalı olan doğal dil işleme alanında çalışan bir grup genç akademisyen, bu paradigmayı tepetaklak etme çağrısında bulundu. Grup, ekipleri en gelişmiş büyük dil modellerinin veri kümelerinin on binde birinden daha küçük veri kümelerini kullanarak işlevsel dil modelleri oluşturmaya zorladı. Başarılı bir mini model, üst düzey modeller kadar güçlü ancak çok daha küçük, daha erişilebilir ve “insan dostu” olacaktır. Projenin adı BabyLM Challenge.
Johns Hopkins Üniversitesi’nde bilgisayar bilimcisi ve BabyLM’nin organizatörü Aaron Mueller, “İnsanları küçük düşünmeye ve daha fazla insanın kullanabileceği verimli sistemler oluşturmaya daha fazla odaklanmaya davet ediyoruz” dedi.
ETH Zürih’te bir bilgisayar bilimcisi ve projenin başka bir organizatörü olan Alex Warstadt şunları ekledi: “Bu meydan okuma, ‘modellerimizi ne kadar büyük yapabiliriz?’ hakkında değil, insan dillerini öğrenmekle ilgili soruları sohbetin merkezine koyuyor.” “
Büyük dil modelleri, belirli bir cümle veya ifadedeki bir sonraki kelimeyi tahmin etmek için tasarlanmış sinir ağlarıdır. Transkriptlerden, web sitelerinden, romanlardan ve gazetelerden bir kelime külliyatı kullanarak bu görev için eğitileceksiniz. Tipik bir model, örnek cümleleri kullanarak tahminde bulunur ve ardından doğru cevaba ne kadar yaklaştığına bağlı olarak uyum sağlar.
Bir model, bu işlemi defalarca tekrarlayarak, kelimelerin birbirleriyle nasıl ilişkili olduğuna dair haritalar oluşturur. Genel olarak, bir model ne kadar çok kelime eğitirse o kadar iyi olur; Her cümle, modele bağlam sağlar ve daha fazla bağlam, her kelimenin ne anlama geldiğine dair daha ayrıntılı bir anlama yol açar. OpenAI’nin 2020’de piyasaya sürülen GPT-3’ü 200 milyar kelimeye göre eğitildi; DeepMind’ın 2022’de piyasaya sürülen Chinchilla’sı bir trilyona eğitildi.
ETH Zürih’te dilbilimci olan Ethan Wilcox için, insan olmayan bir şeyin dil üretebilmesi heyecan verici bir fırsat sunuyor: Yapay zeka dil modelleri, insanların dili nasıl öğrendiğini incelemek için kullanılabilir mi?
Örneğin, Noam Chomsky’nin ilk çalışmalarına dayanan etkili bir teori olan yerlicilik, insanların “dilin nasıl çalıştığına dair doğuştan bir anlayışa sahip oldukları” için dili hızlı ve verimli bir şekilde öğrendiklerini iddia eder. Ancak dil modelleri bile dili hızlı bir şekilde ve görünüşe göre dilin nasıl çalıştığına dair doğuştan bir anlayışa sahip olmadan öğrenir – bu yüzden belki de yerelcilik su tutmaz.
Buradaki zorluk, dil modellerinin insanlardan çok farklı şekilde öğrenmesidir. İnsanın bir bedeni, sosyal bir hayatı ve zengin duyumları vardır. Malç kokusu alabilir, tüyleri hissedebilir, kapılara çarpabilir ve nane tadı alabiliriz. Erken yaşlardan itibaren, genellikle yazılı olarak temsil edilmeyen basit sözlü kelimeler ve sözdizimi ile karşı karşıyayız. doktor Wilcox, dil üreten bir bilgisayarın milyonlarca yazılı sözcükle eğitildikten sonra, bize kendi dil sürecimiz hakkında bilgi verme yeteneğinin sınırlı olduğu sonucuna vardı.
Bununla birlikte, bir dil modeli yalnızca bir gencin karşılaştığı sözcüklere maruz bırakılsaydı, kendi yeteneklerimiz hakkında sahip olduğumuz belirli soruları yanıtlayabilecek şekillerde potansiyel olarak dille etkileşime girebilirdi.
Bu yüzden Dr. Wilcox, Bay Mueller ve Dr. Warstadt, yarım düzine meslektaşıyla birlikte, dil modellerini insan anlayışına biraz daha yaklaştırmaya çalışmak için BabyLM Challenge’ı yarattı. Ocak ayında ekipleri, 13 yaşındaki bir insanın karşı karşıya kalacağı aynı sayıda kelimeyle (yaklaşık 100 milyon) dil modelleri eğitmeye çağırdılar. Aday modeller, konuşma nüanslarını ne kadar iyi ürettikleri ve yakaladıkları konusunda test edilecek ve bir kazanan duyurulacaktı.
McGill Üniversitesi’nde dilbilimci olan Eva Portelance, duyurusunun yapıldığı gün bir meydan okumayla karşılaştı. Araştırması, bilgisayar bilimi ve dilbilim arasındaki genellikle akışkan sınırda ilerliyor. 1950’lerde yapay zekaya ilk girişler, insanın bilişsel yeteneklerini bilgisayarlarda modelleme arzusuyla gerçekleşti. Yapay zekadaki temel bilgi işleme birimi “nöron”dur ve 1980’ler ve 1990’lardaki ilk dil modelleri doğrudan insan beyninden esinlenmiştir.
Ancak işlemciler daha güçlü hale geldikçe ve şirketler pazarlanabilir ürünler üzerinde çalışmaya başladıkça, bilgisayar bilimcileri, dil modellerini büyük miktarda veri üzerinde eğitmenin, onları psikolojik olarak sağlam yapılara zorlamaktan genellikle daha kolay olduğunu fark ettiler. Sonuç olarak Dr. Portelance: “Bize insan benzeri metinler veriyorlar, ancak bizimle bunların nasıl çalıştığı arasında hiçbir bağlantı yok.”
İnsan zihninin nasıl çalıştığını anlamakla ilgilenen bilim adamları için bu büyük modeller sınırlı içgörü sunar. Ve muazzam bilgi işlem gücü gerektirdiklerinden, yalnızca birkaç araştırmacı bunlara erişebilir. Dr. dedi Wilcox.
“Ya da onları yüklemek için,” diye ekledi Bay Müller. “Bu, bu alandaki araştırmaların son zamanlarda biraz daha az demokratik hissettirmesine neden oldu.”
BabyLM Mücadelesi, dedi Dr. Portelance, daha büyük dil modelleri etrafındaki silahlanma yarışından ve daha erişilebilir, sezgisel bir yapay zekaya doğru bir adım olarak görülebilir.
Böyle bir araştırma programının potansiyeli, daha büyük endüstriyel laboratuvarlar tarafından göz ardı edilmemiştir. OpenAI genel müdürü Sam Altman, geçtiğimiz günlerde dil modellerinin boyutunu artırmanın son yıllarda gözlemlenen aynı gelişmelere yol açmayacağını söyledi. Google ve Meta gibi şirketler de insan bilişsel yapılarına dayalı daha verimli dil modelleri araştırmalarına yatırım yapıyor. Son olarak, daha az veriyle eğitildiğinde konuşma üretebilen bir model de potansiyel olarak ölçeklenebilir.
Başarılı bir BabyLM’nin ödülleri ne olursa olsun, mücadelenin arkasındakiler için hedefler daha akademik ve soyut. Fiyat bile pratikliği baltalıyor. “Sadece gurur duyuyorum” dedi Dr. Wilcox.