fbpx

ChatGPT’ye Görsel ve Sesli Komutlar Vermek Mümkün Oluyor

Gönderen Alp Eren Gümüş
4 dk Okuma Süresi
  • OpenAI, ChatGPT’nin yalnızca bir metin kutusuna cümleler yazarak değil, sesli bir şekilde veya yalnızca bir görsel kullanarak yönlendirmenize olanak tanıyan yeni bir hizmet sürümünü kullanıma sunuyor.
  • OpenAI’ın Whisper modeli konuşmadan metne işinin çoğunu yapıyor. Ayrıca şirket, “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebileceğini söylediği yeni bir metinden konuşmaya modelini kullanıma sunuyor.
  • Ancak sadece birkaç saniyelik sesle kaliteli bir sentetik ses oluşturabilmeniz, her türlü sorunlu kullanım durumuna da kapı açıyor. Şirket, yeni özellikleri duyurduğu bir blog yazısında “Bu yetenekler, kötü niyetli aktörlerin kamuya mal olmuş kişileri taklit etme ya da dolandırıcılık yapma potansiyeli gibi yeni riskleri de beraberinde getiriyor.” diyor.
  • Görsel aramanın da potansiyel sorunları var. Bunlardan ilki, bir chatbot’a birisi hakkında soru sorduğunuzda neler olabileceği. OpenAI, ChatGPT’nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle kasıtlı olarak sınırladığını söylüyor.

OpenAI’ın ChatGPT’de yaptığı değişikliklerin çoğu, yapay zeka destekli botun yapabileceklerini kapsıyor. GPT’nin cevaplayabileceği sorular, erişebileceği bilgiler ve geliştirilmiş temel modelleri gibi… Ancak OpenAI bu kez, ChatGPT’yi kullanma şeklinizi değiştiriyor. Şirket, yapay zeka botunu yalnızca bir metin kutusuna cümleler yazarak değil, sesli bir şekilde veya yalnızca bir görsel yükleyerek yönlendirmenize olanak tanıyan yeni bir hizmet sürümünü kullanıma sunuyor. OpenAI’a göre yeni özellikler, önümüzdeki iki hafta içinde ChatGPT için ödeme yapanlara sunulacak ve diğer herkes “kısa bir süre sonra” buna sahip olacak.

Sesli sohbet kısmı oldukça tanıdık. Bir düğmeye dokunup sorunuzu söylüyorsunuz, ChatGPT bunu metne dönüştürüyor ve büyük dil modeline aktarıyor. Daha sonra bir yanıt geliyor, GPT bunu tekrar konuşmaya dönüştürüyor ve yanıtı yüksek sesle okuyor. Tıpkı Alexa ya da Google Assistant ile gibi. Sadece -OpenAI’nin umduğu üzere- altta yatan gelişmiş teknoloji sayesinde cevaplar daha verimli olacak.

OpenAI’ın mükemmel Whisper modeli konuşmadan metne işinin çoğunu yapıyor. Ayrıca şirket, “sadece metin ve birkaç saniyelik örnek konuşmadan insan benzeri ses” üretebileceğini söylediği yeni bir metinden konuşmaya modelini kullanıma sunuyor.

ChatGPT’nin sesini beş seçenek arasından seçmek mümkün olacak. Ancak OpenAI modelin bundan çok daha fazla potansiyele sahip olduğunu düşünüyor. OpenAI, örneğin podcastleri diğer dillere çevirmek için Spotify ile birlikte çalışıyor ve bu sırada podcast yayıncısının sesini koruyor. Sentetik sesler için pek çok ilginç kullanım alanı var ve OpenAI bu sektörün büyük bir parçası olabilir.

Ancak sadece birkaç saniyelik sesle kaliteli bir sentetik ses oluşturabilmeniz, her türlü sorunlu kullanım durumuna da kapı açıyor. Şirket yeni özellikleri duyurduğu bir blog yazısında “Bu yetenekler, kötü niyetli aktörlerin kamuya mal olmuş kişileri taklit etme ya da dolandırıcılık yapma potansiyeli gibi yeni riskleri de beraberinde getiriyor.” diyor. OpenAI, modelin tam da bu nedenle geniş kullanım için uygun olmadığını söylüyor.

Bu arada görsel arama biraz Google Lens’e benziyor. İlgilendiğiniz şeyin fotoğrafını çekiyorsunuz ve ChatGPT ne hakkında soru sorduğunuzu anlamaya çalışıyor. Sonra buna uygun yanıt veriyor. Ayrıca sorgunuzu netleştirmek için uygulamanın çizim aracını kullanabilir veya görüntüyle birlikte sesli komut verip veya metin yazabilirsiniz.

Görsel aramanın da potansiyel sorunları var. Bunlardan ilki, bir chatbot’a birisi hakkında soru sorduğunuzda neler olabileceği. OpenAI, ChatGPT’nin “insanlar hakkında analiz yapma ve doğrudan ifadelerde bulunma yeteneğini” hem doğruluk hem de gizlilik nedenleriyle kasıtlı olarak sınırladığını söylüyor.

ChatGPT’nin ilk lansmanından neredeyse bir yıl sonra, OpenAI hâlâ yeni sorunlar ve dezavantajlar yaratmadan botuna nasıl daha fazla özellik ve yetenek kazandıracağını bulmaya çalışıyor. Bu sürümlerle şirket, yeni modellerinin yapabileceklerini kasıtlı olarak sınırlandırarak ince bir çizgide yürümeye çalışıyor. Ancak bu yaklaşım gelecek vaat etmiyor.

Derleyen: Alp Eren Gümüş

alperen profil
Alp Eren Gümüş

Teknoloji, uçsuz bucaksız potansiyeliyle her geçen gün hayatımızın daha büyük bir parçası haline gelmekte. Tüm bu gelişmelerin peşinde, bizi biz yapan değerleri kaybetmemeyi dileyen bir hayalperest. Dijitaliyidir için Alp’in sloganı “dijital doğru ellerde iyidir” oldu.

Bu içeriği paylaş
Gönderen Alp Eren Gümüş
Teknoloji, uçsuz bucaksız potansiyeliyle her geçen gün hayatımızın daha büyük bir parçası haline gelmekte. Tüm bu gelişmelerin peşinde, bizi biz yapan değerleri kaybetmemeyi dileyen bir hayalperest. Dijitaliyidir için Alp’in sloganı “dijital doğru ellerde iyidir” oldu.
Yorum yaz