Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
OpenAI ChatGPT Plus aboneliği güçlüdür ve günlük hayatta önemli bir üretkenlik aracı olarak kullanılabilecek gelişmiş "Gelişmiş Veri Analizi", "Eklentiler" ve "Bing ile Göz At" uygulayabilir. Bununla birlikte, ticari nedenlerden dolayı, kapalı kaynak seçilir ve araştırmacılar ve geliştiriciler, üzerinde herhangi bir araştırma veya iyileştirme yapma imkanı olmadan yalnızca kullanabilirler.
Buna dayanarak, Hong Kong Üniversitesi, XLang Lab, Sea AI Lab ve Salesforce'tan araştırmacılar, araştırmacılardan geliştiricilere ve kullanıcılara kadar herkesin ihtiyaçlarını karşılamak için gerçek dünya üretkenlik araçları için açık kaynaklı bir aracı çerçevesi olan OpenAgents'ı ve açık kaynaklı tam yığın kodunu (tam ön uç, arka uç, araştırma kodu) ortaklaşa oluşturdular.
OpenAgents, ChatGPT Plus'ın işlevselliğini "büyük dil modellerine" (LLM'ler) ve tam yığın mühendislik koduna dayalı teknolojilerle yaklaştırmaya çalışır. Aracı, Python/SQL kodunu yürütebilir, araçları ustaca çağırabilir ve ayrıca araştırma kodu uygulamasından arka uç ön ucuna kadar İnternet'te haritalar ve gönderiler bulabilir ve bu da onu herkesin kullanabileceği bir giriş düzeyi uygulaması haline getirir. OpenAgents, kullandıkları teknolojiyi ve karşılaştıkları zorlukları tam olarak açıklar, bilimsel araştırmadan mantık koduna ve ön uç koduna kadar her şeyi kapsayan kodu tamamen açık kaynak haline getirir. Kod mükemmeldir, genişletilmesi kolaydır ve tek bir tıklamayla doğrudan yerel olarak dağıtılabilir ve araştırmacıların ve geliştiricilerin model üzerinde kendi aracılarını ve uygulamalarını oluşturmalarına yardımcı olmak için zengin kullanım örneklerine sahip destekleyici belgeler sağlanır.
*OpenAgents'a genel bakış haritası, kullanıcıya yönelik web arayüzü, geliştiriciler için yerel dağıtım, araştırmacılar için dil aracıları. *
* Kod bağlantısı:
Kağıt Bağlantısı:
Demo bağlantısı:
Belge bağlantısı:
**ChatGPT Plus ile aynı ve "aynı değil"
Solda OpenAgents'ın uygulanması ve sağda ChatGPT Plus var:
"Veri Analizi" işlevine bir göz atalım. Hisse senedi fiyatlarını analiz etme göreviyle OpenAgents ve ChatGPT, kullanıcıların hisse senedi fiyatları ve işlemleri için gereksinimlerini analiz etme konusunda iyi bir iş çıkarabilir. OpenAgents, Kaggle veri kümesini otomatik olarak arayabilir ve indirebilirken, ChatGPT, kullanıcıların bunu yerel olarak yüklemesini gerektirir.
OpenAI'nin en eski "eklenti" işlevini deneyin. Kullanıcı bazı oktahedronlar çizmek istedi ve her ikisi de birden fazla oktahedronun resimlerini çizmek için Wolfram eklentisini başarıyla çağırdı.
Son olarak, "Web'de Gezinme"ye bir göz atın. Bir kullanıcı 20 Ekim'de Hong Kong'dan New York'a uçak biletini kontrol etmek istediğinde, OpenAgents kullanıcının niyetini tanır ve doğrudan Skycanner'a atlar, web sitesindeki bilgileri doldururken "gerçek bir kişi" gibi düşünür ve son olarak bilgileri özetlemek için sohbet sayfasına geri döner; ChatGPT, eklentileri çağırmaya, bulutta web'de gezinmeye ve son aranan bilgileri döndürmeye benzer şekilde kontrol edilebilirliği sağlamak için güvenlik içindedir.
OpenAgents açık kaynak kodu sağladığından, geliştiriciler ve araştırmacılar özelleştirebilir, birkaç kod satırını istedikleri modele uyarlayabilir, geliştirebilir, istedikleri özellikleri oluşturabilir ve hatta yeni aracılar oluşturabilir. Bu, bu yönde daha fazla geliştirme ve araştırma için gereklidir.
** Basit görünüyor, neden "üretkenlik kullanılabilir" ajanlar bu kadar çok çukura basıyor? **
Aracılar için birçok açık kaynak çerçevesi vardır ve büyük modellere dayalı ara yazılımlar sonsuz bir akışta ortaya çıkmaktadır, bu nedenle gerçekten kullanışlı ve kullanılabilir bir aracı oluşturmak kolay değildir, OpenAgents makalelerinde diğer aracı çerçeveleriyle karşılaştırıldığında:
* OpenAgents'ı diğer çerçevelerle karşılaştırın. *
Tablodan da görebileceğiniz gibi, "Arayüz" ve "Ortam", OpenAgents'ı diğerlerinden ayıran şeylerden ikisidir. LangChain, AutoGPT ve BabyAGI gibi mevcut açık kaynak çerçeveleri, geliştiricilere erken kavram kanıtı uygulamaları ve konsol arayüzleri sağlamak için tasarlanmıştır, ancak gerçek dünyada yeterince sağlam değildir ve daha geniş bir kitleye, özellikle de programlamaya veya konsollara aşina olmayanlara erişimi sınırlar. Kapalı kaynaklı bir mimaride OpenAI, ChatGPT Plus'ta iyi tasarlanmış ürünleri, özellikle gelişmiş veri analitiği (eski adıyla kod yorumlayıcıları), eklentiler ve Bing Tarama gibi özellikleri dağıtarak daha eğitimli modellerden, iş mantığı kodundan ve beslenen yazılım topluluklarından (ör. eklenti mağazaları) yararlanır. Ancak kapalı kaynak, onları geliştirme ve araştırma platformları olarak kullanmayı zorlaştırır ve topluluk, keşfetmek, değerlendirmek ve geliştirmek için devlerin omuzlarında duramaz. Bu boyutlara odaklandıktan sonra OpenAgents, gerçek senaryolar için açık kaynaklı bir aracı çerçevesi olarak topluluğa ChatGPT Plus ile rekabet edebilecek bir platform sağlar.
"Arayüzde", OpenAgents çevrimiçi web sayfası demoları sağlar (ve açık kaynak kodunu destekler) ve programcı olmayan geçmişe sahip sıradan kullanıcılar aracılarla kolayca etkileşime girebilirken, önceki çalışmalar genellikle aracıların kullanım eşiğini büyük ölçüde yükselten "konsol komut arayüzü" (CLI) biçiminde etkileşim sağlamaz veya sağlamaz. "Destekleyici ortamda", OpenAgents gerçek dünya ve kontrol edilebilir ortamları destekler, 200+ günlük araç çağrısından fazlasını destekler ve otomatik web taramasını destekler.
Bu özellikler, OpenAgents'ı sıradan kullanıcılar için en az seçim engeline odaklar ve donatır; Ayrıca araştırma, geliştiricilere vb. muhtemelen en iyi doğrudan kullanıcı fırsatını sağlar.
** Üretkenliğin geleceğinde ilk adım olarak Agent: "kullanıcıların", "geliştiricilerin" ve "araştırmacıların" kullanabileceği bir aracı platformu**
Yukarıdaki sorunları ele almak için OpenAgents, şu anda üç temel aracı içeren aracıların kullanımı ve dağıtımı için açık kaynaklı bir platform olarak hizmet vermeye motive edilmiştir:
Python ve SQL için veri aracıları;
200'den fazla araç tarafından kullanılan eklenti ajanları;
Otomatik web taraması için web aracısı.
OpenAgents, büyük dil modellerinin tam potansiyellerine ulaşmaları için tamamen teorik veya geliştirici odaklı araçlardan geniş bir kullanıcı tabanı için dinamik, etkileşimli sistemlere dönüşmeleri gerektiğine inanmaktadır. "Sıradan kullanıcılar", kodlama uzmanlığı olmadan çevrimiçi web kullanıcı arayüzü aracılığıyla aracı işlevselliğini kolayca keşfedebilir. Buna ek olarak, OpenAgents "geliştiricilere" yerel olarak kolay dağıtım için eksiksiz iş mantığı ve araştırma kodu sağlar ve "araştırmacılar" daha fazla dil aracısı oluşturabilir. Son olarak, OpenAgents, insanlarla etkileşime girebilecek aracıları değerlendirmek için gerçek ve kapsamlı bir platform olmayı amaçlamaktadır: gerçek ihtiyaçlara dayalı olarak, gerçek kullanıcılar görevlerini tamamlamak için aracılarla etkileşime girer ve daha fazla değerlendirme için tüm kullanıcı-aracısı etkileşim sürecini ve kullanıcı geri bildirimlerini kaydeder. Mevcut kıyaslamalar ve platformlarla karşılaştırıldığında OpenAgents, aracıların çeşitli gerçek kullanıcı ihtiyaçlarını karşılayabileceği gerçek dünya ortamı sağlar.
Karşılaşılan ve Üstesinden Gelinen Zorluklar
Zorluk 1: İpuçlarına dayalı gerçek dünya dil modelleri oluşturmanın dezavantajları
Gerçek kullanıcılar için bilgi istemi tabanlı uygulamalar oluştururken, belirli gereksinimleri ayarlamak için istemlerdeki yönergeleri kullanın. Bu yönergeler, bazıları büyük dil modelinin çıktısının arka uç mantığı tarafından işlenen belirli bir biçime (belirli anahtarların sözlüğü olarak çıktı) uygun olmasını sağlamak için farklı amaçlara hizmet eder; Bazıları çıktının estetiğini iyileştirmek içindir (öğeleri mümkün olduğunca tek tek listeleyin); Bazıları olası saldırıları önlemek için kullanılır (kullanıcıyı kötü amaçlı olarak oluşturulmuş programlardan oluşan sonsuz bir döngüyü reddeder ve yürütür).
Dil modellerini kısıtlamak için kısıtlama amaçlı istemlere sahip bu kısıtlamalar, geliştiricilerin ve araştırmacıların, birlikte genellikle yüzlerce "belirteç" veya hatta binlerce belirteç olan bazı kullanılabilir yönergelerde tekrar tekrar hata ayıklamasını gerektirir ve bu yönergeler modele bir önek olarak tekrar tekrar girilir ve bu da büyük miktarda grafik kartı kaynağı tüketimine neden olur; Öte yandan, ne kadar çok belirteç varsa, LLM'ye o kadar bağımlı olmak iyi bir performansa sahiptir, bu nedenle bu teknik yol, büyük dil modellerinin talimat izleme yeteneği ve desteklenen bağlam uzunluğu için belirli gereksinimleri ortaya koymaktadır.
Mevcut açık kaynak modeli bu alanlarda önemli gelişmeler kaydetmiştir, ancak deneylerde pratik kullanım için hala yeterli değildir ve bu yöndeki araştırmalar devam edebilir. Ek olarak, ajan modellerinin temel geliştirilmesi ve araştırılmasının yanı sıra belirli alanlar ve gereksinimler için özel ajan modellerinin eğitimine daha fazla dikkat edilmesi gerekmektedir. Bu yaklaşım, yalnızca genetik olarak güçlü ancak sabit bir model için istemlere güvenmekten daha verimli ve kontrol edilebilir olabilir.
Zorluk 2: Kontrol edilemeyen gerçekler
Gerçek dünyadaki dilsel zekayı uygulamak, kullanıcı davranışı, İnternet'in altyapısı ve iş mantığı da dahil olmak üzere, geçmiş çalışmalarda yeterince modellenmemiş olan kontrol edilemeyen birçok gerçek dünya faktörüyle yüzleşmeyi gerektirir. Bu, geçmiş çalışmalarda kullanılan varsayımların ve yöntemlerin çoğunun yeniden değerlendirilmesini ve hatta tersine çevrilmesini gerektirir. Dikkate alınması gereken bir nokta, API'nin çağrıldığı sunucunun çökebileceğidir. Bu durum, geçmiş araç kullanım çalışmalarında varsayıldığı gibi değil, kullanıcı komutlarının izlenmesini ve istikrarlı bir şekilde tamamlanmasını gerektirir. Kullanıcılar yanıt oluşturma işlemi sırasında memnuniyetsizlik hissedebilir ve bu da oluşturma işlemi sırasında dil modelinin kesintiye uğramasına neden olabilir.
Buna ek olarak, CAPTCHA pop-up'ları veya web sayfalarındaki reklam değişiklikleri gibi öngörülemeyen olaylar, web'de gezinmeyi otomatikleştirmeye yönelik önceki çabalarda dikkate alınmayan, nispeten kararlı bir web sayfası yapısına bir dereceye kadar rastgelelik getirebilir. Temsilcinin tepki vermesi ve düşünmesi için geçen sürede değişen ortam (ki bu artık genellikle saniyeler sürüyor) gibi daha birçok sorun var.
Zorluk: Gerçek dünya senaryolarından ek ölçümler**
Spesifik çalışmalar genellikle performans ölçütlerine çok fazla vurgu yapar ve gerçek dünya senaryolarında temel ihtiyaçları göz ardı eder. Örneğin, oluşturulan her belirtecin kullanıcıya mümkün olan en kısa sürede görüntülendiği akışı kullanmak, kullanıcıların birlikte görmeden önce uzun metnin oluşturulmasını beklemek zorunda kalmadan sistemden gelen geri bildirimleri hızlı bir şekilde algılamasına olanak tanır. Özel olarak tasarlanmış istemler, aracının yanıt biçimini daha güzel hale getirebilir ve bu da kullanıcı deneyimi üzerinde önemli bir etkiye sahiptir. Ancak, mevcut yöntemler bu etkileri yeterince hesaba katmamaktadır. Sonuç olarak, doğruluktaki performans göstergeleri mükemmel olsa da, pratikte uzun yanıt sürelerine, zayıf metin okunabilirliğine ve kötü kullanıcı deneyimine yol açan diğer sorunlara yol açabilir ve bir sonraki araştırmanın performans ve kullanıcı deneyimi arasındaki dengeyi daha fazla dikkate alması gerekir.
Zorluk 4: Sistem sorunlarının neden olduğu değerlendirme karmaşıklığı
Doğrudan uygulamaya özel aracılar oluşturmak, daha fazla kullanıcı ihtiyacını karşılarken aynı zamanda daha fazla değerlendirme zorluğunu da ortaya çıkarabilir. Bununla birlikte, LLM tabanlı uygulama oluşturma, başarısızlık durumlarının LLM uygulamalarının sınırlamalarından mı yoksa yetersiz mantık kodundan mı kaynaklandığını belirlemeyi zorlaştıran ek karmaşıklık getirir. Örneğin, aracının yeteneğini yargılamak mantıksızdır, çünkü bir kullanıcı yüklenen dosyayı arayüzden doğrudan sürükleyip bırakamaz ve bu da kullanıcının istediği işlemi tamamlayamamasına neden olur. Bu nedenle, ajan tasarımı ve operasyon mantığı sistemini geliştirmek, ajan sürecini ve kullanıcı kullanım mantığını basitleştirmek veya daha eksiksiz bir tasarım ve uygulama mantığı oluşturmak umut verici ve gereklidir.
Geleceğe Bakış
OpenAgents, araştırma ve geliştirmede bir sonraki adımda topluluğa nasıl yardımcı olabilir? Vizyonlarında en azından aşağıdakiler var:
Gelecekteki Çalışmalar 1: Daha Fazla Aracı Uygulaması Oluşturun
OpenAgents, eksiksiz bir uygulama düzeyinde dil aracısı geliştirme süreci ve gerekli teknolojileri açar ve kodu açar. Bu, diğer yenilikçi uygulamalar ve son kullanıcılar için olanaklar sunar. Geliştiriciler, çok modlu diyalog, sesli diyalog, kütüphane düzeyinde kod asistanı vb. gibi istedikleri herhangi bir yeni uygulamayı oluşturabilirler.
İşin Geleceği 2: Araç ve Bileşen Entegrasyonu
OpenAgents, yardımcı program sınıfı aracı uygulamaları oluşturmanın temel ihtiyaçlarını araştırır ve ele alır, topluluğun diğer bileşenleri entegre ederek yatay olarak kolayca ölçeklendirilmesi için güçlü bir temel sağlar. Aynı zamanda, son büyük ölçekli multimodal modeller gibi daha temel modeller genişletilebilir ve yeni UI tasarımlarına uyarlanabilir.
İşin Geleceği 3: İnsan-bilgisayar etkileşimi alanında araştırma
OpenAgents platformunu temel alan geliştiriciler ve araştırmacılar, büyük dil modellerine dayalı olarak kolayca yeni aracı uygulamaları oluşturabilir. Böylece OpenAgents, insan-bilgisayar etkileşimi (HCI) araştırmacılarının daha sezgisel ve kullanıcı dostu arayüz tasarımlarını araştırmaları için uygulama demoları oluşturmaya yardımcı olabilir. Bu, kullanıcı katılımını ve memnuniyetini artıracaktır.
Future Work 4: Uyarlanabilir Kullanıcı Arayüzü Oluşturma
Kullanıcı arayüzlerinin oluşturulmasını otomatikleştirmek ilginç ve zorlu bir alandır. Bu arayüzler, kullanıcının cihazı, tercihleri veya bağlamı gibi belirli kriterlere göre kendi kendine uyarlanabilir veya özelleştirilebilir. Araştırmacılar, OpenAgents tabanlı uyarlanabilir kullanıcı arayüzlerinde büyük dil modellerinin nasıl uygulandığını ve bunların kullanıcı deneyimi üzerindeki etkilerini araştırabilir.
Gelecekteki Çalışmalar 5: Gerçek Dünya Uygulama Senaryolarında Büyük Dil Modellerinin Değerlendirilmesi
Büyük dilli modeller için tarafsız ve sağlam bir değerlendirme yöntemi oluşturmak, yeteneklerini ve performanslarını adil bir şekilde değerlendirmek için çok önemlidir. Şu anda, aracılar önceden toplanmış veriler ve kontrollü bir ortam kullanılarak kıyaslanmaktadır. Bu değerlendirmeler kritik öneme sahip olsa da, genellikle gerçek dünyadaki dinamik zorlukları tam olarak yansıtmaz. Topluluğu bu değerlendirme ölçümlerini ve platformlarını genişletmeye veya iyileştirmeye teşvik etmek, alanı önemli ölçüde ilerletecek ve büyük dil modellerinin gerçek performansı ve yetenekleri hakkında daha doğru değerlendirmeler ve içgörüler sağlayacaktır.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Veri analizi, eklenti çağrısı, otomatik İnternet erişimi yapabilen ve gerçek dünya aracıları bulabilen "ChatGPT Plus"ın açık kaynaklı sürümü burada
Orijinal kaynak: Makinenin Kalbi
OpenAI ChatGPT Plus aboneliği güçlüdür ve günlük hayatta önemli bir üretkenlik aracı olarak kullanılabilecek gelişmiş "Gelişmiş Veri Analizi", "Eklentiler" ve "Bing ile Göz At" uygulayabilir. Bununla birlikte, ticari nedenlerden dolayı, kapalı kaynak seçilir ve araştırmacılar ve geliştiriciler, üzerinde herhangi bir araştırma veya iyileştirme yapma imkanı olmadan yalnızca kullanabilirler.
Buna dayanarak, Hong Kong Üniversitesi, XLang Lab, Sea AI Lab ve Salesforce'tan araştırmacılar, araştırmacılardan geliştiricilere ve kullanıcılara kadar herkesin ihtiyaçlarını karşılamak için gerçek dünya üretkenlik araçları için açık kaynaklı bir aracı çerçevesi olan OpenAgents'ı ve açık kaynaklı tam yığın kodunu (tam ön uç, arka uç, araştırma kodu) ortaklaşa oluşturdular.
OpenAgents, ChatGPT Plus'ın işlevselliğini "büyük dil modellerine" (LLM'ler) ve tam yığın mühendislik koduna dayalı teknolojilerle yaklaştırmaya çalışır. Aracı, Python/SQL kodunu yürütebilir, araçları ustaca çağırabilir ve ayrıca araştırma kodu uygulamasından arka uç ön ucuna kadar İnternet'te haritalar ve gönderiler bulabilir ve bu da onu herkesin kullanabileceği bir giriş düzeyi uygulaması haline getirir. OpenAgents, kullandıkları teknolojiyi ve karşılaştıkları zorlukları tam olarak açıklar, bilimsel araştırmadan mantık koduna ve ön uç koduna kadar her şeyi kapsayan kodu tamamen açık kaynak haline getirir. Kod mükemmeldir, genişletilmesi kolaydır ve tek bir tıklamayla doğrudan yerel olarak dağıtılabilir ve araştırmacıların ve geliştiricilerin model üzerinde kendi aracılarını ve uygulamalarını oluşturmalarına yardımcı olmak için zengin kullanım örneklerine sahip destekleyici belgeler sağlanır.
**ChatGPT Plus ile aynı ve "aynı değil"
Solda OpenAgents'ın uygulanması ve sağda ChatGPT Plus var:
OpenAgents açık kaynak kodu sağladığından, geliştiriciler ve araştırmacılar özelleştirebilir, birkaç kod satırını istedikleri modele uyarlayabilir, geliştirebilir, istedikleri özellikleri oluşturabilir ve hatta yeni aracılar oluşturabilir. Bu, bu yönde daha fazla geliştirme ve araştırma için gereklidir.
** Basit görünüyor, neden "üretkenlik kullanılabilir" ajanlar bu kadar çok çukura basıyor? **
Aracılar için birçok açık kaynak çerçevesi vardır ve büyük modellere dayalı ara yazılımlar sonsuz bir akışta ortaya çıkmaktadır, bu nedenle gerçekten kullanışlı ve kullanılabilir bir aracı oluşturmak kolay değildir, OpenAgents makalelerinde diğer aracı çerçeveleriyle karşılaştırıldığında:
Tablodan da görebileceğiniz gibi, "Arayüz" ve "Ortam", OpenAgents'ı diğerlerinden ayıran şeylerden ikisidir. LangChain, AutoGPT ve BabyAGI gibi mevcut açık kaynak çerçeveleri, geliştiricilere erken kavram kanıtı uygulamaları ve konsol arayüzleri sağlamak için tasarlanmıştır, ancak gerçek dünyada yeterince sağlam değildir ve daha geniş bir kitleye, özellikle de programlamaya veya konsollara aşina olmayanlara erişimi sınırlar. Kapalı kaynaklı bir mimaride OpenAI, ChatGPT Plus'ta iyi tasarlanmış ürünleri, özellikle gelişmiş veri analitiği (eski adıyla kod yorumlayıcıları), eklentiler ve Bing Tarama gibi özellikleri dağıtarak daha eğitimli modellerden, iş mantığı kodundan ve beslenen yazılım topluluklarından (ör. eklenti mağazaları) yararlanır. Ancak kapalı kaynak, onları geliştirme ve araştırma platformları olarak kullanmayı zorlaştırır ve topluluk, keşfetmek, değerlendirmek ve geliştirmek için devlerin omuzlarında duramaz. Bu boyutlara odaklandıktan sonra OpenAgents, gerçek senaryolar için açık kaynaklı bir aracı çerçevesi olarak topluluğa ChatGPT Plus ile rekabet edebilecek bir platform sağlar.
"Arayüzde", OpenAgents çevrimiçi web sayfası demoları sağlar (ve açık kaynak kodunu destekler) ve programcı olmayan geçmişe sahip sıradan kullanıcılar aracılarla kolayca etkileşime girebilirken, önceki çalışmalar genellikle aracıların kullanım eşiğini büyük ölçüde yükselten "konsol komut arayüzü" (CLI) biçiminde etkileşim sağlamaz veya sağlamaz. "Destekleyici ortamda", OpenAgents gerçek dünya ve kontrol edilebilir ortamları destekler, 200+ günlük araç çağrısından fazlasını destekler ve otomatik web taramasını destekler.
Bu özellikler, OpenAgents'ı sıradan kullanıcılar için en az seçim engeline odaklar ve donatır; Ayrıca araştırma, geliştiricilere vb. muhtemelen en iyi doğrudan kullanıcı fırsatını sağlar.
** Üretkenliğin geleceğinde ilk adım olarak Agent: "kullanıcıların", "geliştiricilerin" ve "araştırmacıların" kullanabileceği bir aracı platformu**
Yukarıdaki sorunları ele almak için OpenAgents, şu anda üç temel aracı içeren aracıların kullanımı ve dağıtımı için açık kaynaklı bir platform olarak hizmet vermeye motive edilmiştir:
OpenAgents, büyük dil modellerinin tam potansiyellerine ulaşmaları için tamamen teorik veya geliştirici odaklı araçlardan geniş bir kullanıcı tabanı için dinamik, etkileşimli sistemlere dönüşmeleri gerektiğine inanmaktadır. "Sıradan kullanıcılar", kodlama uzmanlığı olmadan çevrimiçi web kullanıcı arayüzü aracılığıyla aracı işlevselliğini kolayca keşfedebilir. Buna ek olarak, OpenAgents "geliştiricilere" yerel olarak kolay dağıtım için eksiksiz iş mantığı ve araştırma kodu sağlar ve "araştırmacılar" daha fazla dil aracısı oluşturabilir. Son olarak, OpenAgents, insanlarla etkileşime girebilecek aracıları değerlendirmek için gerçek ve kapsamlı bir platform olmayı amaçlamaktadır: gerçek ihtiyaçlara dayalı olarak, gerçek kullanıcılar görevlerini tamamlamak için aracılarla etkileşime girer ve daha fazla değerlendirme için tüm kullanıcı-aracısı etkileşim sürecini ve kullanıcı geri bildirimlerini kaydeder. Mevcut kıyaslamalar ve platformlarla karşılaştırıldığında OpenAgents, aracıların çeşitli gerçek kullanıcı ihtiyaçlarını karşılayabileceği gerçek dünya ortamı sağlar.
Karşılaşılan ve Üstesinden Gelinen Zorluklar
Zorluk 1: İpuçlarına dayalı gerçek dünya dil modelleri oluşturmanın dezavantajları
Gerçek kullanıcılar için bilgi istemi tabanlı uygulamalar oluştururken, belirli gereksinimleri ayarlamak için istemlerdeki yönergeleri kullanın. Bu yönergeler, bazıları büyük dil modelinin çıktısının arka uç mantığı tarafından işlenen belirli bir biçime (belirli anahtarların sözlüğü olarak çıktı) uygun olmasını sağlamak için farklı amaçlara hizmet eder; Bazıları çıktının estetiğini iyileştirmek içindir (öğeleri mümkün olduğunca tek tek listeleyin); Bazıları olası saldırıları önlemek için kullanılır (kullanıcıyı kötü amaçlı olarak oluşturulmuş programlardan oluşan sonsuz bir döngüyü reddeder ve yürütür).
Dil modellerini kısıtlamak için kısıtlama amaçlı istemlere sahip bu kısıtlamalar, geliştiricilerin ve araştırmacıların, birlikte genellikle yüzlerce "belirteç" veya hatta binlerce belirteç olan bazı kullanılabilir yönergelerde tekrar tekrar hata ayıklamasını gerektirir ve bu yönergeler modele bir önek olarak tekrar tekrar girilir ve bu da büyük miktarda grafik kartı kaynağı tüketimine neden olur; Öte yandan, ne kadar çok belirteç varsa, LLM'ye o kadar bağımlı olmak iyi bir performansa sahiptir, bu nedenle bu teknik yol, büyük dil modellerinin talimat izleme yeteneği ve desteklenen bağlam uzunluğu için belirli gereksinimleri ortaya koymaktadır.
Mevcut açık kaynak modeli bu alanlarda önemli gelişmeler kaydetmiştir, ancak deneylerde pratik kullanım için hala yeterli değildir ve bu yöndeki araştırmalar devam edebilir. Ek olarak, ajan modellerinin temel geliştirilmesi ve araştırılmasının yanı sıra belirli alanlar ve gereksinimler için özel ajan modellerinin eğitimine daha fazla dikkat edilmesi gerekmektedir. Bu yaklaşım, yalnızca genetik olarak güçlü ancak sabit bir model için istemlere güvenmekten daha verimli ve kontrol edilebilir olabilir.
Zorluk 2: Kontrol edilemeyen gerçekler
Gerçek dünyadaki dilsel zekayı uygulamak, kullanıcı davranışı, İnternet'in altyapısı ve iş mantığı da dahil olmak üzere, geçmiş çalışmalarda yeterince modellenmemiş olan kontrol edilemeyen birçok gerçek dünya faktörüyle yüzleşmeyi gerektirir. Bu, geçmiş çalışmalarda kullanılan varsayımların ve yöntemlerin çoğunun yeniden değerlendirilmesini ve hatta tersine çevrilmesini gerektirir. Dikkate alınması gereken bir nokta, API'nin çağrıldığı sunucunun çökebileceğidir. Bu durum, geçmiş araç kullanım çalışmalarında varsayıldığı gibi değil, kullanıcı komutlarının izlenmesini ve istikrarlı bir şekilde tamamlanmasını gerektirir. Kullanıcılar yanıt oluşturma işlemi sırasında memnuniyetsizlik hissedebilir ve bu da oluşturma işlemi sırasında dil modelinin kesintiye uğramasına neden olabilir.
Buna ek olarak, CAPTCHA pop-up'ları veya web sayfalarındaki reklam değişiklikleri gibi öngörülemeyen olaylar, web'de gezinmeyi otomatikleştirmeye yönelik önceki çabalarda dikkate alınmayan, nispeten kararlı bir web sayfası yapısına bir dereceye kadar rastgelelik getirebilir. Temsilcinin tepki vermesi ve düşünmesi için geçen sürede değişen ortam (ki bu artık genellikle saniyeler sürüyor) gibi daha birçok sorun var.
Spesifik çalışmalar genellikle performans ölçütlerine çok fazla vurgu yapar ve gerçek dünya senaryolarında temel ihtiyaçları göz ardı eder. Örneğin, oluşturulan her belirtecin kullanıcıya mümkün olan en kısa sürede görüntülendiği akışı kullanmak, kullanıcıların birlikte görmeden önce uzun metnin oluşturulmasını beklemek zorunda kalmadan sistemden gelen geri bildirimleri hızlı bir şekilde algılamasına olanak tanır. Özel olarak tasarlanmış istemler, aracının yanıt biçimini daha güzel hale getirebilir ve bu da kullanıcı deneyimi üzerinde önemli bir etkiye sahiptir. Ancak, mevcut yöntemler bu etkileri yeterince hesaba katmamaktadır. Sonuç olarak, doğruluktaki performans göstergeleri mükemmel olsa da, pratikte uzun yanıt sürelerine, zayıf metin okunabilirliğine ve kötü kullanıcı deneyimine yol açan diğer sorunlara yol açabilir ve bir sonraki araştırmanın performans ve kullanıcı deneyimi arasındaki dengeyi daha fazla dikkate alması gerekir.
Zorluk 4: Sistem sorunlarının neden olduğu değerlendirme karmaşıklığı
Doğrudan uygulamaya özel aracılar oluşturmak, daha fazla kullanıcı ihtiyacını karşılarken aynı zamanda daha fazla değerlendirme zorluğunu da ortaya çıkarabilir. Bununla birlikte, LLM tabanlı uygulama oluşturma, başarısızlık durumlarının LLM uygulamalarının sınırlamalarından mı yoksa yetersiz mantık kodundan mı kaynaklandığını belirlemeyi zorlaştıran ek karmaşıklık getirir. Örneğin, aracının yeteneğini yargılamak mantıksızdır, çünkü bir kullanıcı yüklenen dosyayı arayüzden doğrudan sürükleyip bırakamaz ve bu da kullanıcının istediği işlemi tamamlayamamasına neden olur. Bu nedenle, ajan tasarımı ve operasyon mantığı sistemini geliştirmek, ajan sürecini ve kullanıcı kullanım mantığını basitleştirmek veya daha eksiksiz bir tasarım ve uygulama mantığı oluşturmak umut verici ve gereklidir.
Geleceğe Bakış
OpenAgents, araştırma ve geliştirmede bir sonraki adımda topluluğa nasıl yardımcı olabilir? Vizyonlarında en azından aşağıdakiler var:
Gelecekteki Çalışmalar 1: Daha Fazla Aracı Uygulaması Oluşturun
OpenAgents, eksiksiz bir uygulama düzeyinde dil aracısı geliştirme süreci ve gerekli teknolojileri açar ve kodu açar. Bu, diğer yenilikçi uygulamalar ve son kullanıcılar için olanaklar sunar. Geliştiriciler, çok modlu diyalog, sesli diyalog, kütüphane düzeyinde kod asistanı vb. gibi istedikleri herhangi bir yeni uygulamayı oluşturabilirler.
İşin Geleceği 2: Araç ve Bileşen Entegrasyonu
OpenAgents, yardımcı program sınıfı aracı uygulamaları oluşturmanın temel ihtiyaçlarını araştırır ve ele alır, topluluğun diğer bileşenleri entegre ederek yatay olarak kolayca ölçeklendirilmesi için güçlü bir temel sağlar. Aynı zamanda, son büyük ölçekli multimodal modeller gibi daha temel modeller genişletilebilir ve yeni UI tasarımlarına uyarlanabilir.
İşin Geleceği 3: İnsan-bilgisayar etkileşimi alanında araştırma
OpenAgents platformunu temel alan geliştiriciler ve araştırmacılar, büyük dil modellerine dayalı olarak kolayca yeni aracı uygulamaları oluşturabilir. Böylece OpenAgents, insan-bilgisayar etkileşimi (HCI) araştırmacılarının daha sezgisel ve kullanıcı dostu arayüz tasarımlarını araştırmaları için uygulama demoları oluşturmaya yardımcı olabilir. Bu, kullanıcı katılımını ve memnuniyetini artıracaktır.
Future Work 4: Uyarlanabilir Kullanıcı Arayüzü Oluşturma
Kullanıcı arayüzlerinin oluşturulmasını otomatikleştirmek ilginç ve zorlu bir alandır. Bu arayüzler, kullanıcının cihazı, tercihleri veya bağlamı gibi belirli kriterlere göre kendi kendine uyarlanabilir veya özelleştirilebilir. Araştırmacılar, OpenAgents tabanlı uyarlanabilir kullanıcı arayüzlerinde büyük dil modellerinin nasıl uygulandığını ve bunların kullanıcı deneyimi üzerindeki etkilerini araştırabilir.
Gelecekteki Çalışmalar 5: Gerçek Dünya Uygulama Senaryolarında Büyük Dil Modellerinin Değerlendirilmesi
Büyük dilli modeller için tarafsız ve sağlam bir değerlendirme yöntemi oluşturmak, yeteneklerini ve performanslarını adil bir şekilde değerlendirmek için çok önemlidir. Şu anda, aracılar önceden toplanmış veriler ve kontrollü bir ortam kullanılarak kıyaslanmaktadır. Bu değerlendirmeler kritik öneme sahip olsa da, genellikle gerçek dünyadaki dinamik zorlukları tam olarak yansıtmaz. Topluluğu bu değerlendirme ölçümlerini ve platformlarını genişletmeye veya iyileştirmeye teşvik etmek, alanı önemli ölçüde ilerletecek ve büyük dil modellerinin gerçek performansı ve yetenekleri hakkında daha doğru değerlendirmeler ve içgörüler sağlayacaktır.