Versi open-source "ChatGPT Plus" ada di sini, yang dapat melakukan analisis data, panggilan plug-in, akses Internet otomatis, dan mendaratkan agen dunia nyata

Sumber asli: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Langganan OpenAI ChatGPT Plus sangat kuat dan dapat menerapkan "Analisis Data Tingkat Lanjut", "Plugin" dan "Jelajahi dengan Bing" tingkat lanjut, yang dapat digunakan sebagai alat produktivitas penting dalam kehidupan sehari-hari. Namun, karena alasan komersial, sumber tertutup dipilih, dan peneliti dan pengembang hanya dapat menggunakannya tanpa sarana untuk melakukan penelitian atau perbaikan apa pun.

Berdasarkan hal ini, para peneliti dari University of Hong Kong, XLang Lab, Sea AI Lab, dan Salesforce telah bersama-sama menciptakan OpenAgents, kerangka kerja agen sumber terbuka untuk alat produktivitas dunia nyata, dan kode tumpukan penuh sumber terbuka (front-end penuh, back-end, kode penelitian) untuk memenuhi kebutuhan semua orang mulai dari peneliti hingga pengembang hingga pengguna.

OpenAgents mencoba untuk mendekati fungsionalitas ChatGPT Plus dengan teknologi berdasarkan "model bahasa besar" (LLM) dan kode teknik tumpukan penuh. Agen dapat mengeksekusi kode Python / SQL, dengan terampil memanggil alat, dan juga dapat menemukan peta dan posting di Internet, mulai dari implementasi kode penelitian hingga front-end back-end, menjadikannya aplikasi tingkat pendaratan yang dapat digunakan semua orang. OpenAgents sepenuhnya mengungkapkan teknologi yang mereka gunakan dan kesulitan yang mereka hadapi, sepenuhnya open source kode, yang mencakup segala sesuatu mulai dari penelitian ilmiah hingga kode logika hingga kode front-end. Kode ini sempurna, mudah diperluas, dan dapat digunakan langsung secara lokal dengan satu klik, dan dokumentasi pendukung dengan kasus penggunaan yang kaya disediakan untuk membantu peneliti dan pengembang membangun agen dan aplikasi mereka sendiri pada model.

*Peta ikhtisar OpenAgents, antarmuka web yang menghadap pengguna, penyebaran lokal untuk pengembang, agen bahasa untuk peneliti. *

* Kode link:

  • Link Kertas:
  • Tautan demo:
  • Link dokumen:

**Sama seperti ChatGPT Plus' dan "Tidak Sama"

Di sebelah kiri adalah implementasi OpenAgents, dan di sebelah kanan adalah ChatGPT Plus:

Mari kita lihat fungsi "Analisis Data". Dengan tugas yang sama untuk menganalisis harga saham, OpenAgents dan ChatGPT dapat melakukan pekerjaan yang baik dalam menganalisis kebutuhan pengguna untuk harga dan transaksi saham. Sementara OpenAgents dapat secara otomatis mencari dataset Kaggle dan mengunduhnya, ChatGPT mengharuskan pengguna untuk mengunggahnya secara lokal.

Coba fungsi "plugin" OpenAI yang paling awal. Pengguna ingin menggambar beberapa oktahedron, dan keduanya berhasil memanggil plug-in Wolfram untuk menggambar beberapa oktahedron.

Akhirnya, lihat "Web Browsing". Ketika pengguna ingin memeriksa tiket penerbangan dari Hong Kong ke New York pada 20 Oktober, OpenAgents mengenali niat pengguna dan melompat langsung ke Skycanner, berpikir seperti "orang sungguhan" saat mengisi informasi di situs web, dan akhirnya kembali ke halaman obrolan untuk meringkas informasi; ChatGPT berada dalam keamanan untuk memastikan kemampuan kontrol, mirip dengan memanggil plug-in, melakukan penjelajahan web di cloud, dan mengembalikan informasi yang terakhir dicari.

Karena OpenAgents menyediakan kode sumber terbuka, pengembang dan peneliti dapat menyesuaikan, menyesuaikan beberapa baris kode dengan model yang diinginkan, meningkatkan, membuat fitur yang mereka inginkan, dan bahkan membuat agen baru. Ini penting untuk pengembangan dan penelitian lebih lanjut ke arah ini.

** Tampaknya sederhana, mengapa agen "produktivitas yang dapat digunakan" menginjak begitu banyak lubang? **

Ada banyak kerangka kerja open source untuk agen, dan middleware berdasarkan model besar muncul dalam aliran tanpa akhir, mengapa tidak mudah untuk membangun agen yang benar-benar nyaman dan dapat digunakan, OpenAgents dibandingkan dengan kerangka kerja agen lain di koran mereka:

* Bandingkan OpenAgents dengan kerangka kerja lain. *

Seperti yang Anda lihat dari tabel, "Antarmuka" dan "Lingkungan" adalah dua hal yang membedakan OpenAgents. Kerangka kerja open source yang ada seperti LangChain, AutoGPT, dan BabyAGI dirancang untuk memberi pengembang implementasi proof-of-concept awal dan antarmuka konsol, tetapi tidak cukup kuat di dunia nyata, membatasi akses ke khalayak yang lebih luas, terutama mereka yang tidak terbiasa dengan pemrograman atau konsol. Dalam arsitektur sumber tertutup, OpenAI menyebarkan produk yang dirancang dengan baik di ChatGPT Plus, terutama fitur seperti analitik data tingkat lanjut (sebelumnya dikenal sebagai penerjemah kode), plugin, dan Bing Browsing, memanfaatkan model terlatih lebih lanjut, kode logika bisnis, dan komunitas perangkat lunak yang dipelihara (misalnya, toko plugin). Tetapi sumber tertutup membuat mereka sulit digunakan sebagai platform pengembangan dan penelitian, dan komunitas tidak dapat berdiri di atas bahu raksasa untuk mengeksplorasi, mengevaluasi, dan meningkatkan. Setelah berfokus pada dimensi ini, OpenAgents, sebagai kerangka kerja agen open source untuk skenario nyata, menyediakan komunitas dengan platform yang dapat bersaing dengan ChatGPT Plus.

Pada "antarmuka", OpenAgents menyediakan demo halaman web online (dan mendukung kode sumber terbuka), dan pengguna biasa dengan latar belakang non-programmer dapat dengan mudah berinteraksi dengan agen, sementara pekerjaan sebelumnya biasanya tidak menyediakan atau menyediakan interaksi dalam bentuk "antarmuka perintah konsol" (CLI), yang sangat meningkatkan ambang batas untuk penggunaan agen. Pada "lingkungan pendukung", OpenAgents mendukung dunia nyata dan lingkungan yang dapat dikontrol, mendukung lebih dari 200+ panggilan alat harian, dan mendukung penjelajahan web otomatis.

Fitur-fitur ini memfokuskan dan melengkapi OpenAgents penghalang paling sedikit untuk pilihan bagi pengguna biasa; Ini juga menyediakan penelitian, pengembang, dll. dengan apa yang mungkin merupakan peluang langsung-ke-pengguna terbaik.

** Sebagai langkah pertama di masa depan produktivitas Agen: platform agen yang dapat digunakan oleh "pengguna", "pengembang", dan "peneliti" **

Untuk mengatasi masalah di atas, OpenAgents termotivasi untuk melayani sebagai platform open-source untuk penggunaan dan penyebaran agen, yang saat ini mencakup tiga agen utama:

  • Agen data untuk Python dan SQL;
  • Agen plug-in yang digunakan oleh lebih dari 200 alat;
  • Agen web untuk penjelajahan web otomatis.

OpenAgents percaya bahwa untuk model bahasa besar untuk mencapai potensi penuh mereka, mereka harus berubah dari alat teoritis murni atau berorientasi pengembang untuk dinamis, sistem interaktif untuk basis pengguna yang luas. "Pengguna biasa" dapat dengan mudah menjelajahi fungsionalitas agen melalui UI web online tanpa keahlian pengkodean. Selain itu, OpenAgents menyediakan "pengembang" dengan logika bisnis lengkap dan kode penelitian untuk penyebaran yang mudah secara lokal, dan "peneliti" selanjutnya dapat membangun agen bahasa. Akhirnya, OpenAgents bertujuan untuk menjadi platform nyata dan komprehensif untuk mengevaluasi agen yang dapat berinteraksi dengan manusia: berdasarkan kebutuhan nyata, pengguna nyata berinteraksi dengan agen untuk menyelesaikan tugas mereka, dan merekam seluruh proses interaksi pengguna-agen dan umpan balik pengguna untuk evaluasi lebih lanjut. Dibandingkan dengan tolok ukur dan platform yang ada, OpenAgents menyediakan lingkungan dunia nyata di mana agen dapat memenuhi berbagai kebutuhan pengguna nyata.

Tantangan yang Dihadapi dan Diatasi

Tantangan 1: Kerugian membangun model bahasa dunia nyata berdasarkan petunjuk

Saat membuat aplikasi berbasis prompt untuk pengguna nyata, gunakan instruksi dalam petunjuk untuk menetapkan persyaratan tertentu. Instruksi ini melayani tujuan yang berbeda, beberapa untuk memastikan bahwa output dari model bahasa besar sesuai dengan format tertentu yang diproses oleh logika backend (output sebagai kamus kunci tertentu); Beberapa untuk meningkatkan estetika output (daftar item secara individual satu per satu sebanyak mungkin); Beberapa digunakan untuk mencegah potensi serangan (menolak pengguna loop tak terbatas dari program jahat dibangun dan mengeksekusi).

Kendala ini dengan petunjuk tujuan kendala untuk membatasi model bahasa mengharuskan pengembang dan peneliti untuk berulang kali men-debug beberapa instruksi yang dapat digunakan, yang bersama-sama biasanya ratusan "token" atau bahkan ribuan token, dan instruksi ini akan berulang kali dimasukkan ke dalam model sebagai awalan, menghasilkan konsumsi besar sumber daya kartu grafis; Di sisi lain, semakin banyak token, semakin tergantung pada LLM memiliki kinerja yang baik, sehingga rute teknis ini mengedepankan persyaratan tertentu untuk kemampuan pelacakan instruksi dan panjang konteks yang didukung dari model bahasa besar.

Model open source saat ini telah membuat perbaikan signifikan di bidang ini, tetapi masih belum cukup untuk penggunaan praktis dalam eksperimen, dan penelitian ke arah ini dapat dilanjutkan. Selain itu, lebih banyak perhatian perlu diberikan pada pengembangan dasar dan penelitian model agen, serta melatih model agen khusus untuk domain dan persyaratan tertentu. Pendekatan ini mungkin lebih efisien dan terkendali daripada hanya mengandalkan petunjuk untuk model yang kuat secara genetik tetapi tetap.

Tantangan 2: Realitas yang tidak terkendali

Menerapkan kecerdasan linguistik dunia nyata membutuhkan menghadapi banyak faktor dunia nyata yang tidak terkendali, termasuk perilaku pengguna, infrastruktur Internet, dan logika bisnis, yang belum cukup dimodelkan dalam studi sebelumnya. Ini membutuhkan evaluasi ulang dan bahkan membalikkan banyak asumsi dan metode yang digunakan dalam studi sebelumnya. Satu hal yang perlu dipertimbangkan adalah bahwa server tempat API dipanggil mungkin macet. Situasi ini memerlukan pemantauan dan terus menyelesaikan perintah pengguna, tidak seperti yang dihipotesiskan dalam studi penggunaan alat sebelumnya. Pengguna mungkin merasa tidak puas selama proses menghasilkan balasan, yang dapat menyebabkan model bahasa terganggu selama proses pembuatan.

Selain itu, peristiwa tak terduga seperti pop-up CAPTCHA atau perubahan iklan pada halaman web dapat memperkenalkan tingkat keacakan ke dalam struktur halaman web yang relatif stabil yang tidak dipertimbangkan dalam upaya sebelumnya untuk mengotomatiskan penjelajahan web. Masih banyak lagi masalah seperti itu, seperti lingkungan yang berubah dalam waktu yang dibutuhkan agen untuk bereaksi dan berpikir (yang sekarang sering membutuhkan waktu beberapa detik), dan sebagainya.

Tantangan 3: Metrik tambahan dari skenario dunia nyata**

Studi khusus sering menempatkan terlalu banyak penekanan pada metrik kinerja dan mengabaikan kebutuhan dasar dalam skenario dunia nyata. Misalnya, menggunakan streaming, di mana setiap token yang dihasilkan ditampilkan kepada pengguna secepat mungkin, memungkinkan pengguna untuk dengan cepat merasakan umpan balik dari sistem tanpa harus menunggu teks panjang dihasilkan sebelum melihatnya bersama. Permintaan yang dirancang khusus dapat membuat format balasan agen lebih indah, yang berdampak signifikan pada pengalaman pengguna. Namun, metode yang ada tidak cukup memperhitungkan dampak ini. Akibatnya, meskipun indikator kinerja dalam akurasi sangat baik, dalam praktiknya, mereka dapat menyebabkan waktu respons yang lama, keterbacaan teks yang buruk, dan masalah lain yang menyebabkan pengalaman pengguna yang buruk, dan penelitian selanjutnya perlu mempertimbangkan lebih lanjut trade-off antara kinerja dan pengalaman pengguna.

Tantangan 4: Kompleksitas penilaian yang disebabkan oleh masalah sistem

Membangun agen khusus aplikasi secara langsung dapat memenuhi lebih banyak kebutuhan pengguna sekaligus mengungkapkan lebih banyak tantangan evaluasi. Namun, pembangunan aplikasi berbasis LLM memperkenalkan kompleksitas tambahan yang membuatnya sulit untuk menentukan apakah kasus kegagalan disebabkan oleh keterbatasan aplikasi LLM atau kode logika yang tidak mencukupi. Misalnya, tidak masuk akal untuk menilai kemampuan agen karena pengguna tidak dapat langsung menarik dan melepas file yang diunggah dari antarmuka, yang mengakibatkan kegagalan untuk menyelesaikan operasi yang diinginkan pengguna. Oleh karena itu, menjanjikan dan perlu untuk meningkatkan sistem desain agen dan logika operasi, menyederhanakan proses agen dan logika penggunaan pengguna, atau membangun logika desain dan implementasi yang lebih lengkap.

Prospek Masa Depan

Bagaimana OpenAgents dapat membantu masyarakat dengan langkah selanjutnya dalam penelitian dan pengembangan? Dalam visi mereka, setidaknya ada hal-hal berikut:

Pekerjaan Masa Depan 1: Membangun Lebih Banyak Aplikasi Agen

OpenAgents membuka proses pengembangan agen bahasa tingkat aplikasi yang lengkap dan teknologi yang diperlukan, dan membuka kode. Ini membuka kemungkinan untuk aplikasi inovatif lainnya dan pengguna akhir. Pengembang dapat membangun aplikasi baru apa pun yang mereka inginkan, seperti dialog multimodal, dialog suara, asisten kode tingkat perpustakaan, dll.

Masa Depan Pekerjaan 2: Integrasi Alat dan Komponen

OpenAgents mengeksplorasi dan menangani kebutuhan dasar membangun aplikasi agen tingkat utilitas, memberikan fondasi yang kuat bagi komunitas untuk dengan mudah menskalakan secara horizontal dengan mengintegrasikan komponen lain. Pada saat yang sama, model yang lebih mendasar dapat diperluas, seperti model multimodal skala besar terbaru, dan disesuaikan dengan desain UI baru.

** Masa Depan Pekerjaan 3: Penelitian di bidang interaksi manusia-komputer **

Berdasarkan platform OpenAgents, pengembang dan peneliti dapat dengan mudah membangun aplikasi agen baru berdasarkan model bahasa besar. OpenAgents dengan demikian dapat membantu membangun demo aplikasi untuk peneliti interaksi manusia-komputer (HCI) untuk mempelajari desain antarmuka yang lebih intuitif dan ramah pengguna. Ini akan meningkatkan keterlibatan dan kepuasan pengguna.

Pekerjaan Masa Depan 4: Generasi Antarmuka Pengguna Adaptif

Mengotomatiskan pembuatan antarmuka pengguna adalah bidang yang menarik dan menantang. Antarmuka ini dapat disesuaikan sendiri atau disesuaikan berdasarkan kriteria tertentu, seperti perangkat, preferensi, atau konteks pengguna. Peneliti dapat menyelidiki bagaimana model bahasa besar diterapkan dalam UI adaptif berbasis OpenAgents dan dampaknya terhadap pengalaman pengguna.

** Pekerjaan Masa Depan 5: Evaluasi Model Bahasa Besar dalam Skenario Aplikasi Dunia Nyata **

Menetapkan metode evaluasi yang tidak memihak dan kuat untuk model bahasa besar sangat penting untuk mengevaluasi kemampuan dan kinerjanya secara adil. Saat ini, agen diukur menggunakan data yang telah dikumpulkan sebelumnya dan lingkungan yang terkendali. Meskipun penilaian ini sangat penting, mereka sering tidak sepenuhnya mencerminkan tantangan dinamis dunia nyata. Mendorong masyarakat untuk memperluas atau memperbaiki metrik dan platform evaluasi ini akan secara signifikan memajukan lapangan dan memberikan penilaian dan wawasan yang lebih akurat tentang kinerja aktual dan kemampuan model bahasa besar.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)