Mobil adalah puncak dari mekatronik di era industri. Tata letak OpenAI di bidang mengemudi otonom, dengan penambahan model bahasa skala besar multimodal (MLLM) dengan kemampuan pemahaman umum, mobil akan menjadi agen penting di jalan kita menuju AGI.
Mengemudi otonom sangat bergantung pada keselamatan dan keandalan, dan MLLM dapat memainkan peran dalam semua aspek tumpukan mengemudi otonom.
Ghost Autonomy, pelopor dalam perangkat lunak mengemudi otonom yang dapat diskalakan untuk mobil konsumen, mengumumkan pada 8 November 2023 bahwa mereka telah menerima investasi $5 juta dari OpenAI Startup Fund untuk membawa model bahasa besar (MLLM) multimodal skala besar ke mengemudi otonom. Dana tersebut akan digunakan untuk mempercepat penelitian berbasis LLM yang sedang berlangsung dan pengembangan pemahaman adegan yang kompleks, yang diperlukan untuk fase berikutnya dari mengemudi perkotaan otonom. Setelah putaran ini, perusahaan mengumpulkan total $ 220 juta.
01. Mengoptimalkan Model Bahasa Besar Multimodal untuk Mengemudi Otonom
Brad Lightcap, COO OpenAI dan manajer OpenAI Startup Fund, mengatakan: "Model multimodal memiliki potensi untuk memperluas penerapan LLM ke banyak skenario baru, termasuk mengemudi otonom dan mobil, dengan kemampuan untuk memahami dan menarik kesimpulan dengan menggabungkan video, gambar, dan suara, dan karena itu dapat menciptakan cara baru untuk memahami skenario dan menavigasi lingkungan yang kompleks atau tidak biasa. " "
LLM terus meningkatkan kemampuan mereka dan memperluas ke area aplikasi baru hampir setiap hari, mengganggu arsitektur komputasi yang ada di berbagai industri. Berdasarkan Ghost Autonomy, model bahasa besar juga akan memiliki dampak besar pada tumpukan perangkat lunak mengemudi otonom, dan penambahan kemampuan multimodal untuk model bahasa besar (menerima input gambar dan video sambil menerima input teks) akan mempercepat adopsi mereka dalam kasus penggunaan mengemudi otonom.
Model bahasa besar multimodal (MLLM) memiliki potensi untuk melakukan penalaran holistik pada skenario mengemudi, menggabungkan persepsi dan perencanaan untuk memberikan pemahaman adegan yang lebih dalam untuk kendaraan otonom dan panduan untuk tindakan mengemudi yang tepat melalui pertimbangan holistik adegan.
MLLM memiliki potensi untuk menjadi arsitektur baru untuk perangkat lunak mengemudi otonom, yang mampu menangani skenario mengemudi yang langka dan kompleks dengan ekor panjang. Sementara jaringan tugas tunggal yang ada terbatas pada ruang lingkup dan pelatihan mereka yang sempit, LLM memungkinkan sistem mengemudi otonom untuk sepenuhnya beralasan tentang skenario mengemudi, memanfaatkan pengetahuan dunia yang luas untuk menavigasi situasi yang kompleks dan tidak biasa, bahkan yang belum pernah terlihat sebelumnya.
Kemampuan yang berkembang untuk menyempurnakan dan menyesuaikan model bahasa besar multimodal komersial dan open-source memiliki potensi untuk secara signifikan mempercepat pengembangan MLLM di bidang mengemudi otonom. Ghost saat ini terus meningkatkan penggunaan MLLM di bidang mengemudi otonom, sambil terus menguji dan memvalidasi kemampuan ini di jalan. Armada pengembangan Ghost mengirimkan data ke cloud untuk analisis MLLM, dan juga secara aktif mengembangkan fitur mengemudi otonom yang memanfaatkan wawasan MLLM dan memberi umpan balik ke dalam mobil.
02.Arsitektur model besar mengemudi otonom
Model mengemudi otonom memberikan kesempatan untuk memikirkan kembali tumpukan teknologi mengemudi otonom secara holistik.
Teknologi mengemudi otonom saat ini rapuh. Mereka cenderung dibangun "dari bawah ke atas", yaitu, di atas tumpukan sensor, peta, dan tumpukan komputasi yang kompleks, disatukan oleh sejumlah jaringan AI dan menggerakkan logika perangkat lunak untuk melakukan berbagai tugas seperti persepsi, fusi sensor, perencanaan mengemudi, dan eksekusi mengemudi. Pendekatan ini mengarah pada masalah "ekor panjang" yang sulit dipecahkan – setiap sudut dan celah yang ditemukan di jalan mengarah ke semakin banyak tambalan perangkat lunak dalam upaya untuk mencapai iterasi yang aman. Ketika skenario menjadi terlalu rumit bagi AI on-board untuk mengemudi dengan aman, mobil harus "mundur". **Dalam kasus robo-taxi, operator dioperasikan oleh orang jarak jauh di pusat operator jarak jauh, dan dalam kasus sistem bantuan pengemudi, pengemudi diperingatkan untuk mengambil alih.
MLLM memberikan kesempatan pemecahan masalah "top-down". Jika kita dapat menggunakan model yang dilatih secara ekstensif tentang pengetahuan dunia untuk bernalar tentang mengemudi dan mengoptimalkannya untuk melakukan tugas mengemudi, model seperti itu yang dapat sepenuhnya beralasan tentang adegan, dari persepsi hingga hasil mengemudi yang disarankan dalam satu langkah, akan membuatnya lebih mudah untuk membangun tumpukan mengemudi otonom dan jauh lebih mampu. Tumpukan ini mampu menyimpulkan skenario mengemudi perkotaan yang kompleks dan dinamis, yang melampaui pelatihan perencanaan tradisional.
Menerapkan MLLM untuk mengemudi otonom membutuhkan arsitektur baru karena MLLM saat ini terlalu besar untuk dijalankan pada prosesor dalam kendaraan yang disematkan. Ini membutuhkan arsitektur hybrid di mana MLLM skala besar yang berjalan di cloud bekerja dengan model terlatih khusus yang berjalan di dalam mobil untuk berbagi tugas otonom dan perencanaan jangka panjang vs. jangka pendek antara mobil dan cloud. **
Butuh waktu untuk membangun, memberikan, dan memvalidasi keamanan arsitektur mengemudi otonom yang begitu besar, tetapi itu tidak berarti MLLM tidak dapat memengaruhi tumpukan mengemudi otonom lebih cepat. MLLM dapat memulai dengan meningkatkan proses pusat data, yang menyusun, mengumumkan, mensimulasikan data pelatihan mengemudi otonom, dan melatih serta memvalidasi jaringan di dalam kendaraan. MLLM juga dapat berinteraksi dengan dan menambah wawasan tentang arsitektur mengemudi otonom yang ada, dengan terus meningkatkan kemampuan mereka untuk melakukan tugas mengemudi yang semakin otonom.
John Hayes, Pendiri dan CEO Ghost Autonomy, mengatakan: "Memecahkan skenario mengemudi perkotaan yang kompleks dengan cara yang terukur telah lama menjadi cawan suci industri. LLM memberikan terobosan yang pada akhirnya akan memungkinkan kendaraan konsumen sehari-hari untuk bernalar dan menavigasi melalui skenario terberat. **Meskipun LLM telah terbukti berharga untuk tugas offline seperti anotasi dan simulasi data, kami sangat antusias untuk menerapkan model canggih ini secara langsung untuk mendorong tugas guna mencapai potensi penuhnya. **"
Platform Ghost telah membantu pembuat mobil terkemuka membawa AI dan perangkat lunak mengemudi otonom canggih ke kendaraan generasi berikutnya, dan sekarang dengan MLLM, itu memperluas kemampuan dan kasus penggunaan. Saat ini, Ghost secara aktif menguji fitur-fitur ini melalui armada pengembangannya dan bekerja dengan pembuat mobil untuk memvalidasi dan mengintegrasikan model-model besar baru ke dalam tumpukan teknologi mengemudi otonom.
Referensi
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
AI+Automotive|OpenAI Fund menginvestasikan $5 juta dalam Ghost Autonomy untuk menyebarkan mengemudi otonom
Sumber: ThoughtSenseAI
Ghost Autonomy, pelopor dalam perangkat lunak mengemudi otonom yang dapat diskalakan untuk mobil konsumen, mengumumkan pada 8 November 2023 bahwa mereka telah menerima investasi $5 juta dari OpenAI Startup Fund untuk membawa model bahasa besar (MLLM) multimodal skala besar ke mengemudi otonom. Dana tersebut akan digunakan untuk mempercepat penelitian berbasis LLM yang sedang berlangsung dan pengembangan pemahaman adegan yang kompleks, yang diperlukan untuk fase berikutnya dari mengemudi perkotaan otonom. Setelah putaran ini, perusahaan mengumpulkan total $ 220 juta.
01. Mengoptimalkan Model Bahasa Besar Multimodal untuk Mengemudi Otonom
Brad Lightcap, COO OpenAI dan manajer OpenAI Startup Fund, mengatakan: "Model multimodal memiliki potensi untuk memperluas penerapan LLM ke banyak skenario baru, termasuk mengemudi otonom dan mobil, dengan kemampuan untuk memahami dan menarik kesimpulan dengan menggabungkan video, gambar, dan suara, dan karena itu dapat menciptakan cara baru untuk memahami skenario dan menavigasi lingkungan yang kompleks atau tidak biasa. " "
LLM terus meningkatkan kemampuan mereka dan memperluas ke area aplikasi baru hampir setiap hari, mengganggu arsitektur komputasi yang ada di berbagai industri. Berdasarkan Ghost Autonomy, model bahasa besar juga akan memiliki dampak besar pada tumpukan perangkat lunak mengemudi otonom, dan penambahan kemampuan multimodal untuk model bahasa besar (menerima input gambar dan video sambil menerima input teks) akan mempercepat adopsi mereka dalam kasus penggunaan mengemudi otonom.
Model bahasa besar multimodal (MLLM) memiliki potensi untuk melakukan penalaran holistik pada skenario mengemudi, menggabungkan persepsi dan perencanaan untuk memberikan pemahaman adegan yang lebih dalam untuk kendaraan otonom dan panduan untuk tindakan mengemudi yang tepat melalui pertimbangan holistik adegan.
MLLM memiliki potensi untuk menjadi arsitektur baru untuk perangkat lunak mengemudi otonom, yang mampu menangani skenario mengemudi yang langka dan kompleks dengan ekor panjang. Sementara jaringan tugas tunggal yang ada terbatas pada ruang lingkup dan pelatihan mereka yang sempit, LLM memungkinkan sistem mengemudi otonom untuk sepenuhnya beralasan tentang skenario mengemudi, memanfaatkan pengetahuan dunia yang luas untuk menavigasi situasi yang kompleks dan tidak biasa, bahkan yang belum pernah terlihat sebelumnya.
Kemampuan yang berkembang untuk menyempurnakan dan menyesuaikan model bahasa besar multimodal komersial dan open-source memiliki potensi untuk secara signifikan mempercepat pengembangan MLLM di bidang mengemudi otonom. Ghost saat ini terus meningkatkan penggunaan MLLM di bidang mengemudi otonom, sambil terus menguji dan memvalidasi kemampuan ini di jalan. Armada pengembangan Ghost mengirimkan data ke cloud untuk analisis MLLM, dan juga secara aktif mengembangkan fitur mengemudi otonom yang memanfaatkan wawasan MLLM dan memberi umpan balik ke dalam mobil.
02.Arsitektur model besar mengemudi otonom
Model mengemudi otonom memberikan kesempatan untuk memikirkan kembali tumpukan teknologi mengemudi otonom secara holistik.
Teknologi mengemudi otonom saat ini rapuh. Mereka cenderung dibangun "dari bawah ke atas", yaitu, di atas tumpukan sensor, peta, dan tumpukan komputasi yang kompleks, disatukan oleh sejumlah jaringan AI dan menggerakkan logika perangkat lunak untuk melakukan berbagai tugas seperti persepsi, fusi sensor, perencanaan mengemudi, dan eksekusi mengemudi. Pendekatan ini mengarah pada masalah "ekor panjang" yang sulit dipecahkan – setiap sudut dan celah yang ditemukan di jalan mengarah ke semakin banyak tambalan perangkat lunak dalam upaya untuk mencapai iterasi yang aman. Ketika skenario menjadi terlalu rumit bagi AI on-board untuk mengemudi dengan aman, mobil harus "mundur". **Dalam kasus robo-taxi, operator dioperasikan oleh orang jarak jauh di pusat operator jarak jauh, dan dalam kasus sistem bantuan pengemudi, pengemudi diperingatkan untuk mengambil alih.
Menerapkan MLLM untuk mengemudi otonom membutuhkan arsitektur baru karena MLLM saat ini terlalu besar untuk dijalankan pada prosesor dalam kendaraan yang disematkan. Ini membutuhkan arsitektur hybrid di mana MLLM skala besar yang berjalan di cloud bekerja dengan model terlatih khusus yang berjalan di dalam mobil untuk berbagi tugas otonom dan perencanaan jangka panjang vs. jangka pendek antara mobil dan cloud. **
Butuh waktu untuk membangun, memberikan, dan memvalidasi keamanan arsitektur mengemudi otonom yang begitu besar, tetapi itu tidak berarti MLLM tidak dapat memengaruhi tumpukan mengemudi otonom lebih cepat. MLLM dapat memulai dengan meningkatkan proses pusat data, yang menyusun, mengumumkan, mensimulasikan data pelatihan mengemudi otonom, dan melatih serta memvalidasi jaringan di dalam kendaraan. MLLM juga dapat berinteraksi dengan dan menambah wawasan tentang arsitektur mengemudi otonom yang ada, dengan terus meningkatkan kemampuan mereka untuk melakukan tugas mengemudi yang semakin otonom.
Referensi