Model Bahasa Besar (LLM) sedang mengubah cara pengembangan perangkat lunak, apakah AI sekarang dapat secara luas menggantikan programmer manusia menjadi topik yang sangat diperhatikan di industri.
Dalam waktu dua tahun singkat, model AI besar telah berkembang dari memecahkan masalah dasar ilmu komputer hingga bersaing dengan para ahli manusia dalam kompetisi pemrograman internasional, seperti OpenAI o1 yang berhasil memenangkan medali emas dalam Olimpiade Informatika Internasional (IOI) 2024 dalam kondisi yang sama dengan peserta manusia, menunjukkan potensi pemrograman yang kuat.
Pada saat yang sama, laju iterasi AI juga semakin cepat. Pada Agustus 2024, skor GPT-4o di benchmark evaluasi generasi kode SWE-Bench Verified adalah 33%, tetapi skor model generasi baru o3 telah meningkat menjadi 72%.
Untuk lebih baik mengukur kemampuan rekayasa perangkat lunak model AI di dunia nyata, hari ini, OpenAI secara open source merilis benchmark evaluasi baru SWE-Lancer, yang pertama kalinya mengaitkan kinerja model dengan nilai mata uang.
SWE-Lancer adalah tolok ukur lebih dari 1.400 tugas rekayasa perangkat lunak freelance dari platform Upwork, dengan total nilai kompensasi dunia nyata sekitar $ 1 juta.
Fitur dari standar baru
Harga tugas dasar SWE-Lancer mencerminkan nilai pasar yang sebenarnya, semakin sulit tugasnya, semakin tinggi bayarannya.
Termasuk tugas teknik independen dan tugas manajemen, dapat memilih antara skema implementasi teknis, standar ini tidak hanya ditujukan untuk programmer, tetapi juga untuk seluruh tim pengembangan, termasuk arsitek dan manajer.
Dibandingkan dengan benchmark pengujian rekayasa perangkat lunak sebelumnya, SWE-Lancer memiliki sejumlah keunggulan, seperti:
1、Semua 1488 tugas mewakili bayaran sebenar majikan kepada jurutera bebas, menyediakan kadar kesukaran semulajadi yang ditentukan oleh pasaran, dengan bayaran antara $250 hingga $32,000, jumlah yang cukup besar.
Di antaranya, 35% nilai tugas melebihi $1000, 34% nilai tugas berada di kisaran $500 hingga $1000. Kelompok Kontributor Individu (IC) Software Engineering (SWE) termasuk 764 tugas dengan total nilai $41.4775 juta; Kelompok Manajemen SWE termasuk 724 tugas dengan total nilai $58.5225 juta.
2、Di dunia nyata, rekayasa perangkat lunak dalam skala besar tidak hanya memerlukan pengembangan kode konkret, tetapi juga memerlukan manajemen teknis yang mampu, uji coba benchmark ini menggunakan data dunia nyata untuk mengevaluasi model yang berperan sebagai 'manajer teknis' SWE.
Kemampuan evaluasi teknik full-stack tingkat lanjut. SWE-Lancer adalah singkatan dari rekayasa perangkat lunak dunia nyata karena tugasnya berasal dari platform dengan jutaan pengguna nyata.
Tugas meliputi rekayasa seluler dan web, interaksi dengan API, browser, dan aplikasi eksternal, serta validasi dan reproduksi masalah yang kompleks.
Misalnya, beberapa tugas adalah biaya 250 dolar untuk meningkatkan keandalan (memperbaiki masalah panggilan API double-trigger), 1000 dolar untuk memperbaiki kerentanan (menyelesaikan masalah perbedaan izin), dan 1,6 ribu dolar untuk mengimplementasikan fitur baru (menambahkan dukungan pemutaran video dalam aplikasi di web, iOS, Android, dan desktop).
4、Keanekaragaman domain. 74% tugas IC SWE dan 76% tugas manajemen SWE melibatkan logika aplikasi, sedangkan 17% tugas IC SWE dan 18% tugas manajemen SWE melibatkan pengembangan UI/UX.
Dari segi kesukaran tugas, tugas yang dipilih oleh SWE-Lancer sangat mencabar, dengan purata 26 hari diperlukan untuk menyelesaikan tugas dalam dataset sumber terbuka di Github.
Selain itu, OpenAI menyatakan bahwa mereka mengumpulkan data tanpa bias, mereka memilih contoh tugas yang mewakili dari Upwork dan mempekerjakan 100 insinyur perangkat lunak profesional untuk menulis dan memverifikasi uji ujung ke ujung untuk semua tugas.
Pengkodean AI menghasilkan uang PK
Meskipun banyak petinggi teknologi terus mengklaim bahwa model AI dapat menggantikan insinyur "tingkat rendah", masih ada tanda tanya besar apakah perusahaan dapat sepenuhnya menggantikan insinyur perangkat lunak manusia dengan LLM.
Hasil tinjauan pertama menunjukkan bahwa pada dataset SWE-Lancer lengkap, model peraih medali emas AI saat ini kembali jauh di bawah potensi total hadiah $ 1 juta.
Secara keseluruhan, semua model memiliki kinerja yang lebih baik dalam tugas manajemen SWE daripada tugas IC SWE, sementara tugas IC SWE dalam banyak hal masih belum sepenuhnya dikuasai oleh model AI, model yang diuji saat ini yang paling baik adalah Claude 3.5 Sonnet yang dikembangkan oleh pesaing OpenAI, Anthropic.
Dalam tugas IC SWE, semua model memiliki tingkat keberhasilan dan tingkat pengembalian di bawah 30%, dan dalam tugas manajemen SWE, model terbaik Claude 3.5 Sonnet mendapat skor 45%.
Claude 3.5 Sonnet menunjukkan kinerja yang kuat dalam tugas IC SWE dan manajemen SWE, dengan perbedaan 9,7% lebih tinggi dari model o1 yang memiliki kinerja terbaik pada tugas IC SWE, dan 3,4% lebih tinggi pada tugas manajemen SWE.
Jika diubah menjadi pendapatan, kinerja terbaiknya Claude 3.5 Sonnet menghasilkan total pendapatan lebih dari 400 ribu dolar AS di seluruh kumpulan data.
Perlu dicatat bahwa jumlah perhitungan inferensi yang lebih tinggi akan sangat membantu "AI menghasilkan uang".
Dalam tugas IC SWE, peneliti melakukan eksperimen pada model o1 yang menggunakan alat inferensi mendalam, menunjukkan bahwa peningkatan volume komputasi inferensi dapat meningkatkan tingkat kelulusan dari 9,3% menjadi 16,5%, dan pendapatan juga naik dari 16.000 USD menjadi 29.000 USD, dengan tingkat pengembalian investasi meningkat dari 6,8% menjadi 12,1%.
Para peneliti menyimpulkan bahwa meskipun model terbaik, Claude 3.5 Sonnet, memecahkan 26,2% masalah IC SWE, sebagian besar solusi yang tersisa masih memiliki bug, dan masih banyak pekerjaan yang harus dilakukan untuk mencapai penyebaran yang andal. Ini diikuti oleh o1 dan kemudian GPT-4o, dan tingkat kelulusan tunggal untuk tugas-tugas administratif biasanya lebih dari dua kali lipat tingkat kelulusan tunggal untuk tugas-tugas IC SWE.
Ini juga berarti bahwa meskipun gagasan agen AI menggantikan insinyur perangkat lunak manusia sangat hyped, perusahaan masih perlu berpikir dua kali tentang bagaimana model AI dapat memecahkan beberapa masalah pengkodean "tingkat rendah", tetapi bukan insinyur perangkat lunak "tingkat rendah", karena mereka tidak dapat memahami mengapa beberapa kesalahan kode ada dan terus membuat kesalahan yang lebih panjang.
Kerangka penilaian saat ini belum mendukung masukan multimodal, Selain itu, para peneliti belum mengevaluasi 'return on investment', misalnya membandingkan bayaran kepada pekerja lepas dengan biaya penggunaan API saat menyelesaikan tugas, ini akan menjadi fokus perbaikan selanjutnya dalam kerangka tersebut.
Jadilah programmer "AI-enhanced"
Untuk saat ini, AI masih memiliki jalan panjang sebelum benar-benar dapat menggantikan programmer manusia, lagipula, mengembangkan proyek rekayasa perangkat lunak tidak sesederhana menghasilkan kode sesuai kebutuhan.
Sebagai contoh, para pengembang sering kali menghadapi masalah kebutuhan pelanggan yang sangat kompleks, abstrak, dan kabur, yang memerlukan pemahaman mendalam tentang berbagai prinsip teknis, logika bisnis, dan arsitektur sistem. Saat mengoptimalkan arsitektur perangkat lunak yang kompleks, para pengembang manusia dapat ganz mengingat faktor-faktor seperti skalabilitas, maintainability, dan kinerja sistem di masa depan, sementara Kecerdasan Buatan mungkin kesulitan dalam melakukan analisis dan penilaian yang komprehensif.
Selain itu, pemrograman tidak hanya tentang menerapkan logika yang ada, tetapi juga membutuhkan banyak kreativitas dan pemikiran inovatif, dan programmer perlu menyusun algoritma baru, merancang antarmuka perangkat lunak yang unik dan metode interaksi, dll., Dan ide dan solusi yang benar-benar baru ini adalah kekurangan AI.
Pemrogram sering perlu berkomunikasi dan berkolaborasi dengan anggota tim, pelanggan, dan pemangku kepentingan lainnya, memahami kebutuhan dan pencapaian semua pihak, mengartikulasikan pendapat mereka, dan berkolaborasi dengan orang lain dalam proyek.
Industri pengembangan perangkat lunak juga tunduk pada berbagai kendala hukum dan peraturan, seperti kekayaan intelektual, perlindungan data, dan lisensi perangkat lunak, dan AI mungkin berjuang untuk sepenuhnya memahami dan mematuhi persyaratan hukum dan peraturan ini, menciptakan risiko hukum atau sengketa kewajiban.
Dalam jangka panjang, penggantian posisi programmer yang dibawa oleh kemajuan teknologi AI masih ada, tetapi dalam jangka pendek, "programmer yang ditingkatkan AI" adalah arus utama, dan menguasai penggunaan alat AI terbaru adalah salah satu keterampilan inti dari programmer yang sangat baik.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Apakah AI Programming bisa menghasilkan $400,000?
Penulis: Tan Zixin, kepala teknologi
Sumber gambar: Dibuat oleh AI Tanpa Batas
Model Bahasa Besar (LLM) sedang mengubah cara pengembangan perangkat lunak, apakah AI sekarang dapat secara luas menggantikan programmer manusia menjadi topik yang sangat diperhatikan di industri.
Dalam waktu dua tahun singkat, model AI besar telah berkembang dari memecahkan masalah dasar ilmu komputer hingga bersaing dengan para ahli manusia dalam kompetisi pemrograman internasional, seperti OpenAI o1 yang berhasil memenangkan medali emas dalam Olimpiade Informatika Internasional (IOI) 2024 dalam kondisi yang sama dengan peserta manusia, menunjukkan potensi pemrograman yang kuat.
Pada saat yang sama, laju iterasi AI juga semakin cepat. Pada Agustus 2024, skor GPT-4o di benchmark evaluasi generasi kode SWE-Bench Verified adalah 33%, tetapi skor model generasi baru o3 telah meningkat menjadi 72%.
Untuk lebih baik mengukur kemampuan rekayasa perangkat lunak model AI di dunia nyata, hari ini, OpenAI secara open source merilis benchmark evaluasi baru SWE-Lancer, yang pertama kalinya mengaitkan kinerja model dengan nilai mata uang.
SWE-Lancer adalah tolok ukur lebih dari 1.400 tugas rekayasa perangkat lunak freelance dari platform Upwork, dengan total nilai kompensasi dunia nyata sekitar $ 1 juta.
Fitur dari standar baru
Harga tugas dasar SWE-Lancer mencerminkan nilai pasar yang sebenarnya, semakin sulit tugasnya, semakin tinggi bayarannya.
Termasuk tugas teknik independen dan tugas manajemen, dapat memilih antara skema implementasi teknis, standar ini tidak hanya ditujukan untuk programmer, tetapi juga untuk seluruh tim pengembangan, termasuk arsitek dan manajer.
Dibandingkan dengan benchmark pengujian rekayasa perangkat lunak sebelumnya, SWE-Lancer memiliki sejumlah keunggulan, seperti:
1、Semua 1488 tugas mewakili bayaran sebenar majikan kepada jurutera bebas, menyediakan kadar kesukaran semulajadi yang ditentukan oleh pasaran, dengan bayaran antara $250 hingga $32,000, jumlah yang cukup besar.
Di antaranya, 35% nilai tugas melebihi $1000, 34% nilai tugas berada di kisaran $500 hingga $1000. Kelompok Kontributor Individu (IC) Software Engineering (SWE) termasuk 764 tugas dengan total nilai $41.4775 juta; Kelompok Manajemen SWE termasuk 724 tugas dengan total nilai $58.5225 juta.
2、Di dunia nyata, rekayasa perangkat lunak dalam skala besar tidak hanya memerlukan pengembangan kode konkret, tetapi juga memerlukan manajemen teknis yang mampu, uji coba benchmark ini menggunakan data dunia nyata untuk mengevaluasi model yang berperan sebagai 'manajer teknis' SWE.
Tugas meliputi rekayasa seluler dan web, interaksi dengan API, browser, dan aplikasi eksternal, serta validasi dan reproduksi masalah yang kompleks.
Misalnya, beberapa tugas adalah biaya 250 dolar untuk meningkatkan keandalan (memperbaiki masalah panggilan API double-trigger), 1000 dolar untuk memperbaiki kerentanan (menyelesaikan masalah perbedaan izin), dan 1,6 ribu dolar untuk mengimplementasikan fitur baru (menambahkan dukungan pemutaran video dalam aplikasi di web, iOS, Android, dan desktop).
4、Keanekaragaman domain. 74% tugas IC SWE dan 76% tugas manajemen SWE melibatkan logika aplikasi, sedangkan 17% tugas IC SWE dan 18% tugas manajemen SWE melibatkan pengembangan UI/UX.
Dari segi kesukaran tugas, tugas yang dipilih oleh SWE-Lancer sangat mencabar, dengan purata 26 hari diperlukan untuk menyelesaikan tugas dalam dataset sumber terbuka di Github.
Selain itu, OpenAI menyatakan bahwa mereka mengumpulkan data tanpa bias, mereka memilih contoh tugas yang mewakili dari Upwork dan mempekerjakan 100 insinyur perangkat lunak profesional untuk menulis dan memverifikasi uji ujung ke ujung untuk semua tugas.
Pengkodean AI menghasilkan uang PK
Meskipun banyak petinggi teknologi terus mengklaim bahwa model AI dapat menggantikan insinyur "tingkat rendah", masih ada tanda tanya besar apakah perusahaan dapat sepenuhnya menggantikan insinyur perangkat lunak manusia dengan LLM.
Hasil tinjauan pertama menunjukkan bahwa pada dataset SWE-Lancer lengkap, model peraih medali emas AI saat ini kembali jauh di bawah potensi total hadiah $ 1 juta.
Secara keseluruhan, semua model memiliki kinerja yang lebih baik dalam tugas manajemen SWE daripada tugas IC SWE, sementara tugas IC SWE dalam banyak hal masih belum sepenuhnya dikuasai oleh model AI, model yang diuji saat ini yang paling baik adalah Claude 3.5 Sonnet yang dikembangkan oleh pesaing OpenAI, Anthropic.
Dalam tugas IC SWE, semua model memiliki tingkat keberhasilan dan tingkat pengembalian di bawah 30%, dan dalam tugas manajemen SWE, model terbaik Claude 3.5 Sonnet mendapat skor 45%.
Claude 3.5 Sonnet menunjukkan kinerja yang kuat dalam tugas IC SWE dan manajemen SWE, dengan perbedaan 9,7% lebih tinggi dari model o1 yang memiliki kinerja terbaik pada tugas IC SWE, dan 3,4% lebih tinggi pada tugas manajemen SWE.
Jika diubah menjadi pendapatan, kinerja terbaiknya Claude 3.5 Sonnet menghasilkan total pendapatan lebih dari 400 ribu dolar AS di seluruh kumpulan data.
Perlu dicatat bahwa jumlah perhitungan inferensi yang lebih tinggi akan sangat membantu "AI menghasilkan uang".
Dalam tugas IC SWE, peneliti melakukan eksperimen pada model o1 yang menggunakan alat inferensi mendalam, menunjukkan bahwa peningkatan volume komputasi inferensi dapat meningkatkan tingkat kelulusan dari 9,3% menjadi 16,5%, dan pendapatan juga naik dari 16.000 USD menjadi 29.000 USD, dengan tingkat pengembalian investasi meningkat dari 6,8% menjadi 12,1%.
Para peneliti menyimpulkan bahwa meskipun model terbaik, Claude 3.5 Sonnet, memecahkan 26,2% masalah IC SWE, sebagian besar solusi yang tersisa masih memiliki bug, dan masih banyak pekerjaan yang harus dilakukan untuk mencapai penyebaran yang andal. Ini diikuti oleh o1 dan kemudian GPT-4o, dan tingkat kelulusan tunggal untuk tugas-tugas administratif biasanya lebih dari dua kali lipat tingkat kelulusan tunggal untuk tugas-tugas IC SWE.
Ini juga berarti bahwa meskipun gagasan agen AI menggantikan insinyur perangkat lunak manusia sangat hyped, perusahaan masih perlu berpikir dua kali tentang bagaimana model AI dapat memecahkan beberapa masalah pengkodean "tingkat rendah", tetapi bukan insinyur perangkat lunak "tingkat rendah", karena mereka tidak dapat memahami mengapa beberapa kesalahan kode ada dan terus membuat kesalahan yang lebih panjang.
Kerangka penilaian saat ini belum mendukung masukan multimodal, Selain itu, para peneliti belum mengevaluasi 'return on investment', misalnya membandingkan bayaran kepada pekerja lepas dengan biaya penggunaan API saat menyelesaikan tugas, ini akan menjadi fokus perbaikan selanjutnya dalam kerangka tersebut.
Jadilah programmer "AI-enhanced"
Untuk saat ini, AI masih memiliki jalan panjang sebelum benar-benar dapat menggantikan programmer manusia, lagipula, mengembangkan proyek rekayasa perangkat lunak tidak sesederhana menghasilkan kode sesuai kebutuhan.
Sebagai contoh, para pengembang sering kali menghadapi masalah kebutuhan pelanggan yang sangat kompleks, abstrak, dan kabur, yang memerlukan pemahaman mendalam tentang berbagai prinsip teknis, logika bisnis, dan arsitektur sistem. Saat mengoptimalkan arsitektur perangkat lunak yang kompleks, para pengembang manusia dapat ganz mengingat faktor-faktor seperti skalabilitas, maintainability, dan kinerja sistem di masa depan, sementara Kecerdasan Buatan mungkin kesulitan dalam melakukan analisis dan penilaian yang komprehensif.
Selain itu, pemrograman tidak hanya tentang menerapkan logika yang ada, tetapi juga membutuhkan banyak kreativitas dan pemikiran inovatif, dan programmer perlu menyusun algoritma baru, merancang antarmuka perangkat lunak yang unik dan metode interaksi, dll., Dan ide dan solusi yang benar-benar baru ini adalah kekurangan AI.
Pemrogram sering perlu berkomunikasi dan berkolaborasi dengan anggota tim, pelanggan, dan pemangku kepentingan lainnya, memahami kebutuhan dan pencapaian semua pihak, mengartikulasikan pendapat mereka, dan berkolaborasi dengan orang lain dalam proyek.
Industri pengembangan perangkat lunak juga tunduk pada berbagai kendala hukum dan peraturan, seperti kekayaan intelektual, perlindungan data, dan lisensi perangkat lunak, dan AI mungkin berjuang untuk sepenuhnya memahami dan mematuhi persyaratan hukum dan peraturan ini, menciptakan risiko hukum atau sengketa kewajiban.
Dalam jangka panjang, penggantian posisi programmer yang dibawa oleh kemajuan teknologi AI masih ada, tetapi dalam jangka pendek, "programmer yang ditingkatkan AI" adalah arus utama, dan menguasai penggunaan alat AI terbaru adalah salah satu keterampilan inti dari programmer yang sangat baik.