เรื่องราวการประกอบการที่ได้รับสาระสำคัญมากที่สุดในปีที่แล้วมาจากผู้ก่อตั้ง Dify คือ ซาง ลูยู
ครั้งแรกที่ฉันพบเขาคือในงาน "Xixi Taoism" เมื่อปี 2023 ในหมู่ชื่อดังที่อยู่ในสถานที่ จางลูยู ไม่โดดเด่นเท่าไหร่เมื่อเราพบกันอีกครั้งในปี 2024 Dify กลายเป็นเรื่องอื่น - นักประกอบการที่ไม่มีพื้นหลังที่น่าทึ่ง ที่สร้างผลิตภัณฑ์โอเพนซอร์ส AI ที่ประสบความสำเร็จอย่างมากในโลก ในขณะที่ทุกคนยังสงสัยเกี่ยวกับแบบจำลองธุรกิจ
สิ่งที่เกิดขึ้นกับ บริษัท นี้ในหนึ่งปีเช่นความนิยมที่ไม่คาดคิดในตลาดญี่ปุ่นซึ่งเป็น "ธรรมดาและง่ายต่อการป้องกัน แต่ยากที่จะโจมตี" ช่วยให้ฉันเข้าใจ "ผู้ประกอบการ" มากขึ้น ส่วนใหญ่เป็นอุบัติเหตุและต้องใช้โชคด้วย ท้ายที่สุดคุณต้องมีความสามารถในการหาทางออกจากการเปลี่ยนแปลงและไฟย้อนกลับอย่างต่อเนื่อง
ตอนนี้เหตุการณ์ที่คล้ายกันเกิดขึ้นกับผู้ประกอบการระดับสูงอีกคน คือ มานุส.im เสียวหง และทีมงานของเขา
สี่เดือนที่ผ่านมา ซี่เฮงกล่าวถึงความสับสนว่า “ทีมเก่งในการไปจาก 0 ไปสู่ 1 และมีความสามารถในการตระหนักโอกาส หากเริ่มต้นจาก 1 ไปสู่ N สถานการณ์ก็ไม่ค่อยดีเท่านั้น”
จากประสบการณ์ที่ผ่านมาโครงการผู้ประกอบการส่วนใหญ่มีรายได้ค่อนข้างมั่นคงและมีรายได้มากและ บริษัท สุดท้ายของเขาก็ประสบความสําเร็จเช่นกัน ในปี 2023 บริษัท ใหม่ของเขา "Butterfly Effect" ยังใช้ปลั๊กอินเบราว์เซอร์ Monica.im เพื่อแข่งขันในการเล่าเรื่อง AI ของโมเดลหลายร้อยรุ่นและกลายเป็นหนึ่งในแอปพลิเคชัน AI ที่เติบโตเร็วที่สุดพร้อมประสบการณ์ผลิตภัณฑ์ที่ยอดเยี่ยม ดูเหมือนว่าเขาเป็นผู้ประกอบการที่มีการเดินทางที่ราบรื่น เขาอายุเพียง 32 ปีเมื่อเขาสามารถทําสิ่งเหล่านี้ได้
แต่ในความเป็นจริงเขาไม่รู้สึกดีเท่าไร ในมุมมองของเสียงเล็ก ๆ ของเสียงเฉียบแท้ เรื่อง "การออกจากผู้ประกอบการอย่างต่อเนื่อง" และความรู้สึกที่สดชื่นจากการไปจาก 0 ไปสู่ 1 ตลอดเวลาเหมือนกับการล้อม - ความสามารถในการนำโอกาสจาก 0 ไปสู่ 1 มีความแข็งแกร่งมากและทำให้พอใจมาก แต่ในทางกลับกัน คุณก็กังวลว่าคุณจะต้องทำซ้ำอีกครั้งหรือไม่
ในปี 2024 ผู้เชี่ยวชาญด้านอุตสาหกรรมเชื่อว่าผู้ช่วยด้าน AI ที่มีฟังก์ชันการจดจำเช่น Monica.im จะเผชิญกับความกดดันจากตัวต้านที่แข็งแกร่ง เช่น Doubao และมันจะไม่ง่ายเหมือนในปี 2023 Monica.im มีการสร้างสิ่งใหม่ในโลก 0 ถึง 1 แต่ไม่จำเป็นต้องได้รับการยอดนิยม 1 ถึง N
และเหตุผลที่เขาสับสนก็เพราะ "ทีมจะทำสิ่งที่ยากมากขึ้นและสิ่งที่มีขีดจำกัดสูงขึ้นต่อไป" และสำรวจสิ่งที่สามารถขยายตั้งแต่ 1 ถึง N
ก่อนหน้านี้ มีเสียงหลาย ๆ ที่ให้ความสนใจกับ Monica.im สมมติว่า "บางสิ่งที่ยากมากขึ้นและมีความสูง" นี้อ้างถึงเบราว์เซอร์ AI ที่มีข่าวลือมานานแต่ยังไม่ได้รับการเปิดเผยโดยทีม มองไปดูตอนนี้ จริงว่าฉันเดาผิด
การสำรวจที่ยากมากนี้คือ: การละทิ้งเบราว์เซอร์ AI ที่ได้รับสถานะการเผยแพร่แล้ว การมองหาโอกาสต่อไปของผลิตภัณฑ์ AI "ชัต GPT moment" การค้นหาเป้าหมายของตัวแทนสากล และการสร้างการเผยแพร่ล่าสุดของ Manus.im
มนัสเป็นนวัตกรรมในระดับใดและสามารถบรรลุได้ในระดับใดในอนาคตตอนนี้เป็นประเด็นร้อน แต่สิ่งที่ควรค่าแก่การดูยังคงเป็นทิศทางที่พบใน "สิ่งที่ขัดกับความคาดหวัง" และกระบวนการค้นหาทิศทาง Manus.im อาจไม่สามารถทําให้ทีมนี้ทําสิ่งต่าง ๆ ให้สําเร็จตั้งแต่ 1 ถึง N หรือแม้แต่จําลองโมเมนตัมของ Monica.im แต่เช่นเดียวกับชื่อของ บริษัท นี้ - "Butterfly Effect" การกระทําและการตัดสินใจเล็ก ๆ น้อย ๆ มากมายโดยไม่ได้ตั้งใจมีผลกระทบอย่างลึกซึ้งต่ออนาคต "Connect the Dots" ถนนสู่วันพรุ่งนี้จะถูกซ่อนอยู่ในประสบการณ์ของวันนี้
ตั้งแต่ปลายปีที่แล้วถึงกลางปีปีที่แล้ว ทีม "Butterfly Effect" ที่ใช้ AI browser ได้รับการสนับสนุนจากสาธารณะและเป็นความลับ"บางส่วน"ในวงการ ผลิตภัณฑ์ที่เปิดเผยให้สาธารณะอย่างเป็นทางการคือ Manus ซึ่งดึงดูดความสนใจอย่างไม่สมควร
หากคุณเคยสัมผัสประสบการณ์ส่วนตัวกับ Manus หรือรับชมวิดีโอสาธิต คุณจะรู้สึกว่ามันมีความแตกต่างอย่างมีนัยสำคัญเมื่อเปรียบเทียบกับแชทบอทหรือบางแอปพลิเคชันที่เหมือนเอเยนต์: Manus สามารถทำงานอย่างไม่เชื่อมต่อและในขณะเดียวกันได้
เมื่อคุณเปิดแอปเช่น Doubao, Kimi หรือบางสิ่งบางอย่างเช่นการใช้คอมพิวเตอร์ และส่งคำถามถึงมัน คุณต้องรอให้มันตอบ มิฉะนั้น หากคุยกับมันขณะที่มันกำลังตอบหรือทำงาน การตอบ/งานก่อนหน้าจะถูกขัดจังหรือคุณจะสามารถคุยเป็นลำดับ A-B-A-B เท่านั้น
อย่างไรก็ตามใน Manus.im, แม้ว่ามันจะดูเหมือนผลิตภัณฑ์ chatbot อยู่ คุณสามารถถาม 20 คำถามให้มันทำงานพร้อมๆกัน คุณสามารถทำอะไรก็ตามบนคอมพิวเตอร์อื่นได้, ดูวิดีโอ, เขียนเอกสาร, เล่นเกม ฯลฯ โดยไม่ทำให้งานของมันชะลอไป Manus สามารถแจ้งให้คุณทราบเมื่องานเสร็จสิ้นหรือพบปัญหาระหว่างการดำเนินการ หากคุณเห็นการเบี่ยงเบนในการคิดของมันระหว่างการดำเนินการของงาน คุณสามารถเพิ่มคำให้มันไปที่กล่องโต้ตอบได้ตลอดเวลา และมันจะดำเนินการคิดและดำเนินการงานต่อไปด้วยบทบาทใหม่
ประสบการณ์เป็นแบบไม่สะท้อนกันและสามารถทำพร้อมกันได้ และมันรู้สึกเหมือนมีทีมนักศึกษาซึ่งจริงๆ สามารถช่วยคุณในการทำงาน
ในความเป็นจริง การออกแบบสถาปัตยกรรมผลิตภัณฑ์ของ Manus สำหรับประสบการณ์แบบไม่เชื่อมต่อมาจากบทเรียนที่ทีมได้เรียนรู้จากผลิตภัณฑ์ที่ไม่ได้เปิดเผยก่อนหน้านี้คือเบราว์เซอร์ AI พร้อมกับภายในเวลาเดียวกันนี้ นี่เองเป็นเหตุผลที่ทีมลงทุนมากมายแต่ตัดสินใจหยุดการทำงานกับเบราว์เซอร์ในเดือนตุลาคมปีที่แล้ว
บริษัทบราวเซอร์ประกาศเมื่อวันที่ 25 ตุลาคม 2024 ว่าจะหยุดพัฒนาคุณสมบัติใหม่สำหรับเบราว์เซอร์ Arc และตัดสินใจโอนทรัพยากรไปยังเบราว์เซอร์ใหม่ Dia เพื่อสร้างเบราว์เซอร์ AI ที่เรียบง่ายและใช้ง่ายกว่า |ที่มา: เว็บไซต์อย่างเป็นทางการของ Arc
“ในบราวเซอร์ AI AI กำลังขัดขวางผู้ใช้อย่างต่อเนื่อง” เนื่องจากเป็นสถานการณ์ที่ออกแบบไว้สำหรับผู้ใช้คนเดียว หากใช้ AI แล้วจะไม่สามารถใช้ได้อีก เมื่อ AI เริ่มทำงาน คุณจะต้องเฝ้าดู AI ทำงานอย่างเดียวซึ่งทำให้เริ่มต้นได้ยาก การดู AI แย่งเมาส์และคอมพิวเตอร์ของคุณ ไม่เพียงแค่คุณไม่กล้าแย่งกลับมา แต่ยังกลัวว่าการสัมผัสคีย์บอร์ดหรือเมาส์โดยไม่ตั้งใจจะทำให้กระบวนการทั้งหมดพังและต้องการให้คุณเริ่มต้นอีกครั้ง
นี้ช่วยให้ทีมสามารถทำการประเมินสองอย่าง
ในการให้สัมภาษณ์กับ Zhang Xiaojun จาก Tencent Technology Xiao Hong กล่าวว่าเมื่อทีมสรุปแบบฟอร์มผลิตภัณฑ์จาก Jasper ถึง ChatGPT ถึง Monica ถึง Cursor to Devin พวกเขาพบว่า "โปรแกรมเมอร์มนุษย์" Devin เหมาะอย่างยิ่งสําหรับสถาปัตยกรรมประสบการณ์แบบอะซิงโครนัสนี้
ไม่เหมือนเมื่อใช้ Windsurf มันบางครั้งจะถามให้คุณยืนยันว่าคอมพิวเตอร์ของคุณต้องการติดตั้งไลบรารีนี้หรือไม่ หรือมันทำการดำเนินการด้วยคำสั่งบรรทัดคำสั่งและถามให้คุณกรอกใช่หรือไม่ เพราะมันอาจทำความเสียหายกับคอมพิวเตอร์ของคุณจริง ๆ หรือมีความขัดแย้งกับบางอย่าง มันจะขอให้คุณกรอก “ใช่” เพื่อดำเนินการไปขั้นตอนถัดไป แต่มันต้องให้ผ่านบัญชีความผิด
ดังนั้นในมุมมองของทีม Manus "Chatbot ควรมีคอมพิวเตอร์ในคลาวด์และโค้ดที่เขียนและสิ่งที่ต้องทำการตรวจสอบผ่าน browser ถูกดำเนินการบนคอมพิวเตอร์นั้น เนื่องจากเป็นเซิร์ฟเวอร์เสมือนไม่สำคัญถ้ามันพังได้คุณสามารถได้เซิร์ฟเวอร์อีกเครื่องหนึ่ง มันยังสามารถปล่อยเซิร์ฟเวอร์หลังจากงานปัจจุบันเสร็จสิ้น
ควรทราบว่าในขณะที่ Devin เลือกสนามแนวตั้งและวิศวกรหัวโต ทีม Manus เลือกผู้ช่วย AI ระดับมีส่วนร่วมทั่วไปรวมทั้นถึง Web และ App มันเป็นผู้ช่วย AI ระดับมีส่วนร่วมทั่วไปที่สามารถเรียกใช้เครื่องมือและทำงานต่าง ๆ ตามคำสั่ง ในงานและชีวิตประจำวัน ในอนาคต มันยังจะส่งผลลัพธ์งานให้กับผู้บริโภคในราคาที่เป็นราคาที่สามารถเข้าถึงได้
มีแนวคิดและเป้าหมายชัดเจน ขั้นตอนต่อไปคือการสร้างความเป็นจริงให้กับแนวคิด คุณคิดว่ามานุสทำอย่างไร?
ตามที่หุ้นส่วนผลิตภัณฑ์ของมัน จางเทา กล่าวว่า นี้ต้องการการติดตั้งคอมพิวเตอร์ให้กับโมเดลขนาดใหญ่พร้อมทั้งให้สิทธิ์ระบบ (การเข้าถึง API ส่วนตัว เช่น คลังข้อมูลและเว็บไซต์ค้นหาข้อมูลอาชีพ) และการให้การฝึกอบรมบางอย่าง
ในทางนี้ AI สามารถใช้คอมพิวเตอร์นี้เพื่อเปิดเบราว์เซอร์ ดำเนินการเพื่อเช็คเครื่องมือ และจากนั้นมองผลกระทบจากการดำเนินการของมันในโลกแห่งความเป็นจริง โดยอิงจากคำตอบที่เกิดขึ้นจากเครื่องมือ จากนั้นคิดถึงขั้นตอนต่อไป ดำเนินการอีกครั้ง และจากนั้นสังเกต... นี้คือกระบวนการของ AI ในการทำงานเพื่อสำรวจและวิจัย ในช่วงเวลานี้ Manus ยังจะเข้าใจความต้องการของคุณมากขึ้นอยู่ภายใต้การ “ฝึกฝน” ของคุณ ในอนาคต แม้แม้ว่าคุณจะไม่ได้กำหนดความต้องการของคุณอย่างชัดเจน มันก็ยังสามารถ “ค้นหาความหมายศักดิ์สิทธิ์” อิงจากความรู้ที่สะสมไว้ในแต่ละงาน
Li Bojie, อัจฉริยะที่มีความสามารถของ Huawei และผู้ก่อตั้งของ Logenic AI เชื่อว่า Manus มีคุณสมบัติที่เป็นเอกลักษณ์ที่ทำให้มันแตกต่างจากผลิตภัณฑ์อื่น ๆ: มันแก้ปัญหาในลักษณะของนักพัฒนาโปรแกรมเมอร์ที่ตื่นตาตื่นใจ | แหล่งภาพ: ภาพหน้าจอ WeChat
ความคิดเชิงสินค้าของผลิตภัณฑ์ Manus กลับกลายเป็นชัดเจนขึ้นจากปฏิบัติการผลิตภัณฑ์ของทีมของมัน: โครงสร้างน้อยลง สตรักเจอร์มากขึ้น (โครงสร้างน้อยลง สตรักเจอร์มากขึ้น)
นี่เป็นช่วงเวลาที่ทำให้ทีม Manus ได้ไป “อะฮ่า รอแป๊บ!” ตัวอย่างเช่น นี้คือสิ่งที่เกิดขึ้นกับทีมในเดือนมกราคมปีนี้ค่ะ
เมื่อมานุสถูกขอให้ลองทำคำถามในชุดทดสอบ GAIA: “ในลิงก์วิดีโอ YouTube ที่เหมือนกับสไตล์ National Geographic มีเพนกวินหลายตัวกลับมาและไปมาและมาเข้าและออกจากหน้าจอ มานุสถูกขอให้นับจำนวนเพนกวินสูงสุดที่ปรากฏในกรอบเดียวกันพร้อมกัน มีทั้งหมดกี่ชนิด?”
ต่อมาเกิดเหตุการณ์ที่เวทมนตร์
Manusเปิดลิงก์วิดีโอครั้งแรกและการกระทำครั้งแรกที่เขาทำคือ “กด K” จากนั้นเขาถ่ายภาพหน้าจอจากหนึ่งไปสู่อีกหนึ่งเพื่อบันทึกว่าประเภทของเพนกวินปรากฏในภาพเฟรมใดเว็บไซต์หนึ่งสุดท้ายเขาสรุปว่าภาพเฟรมที่มีปรากฏเพนกวิน 3 ประเภทมากที่สุด Manusจะกลับไปตรวจสอบต่อ และการกระทำครั้งถัดไปคือ “กด 3”…หลังจากการตรวจสอบสุดท้ายคำตอบคือ 3
เป็นผู้คนที่อยู่เบื้องหลังการก่อสร้างของ Manus เราควรทราบขอบเขตของความสามารถของมัน แต่สำหรับทีมงาน ความเป็นจริงคือว่า “มักมีสิ่งที่น่าแปลกใจเสมอ” อย่างน่าแปลกใจไม่แค่ Manus ตอบคำถามถูกต้อง และยังมีเพื่อนมนุษย์ที่ใช้คอมพิวเตอร์และ Youtube มาหลายปีอาจจะไม่รู้ว่าปุ่ม “K” และ “3” บนแป้นพิมพ์คืออะไร?
มองไปที่ฉากที่มันเป็นหัวสำรองของพวกเขา ทีมตามมานุสและทำอีกครั้ง ตัวอักษร "K" บนแป้นพิมพ์คือปุ่มหยุดชั่วคราวซึ่งช่วยให้มานุสถ่ายภาพหน้าจอได้หนึ่งต่อหนึ่งหลังจากหยุดชั่วคราวเพื่อบันทึกว่าเพนกวินปรากฏอยู่ในเฟรมไหน "3" ก็เป็นปุ่มลัดอีกตัว จาก 0 ถึง 9 ตามลำดับ แทน 0% ถึง 90% ของแถบความคืบหน้า 3 คือ 30% ของแถบความคืบหน้า มันสามารถระบุตำแหน่งนั้นของวิดีโอได้อย่างแม่นยำแล้วบอกมนุษย์ว่ามีเพนกวินชนิดใดบ้างในภาพนี้
กระบวนการนี้แตกต่างจาก Chatbot แบบดั้งเดิม โดยที่มันสามารถดูภาพ YouTube แทนการใช้คำบรรยาย นอกจากนี้ เราพบว่ามันใช้ปุ่มลัดของ YouTube โดยเราตกใจมากที่มันตอบคำถามนี้ได้ "เสียงเสียว" ก็กล่าวถึงเหตุการณ์นี้ในสัมภาษณ์ก่อนหน้ากับ Tencent Technology
โดยอย่างไม่คาดคิด ฉันค้นพบว่า Manus ไม่เพียงแต่เก่งในการเขียนโปรแกรมมากกว่ามนุษย์ แต่ความรู้ของ Manus เกี่ยวกับเว็บและแอปที่คนใช้ประจำทุกวันได้มีความสามารถที่เหนือกว่าจินตนาการ เป็น AI ที่รู้ทุกทางทั้งวิธีและเครื่องมือ และจากนั้นเลือกวิธีการที่เหมาะสมที่สุด
นี้อีกครั้งทำให้ทีมรู้สึก "น้อยโครงสร้าง มากไอเทลลิเจนซ์" - ลด ข้อ จำกัด ที่ ทำ ขึ้น อย่าง ประดิษฐ์ ต่อ ไอเทลลิเจนซ์ และ อนุญาตให้ ไอเทลลิเจนซ์ ทำงาน ผ่าน วิวัฒนาการ ของตนเอง แทนที่จะ สอนมัน ว่า จะทำอะไร
ที่ด้านล่างสุดของเว็บไซต์อย่างเป็นทางการของ Manus ค้นพบสิ่งสำคัญที่สุดของ Manus อยู่ที่นี่: 'น้อยๆ โครงสร้าง, มากขึ้น ความฉลาด' |แหล่งภาพ: Manus
นี่คือคำอธิบายและการคิดที่ยาวนานของพีค ผู้ก่อตั้งและนักวิทยาศาสตร์หลักของ "Butterfly Effect" เกี่ยวกับความสำคัญของหลักพื้นฐานที่สำคัญที่สุดของผลิตภัณฑ์ Manus - "โครงสร้างน้อย สติปัฏฐานมาก" ในวันที่ผลิตภัณฑ์ Manus ถูกเปิดตัว:
เมื่อข้อมูลของคุณมีคุณภาพสูงโมเดลของคุณฉลาดพอสถาปัตยกรรมของคุณมีความยืดหยุ่นเพียงพอและวิศวกรรมของคุณแข็งแกร่งพอแนวคิดเช่นการใช้คอมพิวเตอร์การวิจัยเชิงลึกและตัวแทนการเข้ารหัสจะเปลี่ยนจากคุณสมบัติของผลิตภัณฑ์เป็นความสามารถที่เกิดขึ้นตามธรรมชาติ
การกลับสู่หลักการพื้นฐานยังช่วยให้เรามีวิธีการคิดใหม่เกี่ยวกับรูปแบบผลิตภัณฑ์: AI browser ไม่ใส่ AI เข้าไปในเบราว์เซอร์ แต่ทำให้มีเบราว์เซอร์สำหรับ AI;
· การค้นหา AI ไม่ฝังคำค้นและสรุปจากดัชนี แต่ให้ AI ได้รับข้อมูลด้วยสิทธิ์ของผู้ใช้;
· การดำเนินการ GUI ไม่ยึดควบคุมของอุปกรณ์ของผู้ใช้ แต่อนุญาตให้ AI มีเครื่องจำลองเสมือนของตัวเอง;
การเขียนโค้ดไม่ใช่วัตถุประสงค์สุดท้าย แต่เป็นสื่อทั่วไปสำหรับการแก้ปัญหาต่าง ๆ
ความยากลำบากในการสร้างเว็บไซต์ไม่ได้อยู่ที่การสร้างโครงสร้าง แต่อยู่ที่การทำให้เนื้อหามีความหมาย;
· ความสนใจไม่ใ่สถาการที่จำเป็นทั้งหมด ที่จำเป็นเพียงการปลดปล่อยความสนใจของผู้ใช้ DAU จึงจะถูกกำหนดใหม่;
ผ่านการค้นพบและปฏิบัติตามหลัก "น้อยๆ โครงสร้างมากขึ้น" อย่างต่อเนื่อง Manus ได้ผลลัพธ์ที่เกินความคาดหมาย รวมถึงการผ่าน@1คะแนนในการทดสอบ GAIA มีคะแนนเกินคะแนนของ OpenAI Deep Research ภายใต้เงื่อนไข@64; ในที่เดียวกัน ในการทดสอบภายใน Manus ยังสามารถครอบคลุม 76% ของสถานการณ์ของผลิตภัณฑ์ตัวแทนที่มีเฉพาะใน Y Combinator W25 โดยตรง
ตอนนี้มูลค่าของข้อความเหล่านี้กำลังถูกพูดถึงในขอบเขตที่ใหญ่ขึ้น:
Clement Delangue, ผู้ก่อตั้งและ CEO ของ Hugging Face, ขอเสนอความค้นพบของ Peak ว่า บางแบบจำลองพื้นฐานที่เปิดเผยเพียงแค่ฝึกฝนเพื่อ 'ตอบคำถามทั้งหมดในรอบเดียวโดยไม่ว่าถามยากหรือง่าย' แต่นี่เป็นความต้องการในสถานการณ์แชทบอท การฝึกฝนเพิ่มเติมบนเส้นทางของตัวแทนสามารถทำให้เกิดความแตกต่างอย่างมากทันที |ที่มาภาพหน้าจอ: X
Manus ไม่ได้นำเสนอ MCP (โมเดล คอนเท็กซ์ โปรโตคอล) แต่อนุญาตให้ AI เขียนโค้ดของตัวเองเพื่อเรียกใช้ API เพื่อจัดการงานที่ซับซ้อนต่างๆ |แหล่งภาพหน้าจอ: X
ในการสนทนาเกี่ยวกับมานุส ในรอบหลายวันที่ผ่านมา คำถามที่ฉันได้ยินมากที่สุดคือ: การสร้าง "Universal AI Agent" เป็นไปได้หรือไม่? ขอบเขตอยู่ที่ไหน?
ในมุมมองของ Peak คือ เนื่องจากปฏิสัมพันธ์ระหว่างคนกับโลกนั้นจริง ๆ เป็นเรื่องมาตรฐานมาก ๆ ด้วยตา มือ และหู หากพื้นที่การกระทำถูกกำหนดไว้ดี น่าจะเป็นไปได้ที่จะฝังตัวเอเจนต์เข้าไปในลิงก์ที่เดิมที่มนุษย์ทำ
เนื่องจากผู้คนสามารถใช้เครื่องมือต่าง ๆ เพื่อทำการดำเนินการลึกลับในสาขาต่าง ๆ หากตัวแทนเองมีความรู้ที่ดีพอ ได้รับการฝึกฝนอย่างเหมาะสม และมีอินเตอร์เฟซที่ดีสำหรับการโต้ตอบกับโลก ควรจะสามารถทำงานเหมือนคน และอาจทำให้ตัวแทนใช้ผลิตภัณฑ์ SaaS บางประการได้ ตัวอย่างเช่น กรณีการหาบ้านที่นำเสนอบนเว็บไซต์อย่างเป็นทางการของ Manus.im จริงๆ แล้วเกี่ยวข้องกับการให้ปัจจัยประสบการณ์ทำงานร่วมกับผลิตภัณฑ์ SaaS ที่เฉพาะเจาะจงสำหรับสาขาอสังหาริมทรัพย์
เขาเชื่อว่าสิ่งที่ควรถูกกำหนดอย่างชัดเจนคือขอบเขตของการใช้เครื่องมือของตัวแทน ไม่ใช่กลุ่มคนที่มันให้บริการ มานุสไม่ได้จำลองบุคคลที่ทำสิ่งเฉพาะ ๆ หรือตัวแทนบทบาทที่แบ่งตามการวิจัยและพัฒนา ผู้จัดการผลิตภัณฑ์ ฯลฯ มันกำลังจำลองบุคคลที่สามารถทำสิ่ง และจำลองว่าคนรุ่นใหม่ทำงานอย่างไร
ระบบหลายเอเจนต์ของ Manus หมายถึงการแยกการวางแผนและการดำเนินการ
สำหรับผู้ดำเนินการ (Executor), Manus ได้ยอมรับ Claude ซึ่งเป็นผู้นำชั่วคราวในการเขียนโปรแกรม การวางแผนระยะยาว และความสามารถในการแก้ปัญหาขั้นต่อไป และใช้ชุดของโมเดล Qwen หลังการฝึกอบรม
เมื่อวานนี้ มานุสยังได้เชื่อมโยงความร่วมมือกับอะลิบาบา ทองยี่ ชิ้นเหรียญ เชื่อมั่นว่าจะสามารถทำให้ทุกฟังก์ชันของมานุสบนแพลตฟอร์มโมเดลภายในประเทศและแพลตฟอร์มคำนวณได้ทั้งหมด | แหล่งภาพ: มานุส
ในส่วนของนักวางแผน มานุได้ทำงานมากมาย
เนื่องจาก API หรือโมเดลบนชั้นวางที่มีอยู่ในตลาดในปัจจุบันมักจะถูกปรับให้เหมาะสำหรับสถานการณ์หุ่นยนต์แชท ในระหว่างการฝึกอบรมไม่ว่าผู้ใช้จะถามคำถามอย่างไรที่ซับซ้อนก็ตาม เป้าหมายการปรับปรุงของการฝึกอบรมคือการตอบคำถามของผู้ใช้อย่างชัดเจนในข้อความเดียว แต่นี้กลับตรงข้ามกับการวางแผนที่ต้องการโดยเอเจนต์
ดังนั้นหากโมเดลที่มีอยู่บนตลาดถูกใช้โดยตรงในสถานการณ์ของตัวแทนโดยไม่มี "การจัดเรียง" โมเดลนี้จะมีความกระตือรือร้นที่จะประสบความสำเร็จอย่างรวดเร็วและให้ "ผลลัพธ์ที่สับสน" ภายในรอบการสนทนาเหมือนกับสรุปข้อความด้วยข้อความสั้นๆ หลายข้อ
"วิธีการจัดการแนวต้องแตกต่างกัน ทีมของเราเชื่อว่าจำเป็นต้องใช้ข้อมูลที่แตกต่างกันเพื่อดำเนินการจัดการแนวที่เป็นพิเศษ" โดยเสียงของเสียงเสียง
เมื่อเดือนตุลาคมปีที่แล้ว พีคยังบันทึกความคืบหน้าและความล้มเหลวของการพยายามที่จะทำซ้ำโครงการ OpenAI o1 interest โมเดล Steiner open source บน Zhihu ในความเป็นจริงโครงการนี้กำลังทำการวิจัยเบื้องต้นเกี่ยวกับการวางแผนขั้นตอนต่อของผู้วางแผน Manus
โดยทั่วไป มานุสจำลองบุคคลที่กระทำสิ่งต่าง ๆ นั้นคือการนิยามผลิตภัณฑ์ของทีมเกต เรื่องมานุสในฐานะผู้ช่วย AI ที่ใช้ได้ทุกทาง ในการคิดถึงขอบเขตของมัน ทีมอาจยังคงกำลังสำรวจและต้องการกรณีการใช้ของผู้ใช้เพิ่มเติม
ในการให้สัมภาษณ์กับ Tencent Technology ที่เผยแพร่ก่อนการเปิดตัว Manus Xiao Hong ได้กล่าวถึงความคิดเริ่มต้นของเขาเกี่ยวกับความเก่งกาจของ Manus "ปัญหาหลักหรือความรับผิดชอบที่สําคัญมากของผู้จัดการผลิตภัณฑ์คือการควบคุมความคาดหวังของผู้ใช้ สมมติว่ามันสามารถทําทุกอย่างในโลกเช่น: ฉันจะทําเงินได้ 1 ล้านเหรียญได้อย่างไร นี่ไม่ใช่สิ่งที่ตัวแทนควรดําเนินการ แต่ถ้าเราสามารถยกตัวอย่างที่เฉพาะเจาะจงมากขึ้นเพื่อทําให้ความคาดหวังของทุกคนสมเหตุสมผลมากขึ้นทุกคนก็จะใช้มันได้อย่างราบรื่นยิ่งขึ้น"
ในตอนเช้าของวันที่ 27 กุมภาพันธ์ พาร์ทเนอร์ผลิตภัณฑ์ Manus คุณจาง เทาและนักวิทยาศาสตร์หัวหน้า จี อีเชาโอ (พีค) ได้ร้องไห้เมื่อพวกเขาเห็นผลการจัดอันดับของ Manus.im ผลการทดสอบ GAIA Benchmark ของ Manus ได้เกินกว่า Deep Research ของ OpenAI และได้รับผลลัพธ์ที่ไม่คาดคิดนี้ในราคาประมาณ 1/10 ($2/งาน) ของ OpenAI Benchmark
แหล่งที่มาของภาพ: Manus.im
ทีมของสิบๆคนกลายเป็นหนึ่งในทีมแรกที่สร้างผลิตภัณฑ์เอเจ้นต์สากลเมื่อเอเจ้นต์เห็นด้วยกันในการแข่งขันในวงการ พวกเขายังมีความเป็นเอกลักษณ์ในการวิศวกรรมผลิตภัณฑ์และประสบการณ์โต้ตอบด้านหน้า
คำติชมที่ดีจากสิ่งที่ทำนั้นดีกว่าทุกอย่าง ไม่มีสิ่งที่สร้างสรรค์ทีดีกว่าสิ่งนี้สำหรับทีมสตาร์ทอัพ แต่ก่อนที่จะเป็นเช่นนั้น มานุสเกิดขึ้นได้อย่างไร? ทำไมทีมนี้ถึงถูกสร้างขึ้น?
ความสามารถของโมเดลในปัจจุบันสามารถทำงานบางอย่างที่ซับซ้อนและมีขั้นตอนหลายขั้นตอน แต่ยังไม่มีผลิตภัณฑ์เช่นนั้น ดังนั้นทุกคนไม่สามารถรับรู้
ในเวลาเดียวกัน ไม่มีทีมใดมีโอกาสลองผลิตภัณฑ์เอเจนต์ได้เยอะ เนื่องจากมันต้องการความสามารถทางสร้างสรรค์มากมาย เขาต้องการทำงานกับ Chatbot บางส่วนเกี่ยวกับการเขียนโปรแกรม AI และเกี่ยวกับเบราว์เซอร์ เนื่องจากเขาต้องเรียกใช้เบราว์เซอร์ และเขามีความรู้สึกดีเกี่ยวกับขอบเขตของ LLM - ระดับที่มันพัฒนาไปถึงวันนี้ และระดับที่มันจะพัฒนาไปยังระดับถัดไป ก่อนอื่นไม่มีบริษัทมากมายที่มีความสามารถเหล่านี้ในเวลาเดียวกัน และบริษัทที่มีความสามารถเหล่านี้อาจกำลังทำธุรกิจที่เฉพาะเจาะจงอยู่ บางคนในระดับเพื่อนร่วมชั้นของเราก็มีเวลาที่จะทำเหล่านี้พร้อมกัน
“ที่แน่นอน”.
ทีม "Butterfly Effect" ได้ทำให้มีตัวแทนสากลที่สมบูรณ์แบบในปัจจุบัน ดังนั้นตอนนี้มีตัวแทนสากลที่สมบูรณ์แบบอย่างสูงเมื่อเทียบกับอุตสาหกรรม
เมื่อถามถึงช่วงเวลาที่สำคัญเมื่อเขาต้องการเริ่มต้นมานุส พีคก็กลับมากับรายละเอียดมากขึ้น พูดว่า “จริงๆ แล้วไม่มีจุดหมุนที่ ‘สะอาด’ ในการเริ่มธุรกิจ” ทุกอย่างเป็นไปอย่างสอดคล้องและไม่มีขอบเขตชัดเจน
เมื่อผลิตสินค้า ฉันมักใส่ใจถึงสถานการณ์ภายนอกเสมอ มีเหตุการณ์บางเรื่องในเวลานั้น ในการสร้างเบราว์เซอร์ ฉันทำโมเดลด้านลูกค้า ภายหลังฉันพบว่าเบราว์เซอร์ต้องการสถานการณ์ที่หลากหลายมาก และมีคุณสมบัติต่างกัน ระหว่างกระบวนการ ฉันพบว่าโมเดลฐานกำลังเข้มขึ้นอย่างรวดเร็ว ช่องว่างระหว่างมันกับตัวแทนอาจเป็นปัญหาการจัดเรียง แม้ว่าโลกภายนอกอาจรู้สึกว่าโมเดลภาษาขนาดใหญ่ได้รวมกันเรื่อยๆ และชนเส้นสุดท้าย
ในขณะเดียวกันโลกภายนอกก็เปลี่ยนไปเช่นกัน เคอร์เซอร์เริ่มขึ้นเมื่อต้นปีที่แล้ว ตามด้วยวินด์เซิร์ฟและเดวิน สิ่งนี้สอดคล้องกับบริบทเดียวกัน ตัวแทนเป็นที่นิยมในด้านการเขียนโปรแกรมและเส้นทางสู่ความนิยมมีความก้าวหน้า เคอร์เซอร์เป็น copilot สําหรับโปรแกรมเมอร์ซึ่งช่วยปรับปรุงประสิทธิภาพการเขียนโปรแกรม เริ่มต้นจาก Windsurf กระบวนการอัตโนมัติบางอย่างจะค่อยๆ ถูกนํามาใช้ ช่วยให้คุณมีความสามารถอัตโนมัติที่แข็งแกร่งขึ้นในเครื่องในพื้นที่ของคุณ Devin ได้มาถึงระดับใหม่ของระบบอัตโนมัติ
แนวโน้มของ VC ก็สอดคล้องกันเช่นกัน เช่น เมื่อปีที่แล้วและปีก่อนหน้านี้ YC ลงทุนในสองประเภทของบริษัท คือ Browser แบบ Cloud Browser และประเภทที่สองคือเครื่องมือเสมือนเครื่องจำลอง AI ที่เบาๆ เหมือนกับ e2b
นี้แสดงให้เห็นว่า “โครงสร้างพื้นฐานของโมเดลกำลังก้าวหน้าอย่างรวดเร็ว และโครงสร้างพื้นฐานของอินฟราก็กำลังเจริญเติบโตอย่างรวดเร็ว นอกจากนี้ การเห็นว่าผลิตภัณฑ์ภายนอกกำลังได้รับการยอมรับมากขึ้นเรื่อย ๆ เรารู้สึกว่านี่เป็นทิศทางที่คุ้มค่าที่จะลงทุนให้ทั้งหมด นี่คือกระบวนการที่เป็นเรื่อย ๆ และเรียบเรียงมาก นอกจากนี้ โครงสร้างพื้นฐานที่สะสมได้ระหว่างการพัฒนาเบราว์เซอร์เช่น Chromium สามารถย้ายโยงไปยังภาพรวมได้โดยไม่มีช่องว่าง นั่นคือเหตุผลที่เรากล้าพัฒนาเบราว์เซอร์ในคลาวด์ได้
ในสรุปความสามารถในการรับรู้อย่างชาญฉลาดและการสะสมประสบการณ์ของความต้องการและรูปแบบในที่เรียกว่า "เปลือก" สร้างมานุสร้างขึ้นร่วมกัน กรณีเช่นมากของ Monica ต้องการการฝึกอบรมหลังจากรูปแบบ ในเวลาเดียวกัน บทเรียนที่สำคัญที่สุด "โครงสร้างน้อยลง สตรักเจอร์มากขึ้น" ได้เสริมแรงในการปฏิบัติของเบราว์เซอร์ AI พบว่าความสามารถของโมเดลได้ถึงระดับที่เป็นตัวแทน แต่ปัญหาอยู่ที่การจับคู่ สิ่งที่เกิดขึ้นต่อมาคือการวิวัฒนาการอย่างรวดเร็วสามเดือนสำหรับมานุส
ก่อนหน้านี้ทีม "Butterfly Effect" เคยถูกตั้งคําถามถึงคุณค่าของ "การปอกเปลือก" มันสร้างโมนิกาโดยการรวมโมเดลขนาดใหญ่ที่มีอยู่โดยไม่ต้องพัฒนาโมเดลขนาดใหญ่ด้วยตัวเอง มันรวมฟังก์ชั่นเช่นการแชทการค้นหาการอ่านการเขียนและการแปล นอกจากนี้ยังรวมสถานการณ์การดําเนินการงานจํานวนมากผ่าน API ทีละรายการ ภายในสิ้นปีที่แล้วจํานวนผู้ใช้ถึงหลายสิบล้านคน
ตอนนี้เมื่อ Doubao, Quark และ Yuanbao กําลังโปรโมตผลิตภัณฑ์ Monica ของพวกเขาอย่างจริงจังและเมื่อทีมเล็ก ๆ ใช้เทคโนโลยีที่มีอยู่เพื่อสร้างตัวแทนระดับผู้บริโภคทั่วไปรายแรกก็ถึงเวลาที่จะเข้าใจ "เปลือก" อีกครั้ง
“Shells” และ “shells” คืออะไรแท้จริง?
ในมุมมองของเสียงเสียงแดนใต้ การขุดเจาะทั้งหมดถูกนำมาโดยแบบจำลองซึ่งพื้นฐานที่สำคัญและมุ่งหน้าหน้า
เริ่มต้นจากคำจำกัดความนี้ DeepSeek App (รวมถึงการแสดงเชนความคิด) เป็นเปลือกของ DeepSeek-R1, Cursor เป็นเปลือกของ Anthropic Sonnet 3.5, Perplexity เป็นเปลือกของ GPT-4, และ ChatGPT เป็นเปลือกของ InstructGPT.
เนื่องจากความสามารถของโมเดลเร่งรีบพัฒนาขึ้นอย่างรวดเร็ว “เปลือกนั้น” ก็ต้องพัฒนาต่อไปด้วย เมื่อความสามารถของโมเดลแต่ละรุ่นพัฒนาขึ้น มันไม่จำเป็นต้องเป็นผู้ผลิตเดิมๆ มันเป็นผู้ผลิตบุคคลที่สามที่นำคุณค่าที่ผู้ใช้สามารถรับรู้มานำเสนอ อย่างเช่น Cursor นำคุณค่าที่ผู้ใช้สามารถรับรู้มาให้กับ Claude 3.5 Sonnet
ในวันที่ 5 มีนาคม วันครบรอบ 2 ปีของการเปิดตัว Monica.im คำตอบว่าทำไมพวกเขาทั้งหลายได้รับประสบการณ์การใช้งานผลิตภัณฑ์ที่เกินกว่าตัวของหลายๆ Deep Research และ OpenAI Operators อยู่ในความเข้าใจและปฏิบัติต่อกลอน
วิธีการสร้างเคาะปลายที่ดีที่สุดสำหรับโมเดลใหม่ที่สามารถใช้เป็นตัวแทนได้อย่างไร
เป็นผู้ก่อสร้างของ Manus, Zhang Tao เชื่อว่า “เมื่อมองไปที่โครงสร้างทั้งหมดของมันจากพื้นหลังเราจะเห็นว่ามีงานที่ยังไม่เสร็จที่ทุกที่ และแต่ละที่เหล่านั้นก็เป็นความสำเร็จที่สำคัญ และพวกเขาก็เป็นที่ที่ทำให้ผลิตภัณฑ์นั้นต่างไป
จากมุมมองของทีมข้อได้เปรียบที่สําคัญที่สุดคือก้าวของนวัตกรรม ทั้งแอปพลิเคชันและรุ่นได้มาถึงสถานะของความอิ่มตัวสัมพัทธ์แล้ว ความสามารถหลักที่แท้จริงเพียงอย่างเดียวในท้ายที่สุดคือการทํางานที่รวดเร็วแม้ว่า "มู่เล่ข้อมูล" และ "เอฟเฟกต์เครือข่าย" ยังไม่ได้รับการยืนยัน
“ในสาขาใหม่ทั้งหมดเป็นสิ่งที่ไม่แน่นอนและไม่รู้เลย สิ่งสำคัญที่สุดคือความเร็วของนวัตกรรม สิ่งที่เราพยายามทำคือการสำรวจ การลองผิดลองถูกในทางที่แตกต่างกัน และการค้นหาเส้นทางที่ถูกต้องอย่างรวดเร็ว” ทีม Manus มีความยืดหยุ่นเพียงพอในเชิงปรัชญาการบริหาร โครงสร้างองค์กร และกระบวนการอุตสาหกรรม เมื่อโอกาสใหม่เกิดขึ้น คุณสามารถใช้ทรัพยากรจำกัดเพื่อเชื่อมโยงทรัพยากรทั้งหมดของบริษัททั้งหมด ตัดสินใจอย่างรวดเร็วมาก และปรับตัวให้เข้ากับข้อเสนอแนะเกี่ยวกับความผิดพลาด
จากซ้ายไปขวาคือนักวิทยาศาสตร์ชั้นนำของ “Butterfly Effect” Peak, ประธาน ฯ ของ Xiao Hong, และหุ้นส่วนผู้ผลิต Zhang Tao | ที่มาของภาพ: อินเทอร์เน็ต
เกี่ยวกับความคาดหวังของมานุส์ ซิาวหงคิดว่า “แม้จะมีช่วงเวลาที่ยังคงมีค่า แต่ก็ควรลอง” ในปีที่ผ่านมา วิสัยความคิดของเขาก็เปลี่ยนแปลงอย่างรุนแรง ยกตัวอย่างเช่น เขาตอนนี้เชื่อว่า “เมื่อคุณรู้สึกว่าคุณล้มเหลวไวเกินไป คุณก็มีพฤติกรรมอย่างกระตือรือร้น หลังจากที่ทบทวนวันนี้ ฉันรู้สึกว่าโมนิกาในปี 2023 ไม่กระตือรือร้นพอ” “หากคุณรู้ว่าคุณกำลังสร้างสิ่งใหม่และเป็นผู้นำ คุณควรกระตือรือร้น
ผมไม่รู้ว่ามนัสจะนําประสบการณ์และก้าวกระโดดจาก 1 เป็น N ได้หรือไม่ แต่ทีมที่รู้เรื่อง "เปลือกหอย" มากที่สุดเชื่อในการสร้างสรรค์ด้วยหัวใจและมือเป็นหนึ่งเดียว และยังเชื่อในเอฟเฟกต์ผีเสื้อที่เกิดจากการสร้างสรรค์ มนัสมาจากคําขวัญที่ MIT: Mens at manus ซึ่งเน้นความสามัคคีของหัวใจและมือ มันไม่สามารถเป็นแสงได้ต้องทําและอาจมีผลกระทบต่อโลกแห่งความเป็นจริงซึ่งเป็นความรู้ที่แท้จริง
ในอนาคต โดยเมื่อมีการเปิดเผยข้อมูลเพิ่มเติมเกี่ยวกับเงินฝากที่อยู่ข้างหลังของมานุส เริ่มมีผลกระทบต่อหลากหลายมากขึ้น
บทความนี้ถูกคัดลอกมาจาก [GateGEEEKPARK], และลิขสิทธิ์เป็นของผู้เขียนต้นฉบับ [ว่านเฉิน], if you have any objection to the reprint, please contact Gate Learnทีมจะดำเนินการให้เร็วที่สุดตามขั้นตอนที่เกี่ยวข้อง
คำประกาศ: มุมมองและความคิดเห็นที่แสดงในบทความนี้แสดงถึงมุมมองส่วนบุคคลของผู้เขียนเท่านั้น และไม่เป็นที่สนับสนุนใด ๆ เกี่ยวกับการให้คำแนะนำทางด้านการลงทุน
เวอร์ชันภาษาอื่น ๆ ของบทความถูกแปลโดยทีม Gate Learn และไม่ได้กล่าวถึงใน Gate.io, บทความที่ถูกแปลอาจไม่สามารถทำสำเนา แจกจ่ายหรือลอกเลียนได้
เรื่องราวการประกอบการที่ได้รับสาระสำคัญมากที่สุดในปีที่แล้วมาจากผู้ก่อตั้ง Dify คือ ซาง ลูยู
ครั้งแรกที่ฉันพบเขาคือในงาน "Xixi Taoism" เมื่อปี 2023 ในหมู่ชื่อดังที่อยู่ในสถานที่ จางลูยู ไม่โดดเด่นเท่าไหร่เมื่อเราพบกันอีกครั้งในปี 2024 Dify กลายเป็นเรื่องอื่น - นักประกอบการที่ไม่มีพื้นหลังที่น่าทึ่ง ที่สร้างผลิตภัณฑ์โอเพนซอร์ส AI ที่ประสบความสำเร็จอย่างมากในโลก ในขณะที่ทุกคนยังสงสัยเกี่ยวกับแบบจำลองธุรกิจ
สิ่งที่เกิดขึ้นกับ บริษัท นี้ในหนึ่งปีเช่นความนิยมที่ไม่คาดคิดในตลาดญี่ปุ่นซึ่งเป็น "ธรรมดาและง่ายต่อการป้องกัน แต่ยากที่จะโจมตี" ช่วยให้ฉันเข้าใจ "ผู้ประกอบการ" มากขึ้น ส่วนใหญ่เป็นอุบัติเหตุและต้องใช้โชคด้วย ท้ายที่สุดคุณต้องมีความสามารถในการหาทางออกจากการเปลี่ยนแปลงและไฟย้อนกลับอย่างต่อเนื่อง
ตอนนี้เหตุการณ์ที่คล้ายกันเกิดขึ้นกับผู้ประกอบการระดับสูงอีกคน คือ มานุส.im เสียวหง และทีมงานของเขา
สี่เดือนที่ผ่านมา ซี่เฮงกล่าวถึงความสับสนว่า “ทีมเก่งในการไปจาก 0 ไปสู่ 1 และมีความสามารถในการตระหนักโอกาส หากเริ่มต้นจาก 1 ไปสู่ N สถานการณ์ก็ไม่ค่อยดีเท่านั้น”
จากประสบการณ์ที่ผ่านมาโครงการผู้ประกอบการส่วนใหญ่มีรายได้ค่อนข้างมั่นคงและมีรายได้มากและ บริษัท สุดท้ายของเขาก็ประสบความสําเร็จเช่นกัน ในปี 2023 บริษัท ใหม่ของเขา "Butterfly Effect" ยังใช้ปลั๊กอินเบราว์เซอร์ Monica.im เพื่อแข่งขันในการเล่าเรื่อง AI ของโมเดลหลายร้อยรุ่นและกลายเป็นหนึ่งในแอปพลิเคชัน AI ที่เติบโตเร็วที่สุดพร้อมประสบการณ์ผลิตภัณฑ์ที่ยอดเยี่ยม ดูเหมือนว่าเขาเป็นผู้ประกอบการที่มีการเดินทางที่ราบรื่น เขาอายุเพียง 32 ปีเมื่อเขาสามารถทําสิ่งเหล่านี้ได้
แต่ในความเป็นจริงเขาไม่รู้สึกดีเท่าไร ในมุมมองของเสียงเล็ก ๆ ของเสียงเฉียบแท้ เรื่อง "การออกจากผู้ประกอบการอย่างต่อเนื่อง" และความรู้สึกที่สดชื่นจากการไปจาก 0 ไปสู่ 1 ตลอดเวลาเหมือนกับการล้อม - ความสามารถในการนำโอกาสจาก 0 ไปสู่ 1 มีความแข็งแกร่งมากและทำให้พอใจมาก แต่ในทางกลับกัน คุณก็กังวลว่าคุณจะต้องทำซ้ำอีกครั้งหรือไม่
ในปี 2024 ผู้เชี่ยวชาญด้านอุตสาหกรรมเชื่อว่าผู้ช่วยด้าน AI ที่มีฟังก์ชันการจดจำเช่น Monica.im จะเผชิญกับความกดดันจากตัวต้านที่แข็งแกร่ง เช่น Doubao และมันจะไม่ง่ายเหมือนในปี 2023 Monica.im มีการสร้างสิ่งใหม่ในโลก 0 ถึง 1 แต่ไม่จำเป็นต้องได้รับการยอดนิยม 1 ถึง N
และเหตุผลที่เขาสับสนก็เพราะ "ทีมจะทำสิ่งที่ยากมากขึ้นและสิ่งที่มีขีดจำกัดสูงขึ้นต่อไป" และสำรวจสิ่งที่สามารถขยายตั้งแต่ 1 ถึง N
ก่อนหน้านี้ มีเสียงหลาย ๆ ที่ให้ความสนใจกับ Monica.im สมมติว่า "บางสิ่งที่ยากมากขึ้นและมีความสูง" นี้อ้างถึงเบราว์เซอร์ AI ที่มีข่าวลือมานานแต่ยังไม่ได้รับการเปิดเผยโดยทีม มองไปดูตอนนี้ จริงว่าฉันเดาผิด
การสำรวจที่ยากมากนี้คือ: การละทิ้งเบราว์เซอร์ AI ที่ได้รับสถานะการเผยแพร่แล้ว การมองหาโอกาสต่อไปของผลิตภัณฑ์ AI "ชัต GPT moment" การค้นหาเป้าหมายของตัวแทนสากล และการสร้างการเผยแพร่ล่าสุดของ Manus.im
มนัสเป็นนวัตกรรมในระดับใดและสามารถบรรลุได้ในระดับใดในอนาคตตอนนี้เป็นประเด็นร้อน แต่สิ่งที่ควรค่าแก่การดูยังคงเป็นทิศทางที่พบใน "สิ่งที่ขัดกับความคาดหวัง" และกระบวนการค้นหาทิศทาง Manus.im อาจไม่สามารถทําให้ทีมนี้ทําสิ่งต่าง ๆ ให้สําเร็จตั้งแต่ 1 ถึง N หรือแม้แต่จําลองโมเมนตัมของ Monica.im แต่เช่นเดียวกับชื่อของ บริษัท นี้ - "Butterfly Effect" การกระทําและการตัดสินใจเล็ก ๆ น้อย ๆ มากมายโดยไม่ได้ตั้งใจมีผลกระทบอย่างลึกซึ้งต่ออนาคต "Connect the Dots" ถนนสู่วันพรุ่งนี้จะถูกซ่อนอยู่ในประสบการณ์ของวันนี้
ตั้งแต่ปลายปีที่แล้วถึงกลางปีปีที่แล้ว ทีม "Butterfly Effect" ที่ใช้ AI browser ได้รับการสนับสนุนจากสาธารณะและเป็นความลับ"บางส่วน"ในวงการ ผลิตภัณฑ์ที่เปิดเผยให้สาธารณะอย่างเป็นทางการคือ Manus ซึ่งดึงดูดความสนใจอย่างไม่สมควร
หากคุณเคยสัมผัสประสบการณ์ส่วนตัวกับ Manus หรือรับชมวิดีโอสาธิต คุณจะรู้สึกว่ามันมีความแตกต่างอย่างมีนัยสำคัญเมื่อเปรียบเทียบกับแชทบอทหรือบางแอปพลิเคชันที่เหมือนเอเยนต์: Manus สามารถทำงานอย่างไม่เชื่อมต่อและในขณะเดียวกันได้
เมื่อคุณเปิดแอปเช่น Doubao, Kimi หรือบางสิ่งบางอย่างเช่นการใช้คอมพิวเตอร์ และส่งคำถามถึงมัน คุณต้องรอให้มันตอบ มิฉะนั้น หากคุยกับมันขณะที่มันกำลังตอบหรือทำงาน การตอบ/งานก่อนหน้าจะถูกขัดจังหรือคุณจะสามารถคุยเป็นลำดับ A-B-A-B เท่านั้น
อย่างไรก็ตามใน Manus.im, แม้ว่ามันจะดูเหมือนผลิตภัณฑ์ chatbot อยู่ คุณสามารถถาม 20 คำถามให้มันทำงานพร้อมๆกัน คุณสามารถทำอะไรก็ตามบนคอมพิวเตอร์อื่นได้, ดูวิดีโอ, เขียนเอกสาร, เล่นเกม ฯลฯ โดยไม่ทำให้งานของมันชะลอไป Manus สามารถแจ้งให้คุณทราบเมื่องานเสร็จสิ้นหรือพบปัญหาระหว่างการดำเนินการ หากคุณเห็นการเบี่ยงเบนในการคิดของมันระหว่างการดำเนินการของงาน คุณสามารถเพิ่มคำให้มันไปที่กล่องโต้ตอบได้ตลอดเวลา และมันจะดำเนินการคิดและดำเนินการงานต่อไปด้วยบทบาทใหม่
ประสบการณ์เป็นแบบไม่สะท้อนกันและสามารถทำพร้อมกันได้ และมันรู้สึกเหมือนมีทีมนักศึกษาซึ่งจริงๆ สามารถช่วยคุณในการทำงาน
ในความเป็นจริง การออกแบบสถาปัตยกรรมผลิตภัณฑ์ของ Manus สำหรับประสบการณ์แบบไม่เชื่อมต่อมาจากบทเรียนที่ทีมได้เรียนรู้จากผลิตภัณฑ์ที่ไม่ได้เปิดเผยก่อนหน้านี้คือเบราว์เซอร์ AI พร้อมกับภายในเวลาเดียวกันนี้ นี่เองเป็นเหตุผลที่ทีมลงทุนมากมายแต่ตัดสินใจหยุดการทำงานกับเบราว์เซอร์ในเดือนตุลาคมปีที่แล้ว
บริษัทบราวเซอร์ประกาศเมื่อวันที่ 25 ตุลาคม 2024 ว่าจะหยุดพัฒนาคุณสมบัติใหม่สำหรับเบราว์เซอร์ Arc และตัดสินใจโอนทรัพยากรไปยังเบราว์เซอร์ใหม่ Dia เพื่อสร้างเบราว์เซอร์ AI ที่เรียบง่ายและใช้ง่ายกว่า |ที่มา: เว็บไซต์อย่างเป็นทางการของ Arc
“ในบราวเซอร์ AI AI กำลังขัดขวางผู้ใช้อย่างต่อเนื่อง” เนื่องจากเป็นสถานการณ์ที่ออกแบบไว้สำหรับผู้ใช้คนเดียว หากใช้ AI แล้วจะไม่สามารถใช้ได้อีก เมื่อ AI เริ่มทำงาน คุณจะต้องเฝ้าดู AI ทำงานอย่างเดียวซึ่งทำให้เริ่มต้นได้ยาก การดู AI แย่งเมาส์และคอมพิวเตอร์ของคุณ ไม่เพียงแค่คุณไม่กล้าแย่งกลับมา แต่ยังกลัวว่าการสัมผัสคีย์บอร์ดหรือเมาส์โดยไม่ตั้งใจจะทำให้กระบวนการทั้งหมดพังและต้องการให้คุณเริ่มต้นอีกครั้ง
นี้ช่วยให้ทีมสามารถทำการประเมินสองอย่าง
ในการให้สัมภาษณ์กับ Zhang Xiaojun จาก Tencent Technology Xiao Hong กล่าวว่าเมื่อทีมสรุปแบบฟอร์มผลิตภัณฑ์จาก Jasper ถึง ChatGPT ถึง Monica ถึง Cursor to Devin พวกเขาพบว่า "โปรแกรมเมอร์มนุษย์" Devin เหมาะอย่างยิ่งสําหรับสถาปัตยกรรมประสบการณ์แบบอะซิงโครนัสนี้
ไม่เหมือนเมื่อใช้ Windsurf มันบางครั้งจะถามให้คุณยืนยันว่าคอมพิวเตอร์ของคุณต้องการติดตั้งไลบรารีนี้หรือไม่ หรือมันทำการดำเนินการด้วยคำสั่งบรรทัดคำสั่งและถามให้คุณกรอกใช่หรือไม่ เพราะมันอาจทำความเสียหายกับคอมพิวเตอร์ของคุณจริง ๆ หรือมีความขัดแย้งกับบางอย่าง มันจะขอให้คุณกรอก “ใช่” เพื่อดำเนินการไปขั้นตอนถัดไป แต่มันต้องให้ผ่านบัญชีความผิด
ดังนั้นในมุมมองของทีม Manus "Chatbot ควรมีคอมพิวเตอร์ในคลาวด์และโค้ดที่เขียนและสิ่งที่ต้องทำการตรวจสอบผ่าน browser ถูกดำเนินการบนคอมพิวเตอร์นั้น เนื่องจากเป็นเซิร์ฟเวอร์เสมือนไม่สำคัญถ้ามันพังได้คุณสามารถได้เซิร์ฟเวอร์อีกเครื่องหนึ่ง มันยังสามารถปล่อยเซิร์ฟเวอร์หลังจากงานปัจจุบันเสร็จสิ้น
ควรทราบว่าในขณะที่ Devin เลือกสนามแนวตั้งและวิศวกรหัวโต ทีม Manus เลือกผู้ช่วย AI ระดับมีส่วนร่วมทั่วไปรวมทั้นถึง Web และ App มันเป็นผู้ช่วย AI ระดับมีส่วนร่วมทั่วไปที่สามารถเรียกใช้เครื่องมือและทำงานต่าง ๆ ตามคำสั่ง ในงานและชีวิตประจำวัน ในอนาคต มันยังจะส่งผลลัพธ์งานให้กับผู้บริโภคในราคาที่เป็นราคาที่สามารถเข้าถึงได้
มีแนวคิดและเป้าหมายชัดเจน ขั้นตอนต่อไปคือการสร้างความเป็นจริงให้กับแนวคิด คุณคิดว่ามานุสทำอย่างไร?
ตามที่หุ้นส่วนผลิตภัณฑ์ของมัน จางเทา กล่าวว่า นี้ต้องการการติดตั้งคอมพิวเตอร์ให้กับโมเดลขนาดใหญ่พร้อมทั้งให้สิทธิ์ระบบ (การเข้าถึง API ส่วนตัว เช่น คลังข้อมูลและเว็บไซต์ค้นหาข้อมูลอาชีพ) และการให้การฝึกอบรมบางอย่าง
ในทางนี้ AI สามารถใช้คอมพิวเตอร์นี้เพื่อเปิดเบราว์เซอร์ ดำเนินการเพื่อเช็คเครื่องมือ และจากนั้นมองผลกระทบจากการดำเนินการของมันในโลกแห่งความเป็นจริง โดยอิงจากคำตอบที่เกิดขึ้นจากเครื่องมือ จากนั้นคิดถึงขั้นตอนต่อไป ดำเนินการอีกครั้ง และจากนั้นสังเกต... นี้คือกระบวนการของ AI ในการทำงานเพื่อสำรวจและวิจัย ในช่วงเวลานี้ Manus ยังจะเข้าใจความต้องการของคุณมากขึ้นอยู่ภายใต้การ “ฝึกฝน” ของคุณ ในอนาคต แม้แม้ว่าคุณจะไม่ได้กำหนดความต้องการของคุณอย่างชัดเจน มันก็ยังสามารถ “ค้นหาความหมายศักดิ์สิทธิ์” อิงจากความรู้ที่สะสมไว้ในแต่ละงาน
Li Bojie, อัจฉริยะที่มีความสามารถของ Huawei และผู้ก่อตั้งของ Logenic AI เชื่อว่า Manus มีคุณสมบัติที่เป็นเอกลักษณ์ที่ทำให้มันแตกต่างจากผลิตภัณฑ์อื่น ๆ: มันแก้ปัญหาในลักษณะของนักพัฒนาโปรแกรมเมอร์ที่ตื่นตาตื่นใจ | แหล่งภาพ: ภาพหน้าจอ WeChat
ความคิดเชิงสินค้าของผลิตภัณฑ์ Manus กลับกลายเป็นชัดเจนขึ้นจากปฏิบัติการผลิตภัณฑ์ของทีมของมัน: โครงสร้างน้อยลง สตรักเจอร์มากขึ้น (โครงสร้างน้อยลง สตรักเจอร์มากขึ้น)
นี่เป็นช่วงเวลาที่ทำให้ทีม Manus ได้ไป “อะฮ่า รอแป๊บ!” ตัวอย่างเช่น นี้คือสิ่งที่เกิดขึ้นกับทีมในเดือนมกราคมปีนี้ค่ะ
เมื่อมานุสถูกขอให้ลองทำคำถามในชุดทดสอบ GAIA: “ในลิงก์วิดีโอ YouTube ที่เหมือนกับสไตล์ National Geographic มีเพนกวินหลายตัวกลับมาและไปมาและมาเข้าและออกจากหน้าจอ มานุสถูกขอให้นับจำนวนเพนกวินสูงสุดที่ปรากฏในกรอบเดียวกันพร้อมกัน มีทั้งหมดกี่ชนิด?”
ต่อมาเกิดเหตุการณ์ที่เวทมนตร์
Manusเปิดลิงก์วิดีโอครั้งแรกและการกระทำครั้งแรกที่เขาทำคือ “กด K” จากนั้นเขาถ่ายภาพหน้าจอจากหนึ่งไปสู่อีกหนึ่งเพื่อบันทึกว่าประเภทของเพนกวินปรากฏในภาพเฟรมใดเว็บไซต์หนึ่งสุดท้ายเขาสรุปว่าภาพเฟรมที่มีปรากฏเพนกวิน 3 ประเภทมากที่สุด Manusจะกลับไปตรวจสอบต่อ และการกระทำครั้งถัดไปคือ “กด 3”…หลังจากการตรวจสอบสุดท้ายคำตอบคือ 3
เป็นผู้คนที่อยู่เบื้องหลังการก่อสร้างของ Manus เราควรทราบขอบเขตของความสามารถของมัน แต่สำหรับทีมงาน ความเป็นจริงคือว่า “มักมีสิ่งที่น่าแปลกใจเสมอ” อย่างน่าแปลกใจไม่แค่ Manus ตอบคำถามถูกต้อง และยังมีเพื่อนมนุษย์ที่ใช้คอมพิวเตอร์และ Youtube มาหลายปีอาจจะไม่รู้ว่าปุ่ม “K” และ “3” บนแป้นพิมพ์คืออะไร?
มองไปที่ฉากที่มันเป็นหัวสำรองของพวกเขา ทีมตามมานุสและทำอีกครั้ง ตัวอักษร "K" บนแป้นพิมพ์คือปุ่มหยุดชั่วคราวซึ่งช่วยให้มานุสถ่ายภาพหน้าจอได้หนึ่งต่อหนึ่งหลังจากหยุดชั่วคราวเพื่อบันทึกว่าเพนกวินปรากฏอยู่ในเฟรมไหน "3" ก็เป็นปุ่มลัดอีกตัว จาก 0 ถึง 9 ตามลำดับ แทน 0% ถึง 90% ของแถบความคืบหน้า 3 คือ 30% ของแถบความคืบหน้า มันสามารถระบุตำแหน่งนั้นของวิดีโอได้อย่างแม่นยำแล้วบอกมนุษย์ว่ามีเพนกวินชนิดใดบ้างในภาพนี้
กระบวนการนี้แตกต่างจาก Chatbot แบบดั้งเดิม โดยที่มันสามารถดูภาพ YouTube แทนการใช้คำบรรยาย นอกจากนี้ เราพบว่ามันใช้ปุ่มลัดของ YouTube โดยเราตกใจมากที่มันตอบคำถามนี้ได้ "เสียงเสียว" ก็กล่าวถึงเหตุการณ์นี้ในสัมภาษณ์ก่อนหน้ากับ Tencent Technology
โดยอย่างไม่คาดคิด ฉันค้นพบว่า Manus ไม่เพียงแต่เก่งในการเขียนโปรแกรมมากกว่ามนุษย์ แต่ความรู้ของ Manus เกี่ยวกับเว็บและแอปที่คนใช้ประจำทุกวันได้มีความสามารถที่เหนือกว่าจินตนาการ เป็น AI ที่รู้ทุกทางทั้งวิธีและเครื่องมือ และจากนั้นเลือกวิธีการที่เหมาะสมที่สุด
นี้อีกครั้งทำให้ทีมรู้สึก "น้อยโครงสร้าง มากไอเทลลิเจนซ์" - ลด ข้อ จำกัด ที่ ทำ ขึ้น อย่าง ประดิษฐ์ ต่อ ไอเทลลิเจนซ์ และ อนุญาตให้ ไอเทลลิเจนซ์ ทำงาน ผ่าน วิวัฒนาการ ของตนเอง แทนที่จะ สอนมัน ว่า จะทำอะไร
ที่ด้านล่างสุดของเว็บไซต์อย่างเป็นทางการของ Manus ค้นพบสิ่งสำคัญที่สุดของ Manus อยู่ที่นี่: 'น้อยๆ โครงสร้าง, มากขึ้น ความฉลาด' |แหล่งภาพ: Manus
นี่คือคำอธิบายและการคิดที่ยาวนานของพีค ผู้ก่อตั้งและนักวิทยาศาสตร์หลักของ "Butterfly Effect" เกี่ยวกับความสำคัญของหลักพื้นฐานที่สำคัญที่สุดของผลิตภัณฑ์ Manus - "โครงสร้างน้อย สติปัฏฐานมาก" ในวันที่ผลิตภัณฑ์ Manus ถูกเปิดตัว:
เมื่อข้อมูลของคุณมีคุณภาพสูงโมเดลของคุณฉลาดพอสถาปัตยกรรมของคุณมีความยืดหยุ่นเพียงพอและวิศวกรรมของคุณแข็งแกร่งพอแนวคิดเช่นการใช้คอมพิวเตอร์การวิจัยเชิงลึกและตัวแทนการเข้ารหัสจะเปลี่ยนจากคุณสมบัติของผลิตภัณฑ์เป็นความสามารถที่เกิดขึ้นตามธรรมชาติ
การกลับสู่หลักการพื้นฐานยังช่วยให้เรามีวิธีการคิดใหม่เกี่ยวกับรูปแบบผลิตภัณฑ์: AI browser ไม่ใส่ AI เข้าไปในเบราว์เซอร์ แต่ทำให้มีเบราว์เซอร์สำหรับ AI;
· การค้นหา AI ไม่ฝังคำค้นและสรุปจากดัชนี แต่ให้ AI ได้รับข้อมูลด้วยสิทธิ์ของผู้ใช้;
· การดำเนินการ GUI ไม่ยึดควบคุมของอุปกรณ์ของผู้ใช้ แต่อนุญาตให้ AI มีเครื่องจำลองเสมือนของตัวเอง;
การเขียนโค้ดไม่ใช่วัตถุประสงค์สุดท้าย แต่เป็นสื่อทั่วไปสำหรับการแก้ปัญหาต่าง ๆ
ความยากลำบากในการสร้างเว็บไซต์ไม่ได้อยู่ที่การสร้างโครงสร้าง แต่อยู่ที่การทำให้เนื้อหามีความหมาย;
· ความสนใจไม่ใ่สถาการที่จำเป็นทั้งหมด ที่จำเป็นเพียงการปลดปล่อยความสนใจของผู้ใช้ DAU จึงจะถูกกำหนดใหม่;
ผ่านการค้นพบและปฏิบัติตามหลัก "น้อยๆ โครงสร้างมากขึ้น" อย่างต่อเนื่อง Manus ได้ผลลัพธ์ที่เกินความคาดหมาย รวมถึงการผ่าน@1คะแนนในการทดสอบ GAIA มีคะแนนเกินคะแนนของ OpenAI Deep Research ภายใต้เงื่อนไข@64; ในที่เดียวกัน ในการทดสอบภายใน Manus ยังสามารถครอบคลุม 76% ของสถานการณ์ของผลิตภัณฑ์ตัวแทนที่มีเฉพาะใน Y Combinator W25 โดยตรง
ตอนนี้มูลค่าของข้อความเหล่านี้กำลังถูกพูดถึงในขอบเขตที่ใหญ่ขึ้น:
Clement Delangue, ผู้ก่อตั้งและ CEO ของ Hugging Face, ขอเสนอความค้นพบของ Peak ว่า บางแบบจำลองพื้นฐานที่เปิดเผยเพียงแค่ฝึกฝนเพื่อ 'ตอบคำถามทั้งหมดในรอบเดียวโดยไม่ว่าถามยากหรือง่าย' แต่นี่เป็นความต้องการในสถานการณ์แชทบอท การฝึกฝนเพิ่มเติมบนเส้นทางของตัวแทนสามารถทำให้เกิดความแตกต่างอย่างมากทันที |ที่มาภาพหน้าจอ: X
Manus ไม่ได้นำเสนอ MCP (โมเดล คอนเท็กซ์ โปรโตคอล) แต่อนุญาตให้ AI เขียนโค้ดของตัวเองเพื่อเรียกใช้ API เพื่อจัดการงานที่ซับซ้อนต่างๆ |แหล่งภาพหน้าจอ: X
ในการสนทนาเกี่ยวกับมานุส ในรอบหลายวันที่ผ่านมา คำถามที่ฉันได้ยินมากที่สุดคือ: การสร้าง "Universal AI Agent" เป็นไปได้หรือไม่? ขอบเขตอยู่ที่ไหน?
ในมุมมองของ Peak คือ เนื่องจากปฏิสัมพันธ์ระหว่างคนกับโลกนั้นจริง ๆ เป็นเรื่องมาตรฐานมาก ๆ ด้วยตา มือ และหู หากพื้นที่การกระทำถูกกำหนดไว้ดี น่าจะเป็นไปได้ที่จะฝังตัวเอเจนต์เข้าไปในลิงก์ที่เดิมที่มนุษย์ทำ
เนื่องจากผู้คนสามารถใช้เครื่องมือต่าง ๆ เพื่อทำการดำเนินการลึกลับในสาขาต่าง ๆ หากตัวแทนเองมีความรู้ที่ดีพอ ได้รับการฝึกฝนอย่างเหมาะสม และมีอินเตอร์เฟซที่ดีสำหรับการโต้ตอบกับโลก ควรจะสามารถทำงานเหมือนคน และอาจทำให้ตัวแทนใช้ผลิตภัณฑ์ SaaS บางประการได้ ตัวอย่างเช่น กรณีการหาบ้านที่นำเสนอบนเว็บไซต์อย่างเป็นทางการของ Manus.im จริงๆ แล้วเกี่ยวข้องกับการให้ปัจจัยประสบการณ์ทำงานร่วมกับผลิตภัณฑ์ SaaS ที่เฉพาะเจาะจงสำหรับสาขาอสังหาริมทรัพย์
เขาเชื่อว่าสิ่งที่ควรถูกกำหนดอย่างชัดเจนคือขอบเขตของการใช้เครื่องมือของตัวแทน ไม่ใช่กลุ่มคนที่มันให้บริการ มานุสไม่ได้จำลองบุคคลที่ทำสิ่งเฉพาะ ๆ หรือตัวแทนบทบาทที่แบ่งตามการวิจัยและพัฒนา ผู้จัดการผลิตภัณฑ์ ฯลฯ มันกำลังจำลองบุคคลที่สามารถทำสิ่ง และจำลองว่าคนรุ่นใหม่ทำงานอย่างไร
ระบบหลายเอเจนต์ของ Manus หมายถึงการแยกการวางแผนและการดำเนินการ
สำหรับผู้ดำเนินการ (Executor), Manus ได้ยอมรับ Claude ซึ่งเป็นผู้นำชั่วคราวในการเขียนโปรแกรม การวางแผนระยะยาว และความสามารถในการแก้ปัญหาขั้นต่อไป และใช้ชุดของโมเดล Qwen หลังการฝึกอบรม
เมื่อวานนี้ มานุสยังได้เชื่อมโยงความร่วมมือกับอะลิบาบา ทองยี่ ชิ้นเหรียญ เชื่อมั่นว่าจะสามารถทำให้ทุกฟังก์ชันของมานุสบนแพลตฟอร์มโมเดลภายในประเทศและแพลตฟอร์มคำนวณได้ทั้งหมด | แหล่งภาพ: มานุส
ในส่วนของนักวางแผน มานุได้ทำงานมากมาย
เนื่องจาก API หรือโมเดลบนชั้นวางที่มีอยู่ในตลาดในปัจจุบันมักจะถูกปรับให้เหมาะสำหรับสถานการณ์หุ่นยนต์แชท ในระหว่างการฝึกอบรมไม่ว่าผู้ใช้จะถามคำถามอย่างไรที่ซับซ้อนก็ตาม เป้าหมายการปรับปรุงของการฝึกอบรมคือการตอบคำถามของผู้ใช้อย่างชัดเจนในข้อความเดียว แต่นี้กลับตรงข้ามกับการวางแผนที่ต้องการโดยเอเจนต์
ดังนั้นหากโมเดลที่มีอยู่บนตลาดถูกใช้โดยตรงในสถานการณ์ของตัวแทนโดยไม่มี "การจัดเรียง" โมเดลนี้จะมีความกระตือรือร้นที่จะประสบความสำเร็จอย่างรวดเร็วและให้ "ผลลัพธ์ที่สับสน" ภายในรอบการสนทนาเหมือนกับสรุปข้อความด้วยข้อความสั้นๆ หลายข้อ
"วิธีการจัดการแนวต้องแตกต่างกัน ทีมของเราเชื่อว่าจำเป็นต้องใช้ข้อมูลที่แตกต่างกันเพื่อดำเนินการจัดการแนวที่เป็นพิเศษ" โดยเสียงของเสียงเสียง
เมื่อเดือนตุลาคมปีที่แล้ว พีคยังบันทึกความคืบหน้าและความล้มเหลวของการพยายามที่จะทำซ้ำโครงการ OpenAI o1 interest โมเดล Steiner open source บน Zhihu ในความเป็นจริงโครงการนี้กำลังทำการวิจัยเบื้องต้นเกี่ยวกับการวางแผนขั้นตอนต่อของผู้วางแผน Manus
โดยทั่วไป มานุสจำลองบุคคลที่กระทำสิ่งต่าง ๆ นั้นคือการนิยามผลิตภัณฑ์ของทีมเกต เรื่องมานุสในฐานะผู้ช่วย AI ที่ใช้ได้ทุกทาง ในการคิดถึงขอบเขตของมัน ทีมอาจยังคงกำลังสำรวจและต้องการกรณีการใช้ของผู้ใช้เพิ่มเติม
ในการให้สัมภาษณ์กับ Tencent Technology ที่เผยแพร่ก่อนการเปิดตัว Manus Xiao Hong ได้กล่าวถึงความคิดเริ่มต้นของเขาเกี่ยวกับความเก่งกาจของ Manus "ปัญหาหลักหรือความรับผิดชอบที่สําคัญมากของผู้จัดการผลิตภัณฑ์คือการควบคุมความคาดหวังของผู้ใช้ สมมติว่ามันสามารถทําทุกอย่างในโลกเช่น: ฉันจะทําเงินได้ 1 ล้านเหรียญได้อย่างไร นี่ไม่ใช่สิ่งที่ตัวแทนควรดําเนินการ แต่ถ้าเราสามารถยกตัวอย่างที่เฉพาะเจาะจงมากขึ้นเพื่อทําให้ความคาดหวังของทุกคนสมเหตุสมผลมากขึ้นทุกคนก็จะใช้มันได้อย่างราบรื่นยิ่งขึ้น"
ในตอนเช้าของวันที่ 27 กุมภาพันธ์ พาร์ทเนอร์ผลิตภัณฑ์ Manus คุณจาง เทาและนักวิทยาศาสตร์หัวหน้า จี อีเชาโอ (พีค) ได้ร้องไห้เมื่อพวกเขาเห็นผลการจัดอันดับของ Manus.im ผลการทดสอบ GAIA Benchmark ของ Manus ได้เกินกว่า Deep Research ของ OpenAI และได้รับผลลัพธ์ที่ไม่คาดคิดนี้ในราคาประมาณ 1/10 ($2/งาน) ของ OpenAI Benchmark
แหล่งที่มาของภาพ: Manus.im
ทีมของสิบๆคนกลายเป็นหนึ่งในทีมแรกที่สร้างผลิตภัณฑ์เอเจ้นต์สากลเมื่อเอเจ้นต์เห็นด้วยกันในการแข่งขันในวงการ พวกเขายังมีความเป็นเอกลักษณ์ในการวิศวกรรมผลิตภัณฑ์และประสบการณ์โต้ตอบด้านหน้า
คำติชมที่ดีจากสิ่งที่ทำนั้นดีกว่าทุกอย่าง ไม่มีสิ่งที่สร้างสรรค์ทีดีกว่าสิ่งนี้สำหรับทีมสตาร์ทอัพ แต่ก่อนที่จะเป็นเช่นนั้น มานุสเกิดขึ้นได้อย่างไร? ทำไมทีมนี้ถึงถูกสร้างขึ้น?
ความสามารถของโมเดลในปัจจุบันสามารถทำงานบางอย่างที่ซับซ้อนและมีขั้นตอนหลายขั้นตอน แต่ยังไม่มีผลิตภัณฑ์เช่นนั้น ดังนั้นทุกคนไม่สามารถรับรู้
ในเวลาเดียวกัน ไม่มีทีมใดมีโอกาสลองผลิตภัณฑ์เอเจนต์ได้เยอะ เนื่องจากมันต้องการความสามารถทางสร้างสรรค์มากมาย เขาต้องการทำงานกับ Chatbot บางส่วนเกี่ยวกับการเขียนโปรแกรม AI และเกี่ยวกับเบราว์เซอร์ เนื่องจากเขาต้องเรียกใช้เบราว์เซอร์ และเขามีความรู้สึกดีเกี่ยวกับขอบเขตของ LLM - ระดับที่มันพัฒนาไปถึงวันนี้ และระดับที่มันจะพัฒนาไปยังระดับถัดไป ก่อนอื่นไม่มีบริษัทมากมายที่มีความสามารถเหล่านี้ในเวลาเดียวกัน และบริษัทที่มีความสามารถเหล่านี้อาจกำลังทำธุรกิจที่เฉพาะเจาะจงอยู่ บางคนในระดับเพื่อนร่วมชั้นของเราก็มีเวลาที่จะทำเหล่านี้พร้อมกัน
“ที่แน่นอน”.
ทีม "Butterfly Effect" ได้ทำให้มีตัวแทนสากลที่สมบูรณ์แบบในปัจจุบัน ดังนั้นตอนนี้มีตัวแทนสากลที่สมบูรณ์แบบอย่างสูงเมื่อเทียบกับอุตสาหกรรม
เมื่อถามถึงช่วงเวลาที่สำคัญเมื่อเขาต้องการเริ่มต้นมานุส พีคก็กลับมากับรายละเอียดมากขึ้น พูดว่า “จริงๆ แล้วไม่มีจุดหมุนที่ ‘สะอาด’ ในการเริ่มธุรกิจ” ทุกอย่างเป็นไปอย่างสอดคล้องและไม่มีขอบเขตชัดเจน
เมื่อผลิตสินค้า ฉันมักใส่ใจถึงสถานการณ์ภายนอกเสมอ มีเหตุการณ์บางเรื่องในเวลานั้น ในการสร้างเบราว์เซอร์ ฉันทำโมเดลด้านลูกค้า ภายหลังฉันพบว่าเบราว์เซอร์ต้องการสถานการณ์ที่หลากหลายมาก และมีคุณสมบัติต่างกัน ระหว่างกระบวนการ ฉันพบว่าโมเดลฐานกำลังเข้มขึ้นอย่างรวดเร็ว ช่องว่างระหว่างมันกับตัวแทนอาจเป็นปัญหาการจัดเรียง แม้ว่าโลกภายนอกอาจรู้สึกว่าโมเดลภาษาขนาดใหญ่ได้รวมกันเรื่อยๆ และชนเส้นสุดท้าย
ในขณะเดียวกันโลกภายนอกก็เปลี่ยนไปเช่นกัน เคอร์เซอร์เริ่มขึ้นเมื่อต้นปีที่แล้ว ตามด้วยวินด์เซิร์ฟและเดวิน สิ่งนี้สอดคล้องกับบริบทเดียวกัน ตัวแทนเป็นที่นิยมในด้านการเขียนโปรแกรมและเส้นทางสู่ความนิยมมีความก้าวหน้า เคอร์เซอร์เป็น copilot สําหรับโปรแกรมเมอร์ซึ่งช่วยปรับปรุงประสิทธิภาพการเขียนโปรแกรม เริ่มต้นจาก Windsurf กระบวนการอัตโนมัติบางอย่างจะค่อยๆ ถูกนํามาใช้ ช่วยให้คุณมีความสามารถอัตโนมัติที่แข็งแกร่งขึ้นในเครื่องในพื้นที่ของคุณ Devin ได้มาถึงระดับใหม่ของระบบอัตโนมัติ
แนวโน้มของ VC ก็สอดคล้องกันเช่นกัน เช่น เมื่อปีที่แล้วและปีก่อนหน้านี้ YC ลงทุนในสองประเภทของบริษัท คือ Browser แบบ Cloud Browser และประเภทที่สองคือเครื่องมือเสมือนเครื่องจำลอง AI ที่เบาๆ เหมือนกับ e2b
นี้แสดงให้เห็นว่า “โครงสร้างพื้นฐานของโมเดลกำลังก้าวหน้าอย่างรวดเร็ว และโครงสร้างพื้นฐานของอินฟราก็กำลังเจริญเติบโตอย่างรวดเร็ว นอกจากนี้ การเห็นว่าผลิตภัณฑ์ภายนอกกำลังได้รับการยอมรับมากขึ้นเรื่อย ๆ เรารู้สึกว่านี่เป็นทิศทางที่คุ้มค่าที่จะลงทุนให้ทั้งหมด นี่คือกระบวนการที่เป็นเรื่อย ๆ และเรียบเรียงมาก นอกจากนี้ โครงสร้างพื้นฐานที่สะสมได้ระหว่างการพัฒนาเบราว์เซอร์เช่น Chromium สามารถย้ายโยงไปยังภาพรวมได้โดยไม่มีช่องว่าง นั่นคือเหตุผลที่เรากล้าพัฒนาเบราว์เซอร์ในคลาวด์ได้
ในสรุปความสามารถในการรับรู้อย่างชาญฉลาดและการสะสมประสบการณ์ของความต้องการและรูปแบบในที่เรียกว่า "เปลือก" สร้างมานุสร้างขึ้นร่วมกัน กรณีเช่นมากของ Monica ต้องการการฝึกอบรมหลังจากรูปแบบ ในเวลาเดียวกัน บทเรียนที่สำคัญที่สุด "โครงสร้างน้อยลง สตรักเจอร์มากขึ้น" ได้เสริมแรงในการปฏิบัติของเบราว์เซอร์ AI พบว่าความสามารถของโมเดลได้ถึงระดับที่เป็นตัวแทน แต่ปัญหาอยู่ที่การจับคู่ สิ่งที่เกิดขึ้นต่อมาคือการวิวัฒนาการอย่างรวดเร็วสามเดือนสำหรับมานุส
ก่อนหน้านี้ทีม "Butterfly Effect" เคยถูกตั้งคําถามถึงคุณค่าของ "การปอกเปลือก" มันสร้างโมนิกาโดยการรวมโมเดลขนาดใหญ่ที่มีอยู่โดยไม่ต้องพัฒนาโมเดลขนาดใหญ่ด้วยตัวเอง มันรวมฟังก์ชั่นเช่นการแชทการค้นหาการอ่านการเขียนและการแปล นอกจากนี้ยังรวมสถานการณ์การดําเนินการงานจํานวนมากผ่าน API ทีละรายการ ภายในสิ้นปีที่แล้วจํานวนผู้ใช้ถึงหลายสิบล้านคน
ตอนนี้เมื่อ Doubao, Quark และ Yuanbao กําลังโปรโมตผลิตภัณฑ์ Monica ของพวกเขาอย่างจริงจังและเมื่อทีมเล็ก ๆ ใช้เทคโนโลยีที่มีอยู่เพื่อสร้างตัวแทนระดับผู้บริโภคทั่วไปรายแรกก็ถึงเวลาที่จะเข้าใจ "เปลือก" อีกครั้ง
“Shells” และ “shells” คืออะไรแท้จริง?
ในมุมมองของเสียงเสียงแดนใต้ การขุดเจาะทั้งหมดถูกนำมาโดยแบบจำลองซึ่งพื้นฐานที่สำคัญและมุ่งหน้าหน้า
เริ่มต้นจากคำจำกัดความนี้ DeepSeek App (รวมถึงการแสดงเชนความคิด) เป็นเปลือกของ DeepSeek-R1, Cursor เป็นเปลือกของ Anthropic Sonnet 3.5, Perplexity เป็นเปลือกของ GPT-4, และ ChatGPT เป็นเปลือกของ InstructGPT.
เนื่องจากความสามารถของโมเดลเร่งรีบพัฒนาขึ้นอย่างรวดเร็ว “เปลือกนั้น” ก็ต้องพัฒนาต่อไปด้วย เมื่อความสามารถของโมเดลแต่ละรุ่นพัฒนาขึ้น มันไม่จำเป็นต้องเป็นผู้ผลิตเดิมๆ มันเป็นผู้ผลิตบุคคลที่สามที่นำคุณค่าที่ผู้ใช้สามารถรับรู้มานำเสนอ อย่างเช่น Cursor นำคุณค่าที่ผู้ใช้สามารถรับรู้มาให้กับ Claude 3.5 Sonnet
ในวันที่ 5 มีนาคม วันครบรอบ 2 ปีของการเปิดตัว Monica.im คำตอบว่าทำไมพวกเขาทั้งหลายได้รับประสบการณ์การใช้งานผลิตภัณฑ์ที่เกินกว่าตัวของหลายๆ Deep Research และ OpenAI Operators อยู่ในความเข้าใจและปฏิบัติต่อกลอน
วิธีการสร้างเคาะปลายที่ดีที่สุดสำหรับโมเดลใหม่ที่สามารถใช้เป็นตัวแทนได้อย่างไร
เป็นผู้ก่อสร้างของ Manus, Zhang Tao เชื่อว่า “เมื่อมองไปที่โครงสร้างทั้งหมดของมันจากพื้นหลังเราจะเห็นว่ามีงานที่ยังไม่เสร็จที่ทุกที่ และแต่ละที่เหล่านั้นก็เป็นความสำเร็จที่สำคัญ และพวกเขาก็เป็นที่ที่ทำให้ผลิตภัณฑ์นั้นต่างไป
จากมุมมองของทีมข้อได้เปรียบที่สําคัญที่สุดคือก้าวของนวัตกรรม ทั้งแอปพลิเคชันและรุ่นได้มาถึงสถานะของความอิ่มตัวสัมพัทธ์แล้ว ความสามารถหลักที่แท้จริงเพียงอย่างเดียวในท้ายที่สุดคือการทํางานที่รวดเร็วแม้ว่า "มู่เล่ข้อมูล" และ "เอฟเฟกต์เครือข่าย" ยังไม่ได้รับการยืนยัน
“ในสาขาใหม่ทั้งหมดเป็นสิ่งที่ไม่แน่นอนและไม่รู้เลย สิ่งสำคัญที่สุดคือความเร็วของนวัตกรรม สิ่งที่เราพยายามทำคือการสำรวจ การลองผิดลองถูกในทางที่แตกต่างกัน และการค้นหาเส้นทางที่ถูกต้องอย่างรวดเร็ว” ทีม Manus มีความยืดหยุ่นเพียงพอในเชิงปรัชญาการบริหาร โครงสร้างองค์กร และกระบวนการอุตสาหกรรม เมื่อโอกาสใหม่เกิดขึ้น คุณสามารถใช้ทรัพยากรจำกัดเพื่อเชื่อมโยงทรัพยากรทั้งหมดของบริษัททั้งหมด ตัดสินใจอย่างรวดเร็วมาก และปรับตัวให้เข้ากับข้อเสนอแนะเกี่ยวกับความผิดพลาด
จากซ้ายไปขวาคือนักวิทยาศาสตร์ชั้นนำของ “Butterfly Effect” Peak, ประธาน ฯ ของ Xiao Hong, และหุ้นส่วนผู้ผลิต Zhang Tao | ที่มาของภาพ: อินเทอร์เน็ต
เกี่ยวกับความคาดหวังของมานุส์ ซิาวหงคิดว่า “แม้จะมีช่วงเวลาที่ยังคงมีค่า แต่ก็ควรลอง” ในปีที่ผ่านมา วิสัยความคิดของเขาก็เปลี่ยนแปลงอย่างรุนแรง ยกตัวอย่างเช่น เขาตอนนี้เชื่อว่า “เมื่อคุณรู้สึกว่าคุณล้มเหลวไวเกินไป คุณก็มีพฤติกรรมอย่างกระตือรือร้น หลังจากที่ทบทวนวันนี้ ฉันรู้สึกว่าโมนิกาในปี 2023 ไม่กระตือรือร้นพอ” “หากคุณรู้ว่าคุณกำลังสร้างสิ่งใหม่และเป็นผู้นำ คุณควรกระตือรือร้น
ผมไม่รู้ว่ามนัสจะนําประสบการณ์และก้าวกระโดดจาก 1 เป็น N ได้หรือไม่ แต่ทีมที่รู้เรื่อง "เปลือกหอย" มากที่สุดเชื่อในการสร้างสรรค์ด้วยหัวใจและมือเป็นหนึ่งเดียว และยังเชื่อในเอฟเฟกต์ผีเสื้อที่เกิดจากการสร้างสรรค์ มนัสมาจากคําขวัญที่ MIT: Mens at manus ซึ่งเน้นความสามัคคีของหัวใจและมือ มันไม่สามารถเป็นแสงได้ต้องทําและอาจมีผลกระทบต่อโลกแห่งความเป็นจริงซึ่งเป็นความรู้ที่แท้จริง
ในอนาคต โดยเมื่อมีการเปิดเผยข้อมูลเพิ่มเติมเกี่ยวกับเงินฝากที่อยู่ข้างหลังของมานุส เริ่มมีผลกระทบต่อหลากหลายมากขึ้น
บทความนี้ถูกคัดลอกมาจาก [GateGEEEKPARK], และลิขสิทธิ์เป็นของผู้เขียนต้นฉบับ [ว่านเฉิน], if you have any objection to the reprint, please contact Gate Learnทีมจะดำเนินการให้เร็วที่สุดตามขั้นตอนที่เกี่ยวข้อง
คำประกาศ: มุมมองและความคิดเห็นที่แสดงในบทความนี้แสดงถึงมุมมองส่วนบุคคลของผู้เขียนเท่านั้น และไม่เป็นที่สนับสนุนใด ๆ เกี่ยวกับการให้คำแนะนำทางด้านการลงทุน
เวอร์ชันภาษาอื่น ๆ ของบทความถูกแปลโดยทีม Gate Learn และไม่ได้กล่าวถึงใน Gate.io, บทความที่ถูกแปลอาจไม่สามารถทำสำเนา แจกจ่ายหรือลอกเลียนได้