Trong các kịch bản văn bản dài, các mô hình ngôn ngữ lớn như ChatGPT thường phải đối mặt với chi phí sức mạnh tính toán cao hơn, độ trễ lâu hơn và hiệu suất kém hơn. Để giải quyết ba thách thức này, LongLLMLingua mã nguồn mở của Microsoft.
Được biết, nguyên tắc kỹ thuật cốt lõi của LongLLMLingua là đạt được tới 20 lần giới hạn nén của "lời nhắc văn bản", đồng thời có thể đánh giá chính xác mức độ liên quan của nội dung trong lời nhắc đến vấn đề, loại bỏ nội dung không liên quan và giữ lại thông tin chính, đồng thời đạt được mục đích giảm chi phí và tăng hiệu quả.
Kết quả thử nghiệm cho thấy hiệu suất của dấu nhắc ** được nén bởi LongLLMLingua cao hơn 17,1% so với lời nhắc ban đầu và các mã thông báo được nhập vào GPT-3.5-Turbo bị giảm 4 lần **. Các thử nghiệm LongBench và ZeroScrolls cho thấy tiết kiệm chi phí là 28,5 đô la và 27,4 đô la cho mỗi 1.000 mẫu.
Khi một gợi ý về khoảng 10 k token được nén và tỷ lệ nén nằm trong khoảng 2-10x, độ trễ end-to-end có thể giảm 1,4-3,8x, tăng tốc đáng kể tốc độ suy luận.
Địa chỉ giấy:
Địa chỉ mã nguồn mở:
Từ bài giới thiệu, LongLLMLingua chủ yếu bao gồm bốn mô-đun: nén hạt thô nhận biết vấn đề, sắp xếp lại tài liệu, tỷ lệ nén động và khôi phục chuỗi con sau khi nén.
** Mô-đun nén hạt thô nhận biết vấn đề **
Ý tưởng của mô-đun này là sử dụng có điều kiện văn bản câu hỏi, đánh giá mức độ liên quan của từng đoạn với câu hỏi và giữ lại các đoạn có liên quan hơn.
Cụ thể, bằng cách tính toán mức độ nhầm lẫn có điều kiện của văn bản vấn đề và mỗi đoạn, mức độ tương quan logic giữa hai điều này được đánh giá, và sự nhầm lẫn có điều kiện càng thấp, mức độ liên quan càng cao.
Trên cơ sở này, đặt ngưỡng để giữ các đoạn văn có độ nhầm lẫn thấp và lọc ra các đoạn không liên quan đến vấn đề. Điều này cho phép nén hạt thô để nhanh chóng loại bỏ một lượng lớn thông tin dư thừa dựa trên vấn đề.
** Mô-đun sắp xếp lại tài liệu **
Các nghiên cứu đã chỉ ra rằng trong số các lời nhắc, nội dung gần với vị trí bắt đầu và kết thúc có tác động lớn nhất đến mô hình ngôn ngữ. Do đó, mô-đun sắp xếp lại từng đoạn theo mức độ liên quan của nó, để thông tin chính xuất hiện ở vị trí nhạy cảm hơn với mô hình, giảm mất thông tin ở vị trí giữa.
Bằng cách sử dụng mô-đun nén hạt thô để tính toán mức độ liên quan của từng đoạn với vấn đề, các đoạn văn được sắp xếp sao cho đoạn văn có mức độ liên quan cao nhất được xếp hạng đầu tiên. Điều này tiếp tục nâng cao nhận thức của mô hình về thông tin quan trọng.
Sau khi có được các đoạn liên quan được sắp xếp lại, số lượng từ trong mỗi đoạn cần được nén thêm. Tại thời điểm này, mô-đun tỷ lệ nén động sẽ tinh chỉnh lời nhắc.
** Mô-đun tỷ lệ nén động **
Sử dụng tỷ lệ nén thấp hơn cho các đoạn văn có liên quan hơn và phân bổ nhiều ngân sách hơn cho các từ dành riêng, trong khi sử dụng tỷ lệ nén cao hơn cho các đoạn ít liên quan hơn.
Tỷ lệ nén cho mỗi đoạn được xác định động bằng cách sử dụng kết hợp đoạn trong kết quả nén hạt thô. Các đoạn có liên quan nhất có tỷ lệ nén thấp nhất, v.v.
Đạt được kiểm soát nén thích ứng, chi tiết để lưu giữ hiệu quả thông tin quan trọng. Sau khi nén, cũng cần phải cải thiện độ tin cậy của kết quả, đòi hỏi mô-đun khôi phục chuỗi con nén sau.
** Mô-đun khôi phục chuỗi con sau khi nén **
Trong quá trình nén, một số từ khóa có thể bị xóa quá mức, ảnh hưởng đến tính toàn vẹn của thông tin và mô-đun có thể phát hiện và khôi phục các từ khóa này.
Nguyên tắc làm việc là sử dụng mối quan hệ chuỗi con giữa văn bản nguồn, văn bản nén và văn bản được tạo để khôi phục các cụm danh từ khóa hoàn chỉnh từ kết quả được tạo, sửa chữa sự thiếu thông tin do nén mang lại và cải thiện độ chính xác của kết quả.
Toàn bộ quá trình này hơi giống quy trình làm việc của chúng tôi để duyệt nhanh các bài viết, sàng lọc thông tin, tích hợp các điểm chính, v.v., để mô hình nhanh chóng nắm bắt thông tin chính của văn bản và tạo ra các bản tóm tắt chất lượng cao.
Dữ liệu thử nghiệm LongLLMLingua
Các nhà nghiên cứu đã xây dựng một bộ dữ liệu câu hỏi và câu trả lời nhiều tài liệu dựa trên Câu hỏi tự nhiên, trong đó mỗi ví dụ chứa một câu hỏi và 20 tài liệu liên quan mà từ đó cần câu trả lời.
Bộ dữ liệu này mô phỏng các tình huống Hỏi & Đáp của công cụ tìm kiếm trong thế giới thực để đánh giá hiệu suất Hỏi &Đáp của mô hình trong các tài liệu dài.
Ngoài ra, các nhà nghiên cứu đã sử dụng một bộ điểm chuẩn hiểu văn bản dài tổng quát hơn, bao gồm LongBench và ZeroSCROLLS, để đánh giá hiệu quả của phương pháp trong một loạt các tình huống.
Trong số đó, LongBench bao gồm các tác vụ như Hỏi & Đáp một tài liệu, Hỏi & Đáp nhiều tài liệu, tóm tắt văn bản và học tập ít mẫu, bao gồm cả bộ dữ liệu tiếng Anh. ZeroSCROLLS bao gồm các nhiệm vụ hiểu ngôn ngữ điển hình như tóm tắt văn bản, trả lời câu hỏi hiểu và phân tích tình cảm.
Trên các bộ dữ liệu này, các nhà nghiên cứu đã so sánh hiệu suất của lời nhắc nén của LongLLMLingua với lời nhắc ban đầu trên một mô hình ngôn ngữ lớn. Đồng thời, hiệu quả của LongLLMLingua được đánh giá bằng cách so sánh với các phương pháp nén nhanh khác, chẳng hạn như LLMLingua dựa trên câu đố và các phương pháp dựa trên truy xuất.
Kết quả thử nghiệm cho thấy lời nhắc nén của LongLLMLingua thường tốt hơn lời nhắc ban đầu về độ chính xác Hỏi &Đáp và chất lượng văn bản được tạo ra.
Ví dụ: trên NaturalQuestions, nén lời nhắc gấp 4 lần đã cải thiện độ chính xác của Hỏi &Đáp lên 17.1%. Khi nén gợi ý khoảng 10k mã thông báo, tỷ lệ nén nằm trong khoảng 2-10x và độ trễ từ đầu đến cuối có thể giảm 1,4-3,8x. Điều này hoàn toàn chứng minh rằng LongLLMLingua có thể cải thiện việc trích xuất thông tin chính trong khi nén các gợi ý.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Lên đến 20 lần! Nén lời nhắc văn bản mô hình như ChatGPT để tiết kiệm đáng kể sức mạnh tính toán AI
Nguồn gốc: Cộng đồng mở AIGC
Trong các kịch bản văn bản dài, các mô hình ngôn ngữ lớn như ChatGPT thường phải đối mặt với chi phí sức mạnh tính toán cao hơn, độ trễ lâu hơn và hiệu suất kém hơn. Để giải quyết ba thách thức này, LongLLMLingua mã nguồn mở của Microsoft.
Được biết, nguyên tắc kỹ thuật cốt lõi của LongLLMLingua là đạt được tới 20 lần giới hạn nén của "lời nhắc văn bản", đồng thời có thể đánh giá chính xác mức độ liên quan của nội dung trong lời nhắc đến vấn đề, loại bỏ nội dung không liên quan và giữ lại thông tin chính, đồng thời đạt được mục đích giảm chi phí và tăng hiệu quả.
Kết quả thử nghiệm cho thấy hiệu suất của dấu nhắc ** được nén bởi LongLLMLingua cao hơn 17,1% so với lời nhắc ban đầu và các mã thông báo được nhập vào GPT-3.5-Turbo bị giảm 4 lần **. Các thử nghiệm LongBench và ZeroScrolls cho thấy tiết kiệm chi phí là 28,5 đô la và 27,4 đô la cho mỗi 1.000 mẫu.
Khi một gợi ý về khoảng 10 k token được nén và tỷ lệ nén nằm trong khoảng 2-10x, độ trễ end-to-end có thể giảm 1,4-3,8x, tăng tốc đáng kể tốc độ suy luận.
Địa chỉ giấy:
Địa chỉ mã nguồn mở:
Từ bài giới thiệu, LongLLMLingua chủ yếu bao gồm bốn mô-đun: nén hạt thô nhận biết vấn đề, sắp xếp lại tài liệu, tỷ lệ nén động và khôi phục chuỗi con sau khi nén.
** Mô-đun nén hạt thô nhận biết vấn đề **
Ý tưởng của mô-đun này là sử dụng có điều kiện văn bản câu hỏi, đánh giá mức độ liên quan của từng đoạn với câu hỏi và giữ lại các đoạn có liên quan hơn.
Trên cơ sở này, đặt ngưỡng để giữ các đoạn văn có độ nhầm lẫn thấp và lọc ra các đoạn không liên quan đến vấn đề. Điều này cho phép nén hạt thô để nhanh chóng loại bỏ một lượng lớn thông tin dư thừa dựa trên vấn đề.
** Mô-đun sắp xếp lại tài liệu **
Các nghiên cứu đã chỉ ra rằng trong số các lời nhắc, nội dung gần với vị trí bắt đầu và kết thúc có tác động lớn nhất đến mô hình ngôn ngữ. Do đó, mô-đun sắp xếp lại từng đoạn theo mức độ liên quan của nó, để thông tin chính xuất hiện ở vị trí nhạy cảm hơn với mô hình, giảm mất thông tin ở vị trí giữa.
Bằng cách sử dụng mô-đun nén hạt thô để tính toán mức độ liên quan của từng đoạn với vấn đề, các đoạn văn được sắp xếp sao cho đoạn văn có mức độ liên quan cao nhất được xếp hạng đầu tiên. Điều này tiếp tục nâng cao nhận thức của mô hình về thông tin quan trọng.
** Mô-đun tỷ lệ nén động **
Sử dụng tỷ lệ nén thấp hơn cho các đoạn văn có liên quan hơn và phân bổ nhiều ngân sách hơn cho các từ dành riêng, trong khi sử dụng tỷ lệ nén cao hơn cho các đoạn ít liên quan hơn.
Đạt được kiểm soát nén thích ứng, chi tiết để lưu giữ hiệu quả thông tin quan trọng. Sau khi nén, cũng cần phải cải thiện độ tin cậy của kết quả, đòi hỏi mô-đun khôi phục chuỗi con nén sau.
** Mô-đun khôi phục chuỗi con sau khi nén **
Trong quá trình nén, một số từ khóa có thể bị xóa quá mức, ảnh hưởng đến tính toàn vẹn của thông tin và mô-đun có thể phát hiện và khôi phục các từ khóa này.
Nguyên tắc làm việc là sử dụng mối quan hệ chuỗi con giữa văn bản nguồn, văn bản nén và văn bản được tạo để khôi phục các cụm danh từ khóa hoàn chỉnh từ kết quả được tạo, sửa chữa sự thiếu thông tin do nén mang lại và cải thiện độ chính xác của kết quả.
Dữ liệu thử nghiệm LongLLMLingua
Các nhà nghiên cứu đã xây dựng một bộ dữ liệu câu hỏi và câu trả lời nhiều tài liệu dựa trên Câu hỏi tự nhiên, trong đó mỗi ví dụ chứa một câu hỏi và 20 tài liệu liên quan mà từ đó cần câu trả lời.
Bộ dữ liệu này mô phỏng các tình huống Hỏi & Đáp của công cụ tìm kiếm trong thế giới thực để đánh giá hiệu suất Hỏi &Đáp của mô hình trong các tài liệu dài.
Ngoài ra, các nhà nghiên cứu đã sử dụng một bộ điểm chuẩn hiểu văn bản dài tổng quát hơn, bao gồm LongBench và ZeroSCROLLS, để đánh giá hiệu quả của phương pháp trong một loạt các tình huống.
Trong số đó, LongBench bao gồm các tác vụ như Hỏi & Đáp một tài liệu, Hỏi & Đáp nhiều tài liệu, tóm tắt văn bản và học tập ít mẫu, bao gồm cả bộ dữ liệu tiếng Anh. ZeroSCROLLS bao gồm các nhiệm vụ hiểu ngôn ngữ điển hình như tóm tắt văn bản, trả lời câu hỏi hiểu và phân tích tình cảm.
Kết quả thử nghiệm cho thấy lời nhắc nén của LongLLMLingua thường tốt hơn lời nhắc ban đầu về độ chính xác Hỏi &Đáp và chất lượng văn bản được tạo ra.
Ví dụ: trên NaturalQuestions, nén lời nhắc gấp 4 lần đã cải thiện độ chính xác của Hỏi &Đáp lên 17.1%. Khi nén gợi ý khoảng 10k mã thông báo, tỷ lệ nén nằm trong khoảng 2-10x và độ trễ từ đầu đến cuối có thể giảm 1,4-3,8x. Điều này hoàn toàn chứng minh rằng LongLLMLingua có thể cải thiện việc trích xuất thông tin chính trong khi nén các gợi ý.