Першоджерело: Science and Technology Innovation Board Daily
Джерело зображення: Створено Unbounded AI
При величезному попиті на дані з боку ШІ ресурси даних практично вичерпані, тому компанії почали знаходити «новий спосіб» отримання даних – «створювати» дані самостійно. Однак більшість попередніх синтетичних даних використовувалися для навчання великих моделей ШІ, і цього разу Nvidia створила «сховище даних» для навчання роботів.
У новій дослідницькій роботі між NVIDIA та Техаським університетом в Остіні описана система під назвою «MimicGen», яка може автоматично генерувати великомасштабні набори даних для навчання роботів лише з невеликою кількістю демонстрацій людини. Джим Фан, старший науковий співробітник Nvidia, сказав, що компанія відкриє вихідний код для всього, включаючи згенеровані набори даних.
Який масштаб генерованих даних? Використовуючи 10 демонстрацій людини, MimicGen може згенерувати 1000 прикладів синтезу; За допомогою 200 демонстрацій на людях MimicGen зміг безпосередньо згенерувати 50 000 навчальних даних у 18 завданнях і кількох змодельованих середовищах.
А як щодо згенерованого набору даних?
MimicGen може «розвивати» одну і ту ж сцену в різні етапи на основі вихідних даних:
Він також може генерувати різні набори даних у широкому діапазоні розподілів скидання завдань, включаючи збирання предметів, наливання кави, чашки для чищення тощо:
Можливість генерувати різні демо-версії нових роботизованих рук:
Також є дані навчання для довгострокових завдань:
Також доступні дані про реальні сценарії:
Примітно, що дослідники порівняли дані, отримані з різних вихідних наборів даних. Однак вони виявили, що два набори результатів були порівнянними, що свідчить про те, що «якість даних може бути не такою важливою у великомасштабних механізмах даних».
Мало того, дослідники порівняли дані, отримані в результаті 10 демонстрацій на людях, з 200 демонстраціями людей, і результати так само мало чим відрізнялися. Таким чином, у документі також визнається, що необхідні подальші дослідження щодо того, чи призведе більша кількість даних про презентацію на людях до надмірності та непотрібних витрат на маркування даних.
Чому ви так одержимі синтетичними даними? На додаток до обмежених ресурсів вихідних даних, згаданих на початку статті, збір даних є надзвичайно дорогим і трудомістким, а за допомогою такої системи, як MimicGen, можна автоматично генерувати великомасштабні, багаті набори даних лише з невеликою кількістю даних, що охоплюють кілька сценаріїв, можливостей об'єктів, роботизованих рук і довгострокових або високоточних завдань, що робить його ефективним способом «масштабування потужності та економічності навчання роботів».
"Синтетичні дані забезпечать наступний трильйон даних для наших "голодних" моделей. «Однією з ключових причин, чому робототехніка значно відстає від інших галузей штучного інтелекту, є брак даних — ви не можете отримати керуючі сигнали з Інтернету. "
«Ми швидко виснажуємо високоякісні реальні дані з Інтернету, і штучний інтелект, народжений із синтетичних даних, стане шляхом вперед».
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Гра-руйнівник! Нові досягнення NVIDIA в області синтетичних даних: створення «вічного двигуна для навчання даних» для роботів
Першоджерело: Science and Technology Innovation Board Daily
При величезному попиті на дані з боку ШІ ресурси даних практично вичерпані, тому компанії почали знаходити «новий спосіб» отримання даних – «створювати» дані самостійно. Однак більшість попередніх синтетичних даних використовувалися для навчання великих моделей ШІ, і цього разу Nvidia створила «сховище даних» для навчання роботів.
У новій дослідницькій роботі між NVIDIA та Техаським університетом в Остіні описана система під назвою «MimicGen», яка може автоматично генерувати великомасштабні набори даних для навчання роботів лише з невеликою кількістю демонстрацій людини. Джим Фан, старший науковий співробітник Nvidia, сказав, що компанія відкриє вихідний код для всього, включаючи згенеровані набори даних.
А як щодо згенерованого набору даних?
MimicGen може «розвивати» одну і ту ж сцену в різні етапи на основі вихідних даних:
Мало того, дослідники порівняли дані, отримані в результаті 10 демонстрацій на людях, з 200 демонстраціями людей, і результати так само мало чим відрізнялися. Таким чином, у документі також визнається, що необхідні подальші дослідження щодо того, чи призведе більша кількість даних про презентацію на людях до надмірності та непотрібних витрат на маркування даних.
Чому ви так одержимі синтетичними даними? На додаток до обмежених ресурсів вихідних даних, згаданих на початку статті, збір даних є надзвичайно дорогим і трудомістким, а за допомогою такої системи, як MimicGen, можна автоматично генерувати великомасштабні, багаті набори даних лише з невеликою кількістю даних, що охоплюють кілька сценаріїв, можливостей об'єктів, роботизованих рук і довгострокових або високоточних завдань, що робить його ефективним способом «масштабування потужності та економічності навчання роботів».
"Синтетичні дані забезпечать наступний трильйон даних для наших "голодних" моделей. «Однією з ключових причин, чому робототехніка значно відстає від інших галузей штучного інтелекту, є брак даних — ви не можете отримати керуючі сигнали з Інтернету. "
«Ми швидко виснажуємо високоякісні реальні дані з Інтернету, і штучний інтелект, народжений із синтетичних даних, стане шляхом вперед».