В 2017 году статья “Attention is All You Need” произвела фурор, впервые представив модель Transformer, основанную на механизме самовнимания, освободившись от традиционных ограничений RNN и CNN, и эффективно преодолев проблему долгосрочной зависимости благодаря параллельной обработке. На конференции GTC 2024 года генеральный директор Nvidia Жэньсюнь Хуанг пригласил семерых авторов Transformer на совместное выступление.
Трансформер возник из проблемы эффективности машинного перевода
! [Trasnformer семь авторов появляются вместе](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201
(Источник:NVIDIA)
Жэньсюнь Хуанг спросил, с какими проблемами они столкнулись в начале и что вдохновило команду на создание Transformer. Иллия Полосухин ответил: «Если вы хотите выпустить модель, которая действительно может читать результаты поиска, например, обрабатывать кучи документов, вам нужны модели, которые могут быстро обрабатывать эту информацию. Рекуррентные нейронные сети (RNN) в то время не могли удовлетворить эту потребность.»
Якоб Ушкорейт добавил: «Мы генерируем данные для обучения гораздо быстрее, чем способны обучать наши самые современные архитектуры. На самом деле мы используем более простые архитектуры, такие как сети с прямой связью с n-граммами в качестве входных признаков. Эти архитектуры, по крайней мере в масштабах Google и при большом количестве данных для обучения, благодаря более быстрой скорости обучения, обычно превосходят более сложные и современные модели.»
Ноам Шазир предоставил ключевые идеи: «Похоже, это проблема, требующая решения. Мы начали замечать эти законы масштабирования примерно в 2015 году, и вы можете видеть, что с увеличением масштаба модели, её уровень интеллекта также повышается. И одно огромное разочарование заключается в том, что RNN обрабатывать действительно очень сложно. Затем я случайно услышал, как эти парни обсуждают: эй, давайте заменим это сверткой или механизмом внимания. Я подумал, здорово, давайте так и сделаем. Я люблю сравнивать Transformer с прыжком от парового двигателя к двигателю внутреннего сгорания. Мы могли бы завершить промышленную революцию с помощью парового двигателя, но это было бы очень мучительно, а двигатель внутреннего сгорания сделал все гораздо лучше.»
)# Три основные проблемы, решаемые Transformer
Параллельная обработка: избавиться от ограничений последовательной обработки RNN и реализовать настоящие параллельные вычисления
Долгосрочная зависимость: Эффективное улавливание отношений между словами на дальнем расстоянии с помощью механизма самовнимания.
Эффективность обучения: Значительное увеличение скорости обучения модели, что делает возможным масштабное предварительное обучение.
Эти технологические прорывы сделали Transformer основой современного ИИ. Такие крупные языковые модели, как ChatGPT, BERT, GPT-4, основаны на архитектуре Transformer. Однако через семь лет создатели считают, что пора сделать прорыв.
Застряв в ловушке эффективности исходной модели
Айдан Гомес признался: «Я думаю, что этому миру нужно что-то лучшее, чем Transformer, и я думаю, что все мы здесь надеемся, что это может быть заменено чем-то, что приведет нас к новому плато производительности.» Ллион Джонс добавил: «Мы застряли на исходных моделях, хотя с технической точки зрения, возможно, это не самое мощное, что у нас есть сейчас. Но все знают, какими личными инструментами они хотят пользоваться: вы хотите сделать лучшее контекстное окно, вам нужна более быстрая способность генерировать токены. В настоящее время они используют слишком много вычислительных ресурсов. Я думаю, что все сделали много бесполезных вычислений.»
Яков Ушкорейт указал на основную проблему: «Но я думаю, что это в основном связано с тем, как распределяются ресурсы, а не с тем, сколько ресурсов было потрачено всего. Например, мы не хотим тратить слишком много денег на простую задачу или слишком мало на слишком сложную задачу, в результате чего мы не получим решения.»
Иллия Полосухин привёл яркий пример: «Этот пример как 2+2, если вы правильно введёте его в эту модель, она будет использовать триллион параметров. Поэтому я считаю, что адаптивные вычисления — это одна из вещей, которые должны появиться дальше, мы знаем, сколько вычислительных ресурсов следует потратить на конкретные задачи.» Эта критика выявляет основный недостаток современных ИИ-моделей: отсутствие адаптивности, затраты одинаковых вычислительных ресурсов на простые и сложные задачи, что приводит к огромным потерям.
Ноам Шазир анализирует с экономической точки зрения: «Я считаю, что текущие модели слишком экономичны и их масштаб еще слишком мал. Стоимость вычислений за каждую операцию составляет примерно от 10 до 18 долларов. Если вы посмотрите на модель с пятью триллионами параметров и каждую токен выполнять триллион вычислений, это около одного доллара за миллион токенов, что в 100 раз дешевле, чем купить бумажную книгу и прочитать её». Эта точка зрения противоречит здравому смыслу, но глубока: ИИ сейчас слишком дешев, что приводит к тому, что люди злоупотребляют, а не ценят вычислительные ресурсы.
Будущее направление: адаптивные вычисления и способности к рассуждению
Лукаш Кайзер раскрыл важный факт: «Мы не достигли первоначальной цели, мы начали Transformer с намерением смоделировать процесс эволюции токена. Это не просто линейный процесс генерации, а постепенная эволюция текста или кода.» Это признание показывает, что, хотя Transformer и успешен, он не полностью реализовал видение своих создателей.
Якоб Ужкорейт указал на следующий шаг: «Следующий шаг — это рассуждение. Мы все осознаем важность рассуждения, но многие работы в настоящее время все еще выполняются инженерами вручную. Мы надеемся, что модель сможет генерировать контент, который нам нужен, будь то видео, текст или 3D-сообщения — всё это должно быть интегрировано вместе». Это подразумевает, что будущая архитектура ИИ требует более высокой способности к рассуждению и мультимодальной интеграции.
Эйдан Гомес добавил: «Сможем ли мы реализовать многозадачность и параллелизм? Если вы действительно хотите создать такую модель, помогите нам спроектировать такую модель, это очень хороший способ.» Лукаш Кайзер считает: «Выводы на самом деле исходят из данных, нам нужно сделать данные более полными.» Эти дискуссии указывают на несколько ключевых направлений для архитектур ИИ после Transformer: адаптивные вычисления, улучшенное резюмирование, мульти-модальное слияние и более эффективное использование данных.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Предупреждение создателя Transformer: ИИ застрял в оригинальной архитектуре, Жэньсюнь Хуанг призывает семерых авторов найти выход
В 2017 году статья “Attention is All You Need” произвела фурор, впервые представив модель Transformer, основанную на механизме самовнимания, освободившись от традиционных ограничений RNN и CNN, и эффективно преодолев проблему долгосрочной зависимости благодаря параллельной обработке. На конференции GTC 2024 года генеральный директор Nvidia Жэньсюнь Хуанг пригласил семерых авторов Transformer на совместное выступление.
Трансформер возник из проблемы эффективности машинного перевода
! [Trasnformer семь авторов появляются вместе](https://img-cdn.gateio.im/webp-social/moments-87a9b3933a-6d9a39f012-153d09-cd5cc0.webp019283746574839201
(Источник:NVIDIA)
Жэньсюнь Хуанг спросил, с какими проблемами они столкнулись в начале и что вдохновило команду на создание Transformer. Иллия Полосухин ответил: «Если вы хотите выпустить модель, которая действительно может читать результаты поиска, например, обрабатывать кучи документов, вам нужны модели, которые могут быстро обрабатывать эту информацию. Рекуррентные нейронные сети (RNN) в то время не могли удовлетворить эту потребность.»
Якоб Ушкорейт добавил: «Мы генерируем данные для обучения гораздо быстрее, чем способны обучать наши самые современные архитектуры. На самом деле мы используем более простые архитектуры, такие как сети с прямой связью с n-граммами в качестве входных признаков. Эти архитектуры, по крайней мере в масштабах Google и при большом количестве данных для обучения, благодаря более быстрой скорости обучения, обычно превосходят более сложные и современные модели.»
Ноам Шазир предоставил ключевые идеи: «Похоже, это проблема, требующая решения. Мы начали замечать эти законы масштабирования примерно в 2015 году, и вы можете видеть, что с увеличением масштаба модели, её уровень интеллекта также повышается. И одно огромное разочарование заключается в том, что RNN обрабатывать действительно очень сложно. Затем я случайно услышал, как эти парни обсуждают: эй, давайте заменим это сверткой или механизмом внимания. Я подумал, здорово, давайте так и сделаем. Я люблю сравнивать Transformer с прыжком от парового двигателя к двигателю внутреннего сгорания. Мы могли бы завершить промышленную революцию с помощью парового двигателя, но это было бы очень мучительно, а двигатель внутреннего сгорания сделал все гораздо лучше.»
)# Три основные проблемы, решаемые Transformer
Параллельная обработка: избавиться от ограничений последовательной обработки RNN и реализовать настоящие параллельные вычисления
Долгосрочная зависимость: Эффективное улавливание отношений между словами на дальнем расстоянии с помощью механизма самовнимания.
Эффективность обучения: Значительное увеличение скорости обучения модели, что делает возможным масштабное предварительное обучение.
Эти технологические прорывы сделали Transformer основой современного ИИ. Такие крупные языковые модели, как ChatGPT, BERT, GPT-4, основаны на архитектуре Transformer. Однако через семь лет создатели считают, что пора сделать прорыв.
Застряв в ловушке эффективности исходной модели
Айдан Гомес признался: «Я думаю, что этому миру нужно что-то лучшее, чем Transformer, и я думаю, что все мы здесь надеемся, что это может быть заменено чем-то, что приведет нас к новому плато производительности.» Ллион Джонс добавил: «Мы застряли на исходных моделях, хотя с технической точки зрения, возможно, это не самое мощное, что у нас есть сейчас. Но все знают, какими личными инструментами они хотят пользоваться: вы хотите сделать лучшее контекстное окно, вам нужна более быстрая способность генерировать токены. В настоящее время они используют слишком много вычислительных ресурсов. Я думаю, что все сделали много бесполезных вычислений.»
Яков Ушкорейт указал на основную проблему: «Но я думаю, что это в основном связано с тем, как распределяются ресурсы, а не с тем, сколько ресурсов было потрачено всего. Например, мы не хотим тратить слишком много денег на простую задачу или слишком мало на слишком сложную задачу, в результате чего мы не получим решения.»
Иллия Полосухин привёл яркий пример: «Этот пример как 2+2, если вы правильно введёте его в эту модель, она будет использовать триллион параметров. Поэтому я считаю, что адаптивные вычисления — это одна из вещей, которые должны появиться дальше, мы знаем, сколько вычислительных ресурсов следует потратить на конкретные задачи.» Эта критика выявляет основный недостаток современных ИИ-моделей: отсутствие адаптивности, затраты одинаковых вычислительных ресурсов на простые и сложные задачи, что приводит к огромным потерям.
Ноам Шазир анализирует с экономической точки зрения: «Я считаю, что текущие модели слишком экономичны и их масштаб еще слишком мал. Стоимость вычислений за каждую операцию составляет примерно от 10 до 18 долларов. Если вы посмотрите на модель с пятью триллионами параметров и каждую токен выполнять триллион вычислений, это около одного доллара за миллион токенов, что в 100 раз дешевле, чем купить бумажную книгу и прочитать её». Эта точка зрения противоречит здравому смыслу, но глубока: ИИ сейчас слишком дешев, что приводит к тому, что люди злоупотребляют, а не ценят вычислительные ресурсы.
Будущее направление: адаптивные вычисления и способности к рассуждению
Лукаш Кайзер раскрыл важный факт: «Мы не достигли первоначальной цели, мы начали Transformer с намерением смоделировать процесс эволюции токена. Это не просто линейный процесс генерации, а постепенная эволюция текста или кода.» Это признание показывает, что, хотя Transformer и успешен, он не полностью реализовал видение своих создателей.
Якоб Ужкорейт указал на следующий шаг: «Следующий шаг — это рассуждение. Мы все осознаем важность рассуждения, но многие работы в настоящее время все еще выполняются инженерами вручную. Мы надеемся, что модель сможет генерировать контент, который нам нужен, будь то видео, текст или 3D-сообщения — всё это должно быть интегрировано вместе». Это подразумевает, что будущая архитектура ИИ требует более высокой способности к рассуждению и мультимодальной интеграции.
Эйдан Гомес добавил: «Сможем ли мы реализовать многозадачность и параллелизм? Если вы действительно хотите создать такую модель, помогите нам спроектировать такую модель, это очень хороший способ.» Лукаш Кайзер считает: «Выводы на самом деле исходят из данных, нам нужно сделать данные более полными.» Эти дискуссии указывают на несколько ключевых направлений для архитектур ИИ после Transformer: адаптивные вычисления, улучшенное резюмирование, мульти-модальное слияние и более эффективное использование данных.