Какая фраза заставляет языковую модель решать задачи точнее? Открытие DeepMind

Что, если одна умная программа поможет другой стать ещё умнее? В DeepMind придумали, как заставить языковые модели сами улучшать свои же инструкции.

Исследователи из Google DeepMind провели любопытный эксперимент. Они решили усилить математические способности больших языковых моделей, вроде тех, что работают в ChatGPT, с помощью… других аналогичных моделей. Их цель — улучшить качество «подсказок», тех самых текстовых инструкций, которые мы пишем, чтобы объяснить программе, чего от неё хотим. И знаете что? Метод сработал, причём неожиданно хорошо.

Искусство задавать правильный вопрос

В статье «Большие языковые модели как оптимизаторы», опубликованной в октябре, команда представила метод под названием OPRO (Optimization by PROmpting). Его суть — отказаться от сложных математических формул в пользу обычного человеческого языка для настройки моделей. По-моему, в этом есть изящная ирония: использовать повседневную речь, чтобы обучить сложнейшие системы.

Как это работает? Вместо того чтобы загружать в модель сухие алгоритмы, системе дают «мета-подсказку» — подробное описание задачи на естественном языке. Затем модель-оптимизатор начинает генерировать возможные решения, опираясь на это описание и результаты предыдущих попыток. Каждое предложенное решение получает оценку качества. Получается такой цифровой мозговой штурм.

В процессе участвуют две модели. Одна выступает в роли строгого оценщика, проверяя точность ответов. Другая — креативный оптимизатор — постоянно придумывает новые варианты, учась на прошлых успехах и провалах. Пары моделей, включая PaLM 2 от Google и GPT от OpenAI, соревнуются между собой в этом интеллектуальном марафоне.

Система итеративно улучшает запросы для модели-оценщика, заставляя оптимизатор создавать всё более эффективные инструкции. Лучшие находки возвращаются в общую «мета-подсказку», и цикл повторяется. Круговорот знаний в цифровой природе!

Самое удивительное открытие — это магическая сила конкретных фраз. Оказалось, что такие инструкции, как «давайте подумаем шаг за шагом», заставляют модели выдавать значительно более точные ответы на математические задачи. Но лидером в этом негласном соревновании стала другая фраза. Готовы?

Исследователи выяснили, что для модели PaLM 2 самая эффективная подсказка звучит так: «сделайте глубокий вдох и работайте над этой проблемой шаг за шагом». Поразительно, правда? Простая, почти медитативная инструкция оказывается мощнее заумных технических описаний. Это наводит на мысль: а не слишком ли мы усложняем общение с технологиями, когда самый человечный подход работает лучше всего?