Учебник по оптимизации вывода большой языковой модели LLM: 1 Предыстория и формулировка проблемы

Разработчики таких моделей не раскрывают полную информацию о том, как именно модель была обучена, на каких данных и с каким набором параметров. Он анализирует запрос и генерирует наиболее вероятное продолжение текста или отвечает на вопрос. При этом использует информацию, полученную на этапе обучения. Контекст помогает модели лучше понять задачу, предоставляя дополнительную информацию. Например, если нужно перевести текст, контекст может включать примеры переводов. Такие модифицированные модели называют форками (от англ. fork — развилка). Общая оценка – это сводный показатель, отражающий уровень качества ответа по всем перечисленным критериям. Для Factual Correctness более надёжны ML-системы (и внешние базы данных), потому что LLM склонны выдумывать факты. При этом LLM может выполнять первичный анализ, но итоговую проверку часто https://lilianweng.github.io/lil-log/ делают классические ML-методы или ручные эксперты. На этом этапе модели предоставляют размеченные примеры для последующей генерации ею более точных и контекстуально верных ответов на задачу-адресата [3]. Точная настройка позволяет модели использоваться в приложениях, осуществляющих перевод с иностранных языков, чаты «вопрос-ответ» или генерацию текста. Пример успешного дообучения языковой модели для задачи преобразования текста в Cypher запрос с использованием базы данных знаний Neo4j можно найти тут [23]. Задача дообучения для задачи геренации по тексту SQL была успешно реализована [24] на основе публичных датасетов запросов SQL. Второй этап обучения модели — Supervised fine-tuning или обучение с учителем. Сумма подается функции активации (она, как правило, очень простая) f(X), и полученное значение передается в следующий слой нейронов. В современных нейросетях слоев нейронов много, иногда тысячи. LLM используются в разных сервисах, и многие пользователи активно их применяют, не особо вдаваясь в подробности, как эти генеративные модели работают, как обучаются, как отвечают на вопросы. Иногда пользователи смеются над нелепыми ошибками, которые допускают модели. Иногда негодуют, когда модели начинают придумывать несуществующие вещи или делают фактические ошибки. Многообразие ответов, но и количество несвязных, мусорных ответов и галлюцинаций. Сохраняя представления ключей и значений, вычисленные на этапе предварительного заполнения, модель может избежать избыточных вычислений для ранее обработанных токенов. При правильном обучении они могут обрабатывать практически любые запросы. Помните, что знания ИИ ограничены актуальными данными, но современные методы языкового моделирования постоянно совершенствуются.

Остальные языки, на которых в мире говорят десятки и сотни миллионов людей, считаются вторичными. Обучение для работы с ними требует поиска и составления качественных датасетов, а значит, и дополнительных ресурсов. Например, та же Mistral 7B имеет в 25 раз меньше параметров по сравнению с GPT-3.5, лежавшей в основе базовой версии ChatGPT. Поэтому её использование требует меньше вычислительных мощностей — примерно в 187 раз меньше, чем GPT-4, и в девять раз меньше, чем GPT-3.5.

Учебник по оптимизации вывода большой языковой модели (LLM): 1. Предыстория и формулировка проблемы


На самом деле большие языковые модели это не толко наш компаньон для чата, написания текстов и генерации идей. Это может https://huggingface.co/blog быть конкретная задача, которую необходимо выполнить, или формат ответа. http://king-wifi.win//index.php?title=penningtonashley9421 Например, “Напиши короткое эссе о климатических изменениях” или “Переведи следующий текст на испанский язык”. Вы также можете создавать профили для разных аудиторий, учитывая особенности обучения модели для каждого случая. Например, технический специалист потребует других параметров генерации, чем неподготовленный пользователь. Чем больше контекста предоставите, тем точнее будет подобран уровень детализации ответа.

Примеры конкретных задач и промптов

Если вам когда-либо приходилось использовать языковую модель в интерактивной среде или через API, то скорее всего ваша работа начиналась с выбора нескольких входных параметров. Однако, у многих из нас возникают вопросы по поводу назначения и правильного использования этих параметров. https://dobryakschool.ru/user/Organic-Savvy/ Контекстом может быть предыдущее сообщение в диалоге, тон беседы или дополнительная информация, уже упомянутая ранее. Это требует гораздо большего обьема памяти, чем инференс модели. В настоящее время наиболее используемым оптимизатором для языковых моделей является AdamW [15], суть метода заключается в отдельной регуляризации затухания весов. Определение роли и цели запроса направляет модель к выполнению специфической задачи, например, генерации идей или аналитического разбора. Это позволяет нейросети выбрать соответствующий стиль и подход, повышая уместность и точность ответов. Вроде бы всё правильно, но часто не хватает глубины и нюансов. Особенно это заметно в узкоспециализированных темах или при работе со свежими данными. Представьте себе очень начитанного профессора, который пытается говорить простым языком.