src/ai/ai-chat-llm.md

# Чат с LLM
## Обзор сервиса Чат с LLM

**Чат с LLM -** это интуитивно понятный интерфейс для общения с LLM (Large Language Model). Подходит для знакомства с моделями, а также для встраивания на любой сайт в виде виджета. Чат дает возможность выбирать различные LLM модели,  базы знаний и настраивать системные промпты под свои задачи.

**LLM** — это просто большая куча матриц и векторной алгебры, которая обучается на огромном количестве текстов. В процессе обучения модель не просто запоминает информацию, а учится находить связи между словами, понимать закономерности языка и генерировать осмысленные ответы на самые разные вопросы. Когда вы задаёте LLM вопрос, она «вспоминает» подходящие по смыслу фразы и пытается предугадать, какие слова должны идти дальше, чтобы ответ звучал логично и понятно.

## Быстрый старт

Для авторизации и начала работы необходимо выполнить следующие шаги:

1. **Подключение**: Перейдите по адресу `ai.beeline.ru`
2. **VPN/VDL**: Обязательно подключитесь через корпоративный VPN или VDL
3. **Авторизация**: Нажмите «Начать работу» или «Перейти в чат»
4. **MobileID**: Пройдите стандартную авторизацию через MobileID
5. **Начало работы**: После авторизации вы попадете в интерфейс чата


**Интерфейс чата:**

![alt text](/src/ai/image/Chat_AI_Main_1024.png)

В интерфейсе доступен следующий функционал:

1. **Выбор модели:**
По умолчанию используется модель Gemma 3. Для смены модели выберите подходящий вариант из выпадающего меню. Рекомендации по выбору модели доступны в разделе [Доступные модели](#ai-getting-started-).

2. **Выбор базы знаний:**
Для генерации ответов не на базе своего раннего обучения, а на основе актуальных данных, необходимо выбрать нужную базу знаний из выпадающего меню. Более подробно, что такое "Базы знаний" в AI и как они работают, можно ознакомится в разделе [RAG](#Likbez-RAG).

3. **Выбор системного промпта:**
Системный промпт представляет из себя набор инструкций, на которые опирается модель при подготовке ответа на запрос пользователя.
Подробно про промпты можно почитать тут: [Промпты](#Likbez-Prompt)

4. **Очистка контекста диалога:**
При длительном диалоге модель накапливает контекст и может начать генерировать неточные ответы ("галлюцинации"). Для предотвращения этого рекомендуется периодически очищать контекст сессии — нажмите иконку очистки в правом верхнем углу окна чата. Подробно про ограничения LLM можно почитать тут: [Ограничения LLM](#Likbez-RestrLLM)

5. **Диалог пользователя с чатом**
Диалог с чатом пользователь ведёт как в обычном чате в режиме вопрос-ответ.

Исходя из возможностей сервиса **Чат с LLM** пользовательский путь от авторизации к диалогу выглядит следующим образом:

![alt text](UX_Path_1024.png)

## Выбор LLM

Первым шагом надо выбрать одну из доступных моделей.

![alt text](/src/ai/image/Chat_AI_Choice_LLM_1024.png)

По умолчанию установлена модель Gemma 3, но мы рекомендуем начинать эксперименты с модели Qwen 3 32B, которая имеет больший контекст, поддерживает нативный вызов инструментов, а также может работать как в режиме с рассуждениями (включен по умолчанию) или без них - в таком случае нужно передать в запросе "/no_think".
С списанием, какие модели доступны, а также, какие преимущества есть у каждой из моделей, можно ознакомиться в разделе [Доступные модели](#Available-LLMs).

После выбора модели можно начинать диалог с чатом. Для этого необходимо просто писать свой запрос в окно диалога и дожидаться ответа.

## Доступные модели

В этом разделе мы ведём актуальный список моделей, которые доступны на платформе.

| Модель | Контекст | Параметры | Reasoning | Инструменты | Картинки |
|:-------|:-------|:-------|:-------|:-------|:-------|
| Deepseek-chat	| 131k | 671B	| ✅ | ✅ | ❌ |
| Gemma 3 | 128k	| 27B	| ❌	| ❌	| ✅ |
| Qwen 3 |  131k | 32B | ✅	|✅ |	❌|

* **DeepSeek Chat**

Обновление DeepSeek V3 — это мощная гибридная модель с 671 млрд параметров, специально оптимизированная для кодогенерации и работы поисковых агентов. Модель поддерживает контекст до 128 тыс. токенов и позволяет гибко управлять режимом рассушений через параметр "reasoning_enabled". Она демонстрирует производительность уровня DeepSeek-R1, но работает быстрее, идеально подходя для программирования, исследований и агентных workflow.

* **Gemma 3**

Основная особенность этой модели в том, что она поддерживает картинки. Вы можете использовать её как OCR: модель неожиданно хорошо распознаёт даже рукописный текст на русском. Кроме этого, модель распознаёт и классифицирует объекты на фотографиях; может распознавать и переводить надписи.

* **Qwen 3 32B**

Основная модель, с которой мы рекомендуем начинать эксперименты. Поддерживает нативный вызов инструментов.
Может работать как в режиме:
  1. с рассуждениями (включен по умолчанию)
  2. без рассуждений (нужно передать в запросе /no_think).


# Ликбез

## Что такое LLM

Представьте, что у вас есть программа, которая прочитала миллионы книг, статей и страниц из интернета, а потом научилась предсказывать, какие слова могут идти друг за другом в любом тексте. Примерно так устроена большая языковая модель, или LLM (Large Language Model).

LLM — это просто большая куча матриц и векторной алгебры, которая обучается на огромном количестве текстов. В процессе обучения модель не просто запоминает информацию, а учится находить связи между словами, понимать закономерности языка и генерировать осмысленные ответы на самые разные вопросы. Когда вы задаёте LLM вопрос, она «вспоминает» подходящие по смыслу фразы и пытается предугадать, какие слова должны идти дальше, чтобы ответ звучал логично и понятно.

### Как LLM формирует ответы
Когда вы отправляете запрос, LLM делает следующее:

- **Читает ваш текст** и превращает его в последовательности чисел (векторов).
- **Находит связи** между вашим запросом и миллиардами других примеров, которые она изучила раньше. В весах модели, которые хранятся в виде таких же векторов, эти знания представлены в виде статистических связей, а не в виде исходного текста.
- **Предсказывает наиболее вероятные слова** или фразы, которые подходят для продолжения вашего текста.
- **Формирует ответ** по слову за раз, следуя наиболее логичной последовательности, исходя из своего опыта и изученных примеров.

Важно отметить, что все ответы LLM вероятностные, т. е. на один и тот же вопрос модель всегда будет отвечать немного по-разному. Именно поэтому ответы LLM могут выглядеть очень разумными и логичными, но при этом модель может допускать ошибки — она не всегда «понимает» информацию так, как это сделал бы человек.

### Ограничения LLM 
Несмотря на впечатляющие возможности, у LLM есть важные ограничения:

- Ограниченный контекст:

Модель может учитывать только ограниченный объём текста одновременно (например, несколько страниц). Всё, что выходит за рамки этого объёма, модель уже не «помнит». Именно поэтому очень длинные запросы могут привести к потере важных деталей или неточностям.

- Отсутствие долгосрочной памяти:

LLM не запоминает предыдущие разговоры и даже предыдущие реплики. Каждая реплика LLM формируется только на основе одного запроса, поданного ей на вход. «Диалоги», которые мы ведём с LLM — это, на самом деле, эмуляция. Для того, чтобы получить следующую реплику от LLM, наш UI собирает вместе всю накопленную историю диалога и подаёт её на вход LLM. Именно поэтому контекст LLM расходуется по мере ведения диалога: с каждой новой репликой объём накопленной истории растёт, и в нём остаётся всё меньше места для новых реплик.

- Knowledge cutoff (ограничение знаний по времени):

LLM обучается на данных, собранных до определённой даты (например, октябрь 2023 года). Всё, что произошло после этой даты, модель не знает и не может учитывать. Поэтому она не может отвечать на вопросы о текущих событиях и последних новостях без дополнительных источников.

- Отсутствие истинного понимания:

Хотя ответы LLM могут звучать уверенно и убедительно, модель не обладает сознанием, жизненным опытом или настоящим пониманием мира. Она только имитирует понимание, основываясь на статистике и шаблонах, выученных из огромного массива текста.

- Галлюцинации:

Иногда LLM может генерировать правдоподобно звучащую, но неверную информацию. Это происходит потому, что модель конструирует ответ на основе вероятностей, а не проверяет факты в реальном времени. В обучающей выборке могло быть мало данных о какой-то узкой области знаний, и LLM пытается «придумать» наиболее вероятный ответ. Например, если мы будем спрашивать модель без дополнительных баз знаний про билайн, она сможет выдать только очень базовую публичную информацию, но ничего не скажет о внутренних регламентах или о том, кто сейчас генеральный директор.

- Модели не умеют считать:

LLM просто предсказывают следующий токен на основании всех предыдущих, и это значит, что модель не может выполнять математические операции в их традиционном понимании. Если вы попросите модель сложить 2 + 2, она, скорее всего, выдаст вам правильный ответ, но не потому что она произвела арифметическое действие, а потому что видела ответ в обучающих данных. Более того, «рассуждающие» модели могут сгенерировать правдоподобное арифметическое объяснение для полученного результата, но исследования показывают, что результирующее число модель получает с помощью неточных веростностных операций, а «правильное» объяснение генерирует только потому что именно такие ответы успешно проходили проверку на этапе обучения. Таким образом, если вы хотите делать точный анализ числовых данных, вы не должны рассчитывать только на саму LLM. Правильный способ решения этой задачи — позволить модели сгенерировать код на Python или JavaScript, выполнить этот код в интерпретаторе, передать результат выполнения в LLM и дать ей сформировать финальный ответ.

LLM — это, в первую очередь, программа для вероятностной обработки текста. Она может находить закономерности в больших объёмах данных, может генерировать тексты и изображения. Но сами по себе LLM не являются заменой специализированным системам: CRM, и, тем более, BI-движкам. Для решения аналитических задач вокруг LLM должны быть построены дополнительные возможности и обвязки: базы знаний, интеграции с внешними системами, интерпретаторы кода.


#### Схема работы LLM с базой знаний