src/ai/ai-chat-llm.md

# Чат с LLM
## Обзор сервиса Чат с LLM

**Чат с LLM** — это интуитивно понятный интерфейс для общения с LLM (Large Language Model). Подходит для знакомства с моделями, а также для встраивания на любой сайт в виде виджета. Чат дает возможность выбирать различные LLM модели,  базы знаний и настраивать системные промпты под свои задачи.

**Интерфейс чата:**

![alt text](./image/Chat_AI_Main_1024.png)

В интерфейсе доступен следующий функционал:

1. **Выбор модели:**
По умолчанию используется модель Gemma 3. Для смены модели выберите подходящий вариант из выпадающего меню. 

Рекомендации по выбору модели доступны в разделе [Доступные модели](#ai-chat-llm-Дотупные-модели).

2. **Выбор базы знаний:**
Для генерации ответов не на базе своего раннего обучения, а на основе актуальных данных, необходимо выбрать нужную базу знаний из выпадающего меню. 

Более подробно, что такое "Базы знаний" в AI и как они работают, можно ознакомится в разделе [Базы знаний](#ai-chat-llm-База-знаний).

3. **Выбор системного промпта:**
Системный промпт представляет из себя набор инструкций, на которые опирается модель при подготовке ответа на запрос пользователя.

Подробно про промпты можно почитать тут: [Промпты](#ai-chat-llm-Промпты)

4. **Очистка контекста диалога:**
При длительном диалоге модель накапливает контекст и может начать генерировать неточные ответы ("галлюцинации"). Для предотвращения этого рекомендуется периодически очищать контекст сессии — нажмите иконку очистки в правом верхнем углу окна чата. 

Подробно про ограничения LLM можно почитать тут: [Ограничения LLM](#LLM)

5. **Диалог пользователя с чатом**
Диалог с чатом пользователь ведёт как в обычном чате в режиме вопрос-ответ.

Исходя из возможностей сервиса **Чат с LLM** пользовательский путь от авторизации к диалогу выглядит следующим образом:

![alt text](./image/UX_Path_1024.png)

## Быстрый старт - убрать

Для авторизации и начала работы с чатом необходимо выполнить следующие шаги:

1. **Подключение**: Перейдите по адресу `ai.beeline.ru`
2. **VPN/VDL**: Обязательно подключитесь через корпоративный VPN или VDL
3. **Авторизация**: Нажмите «Начать работу» или «Перейти в чат»
4. **MobileID**: Пройдите стандартную авторизацию через MobileID
5. **Начало работы**: После авторизации вы попадете в интерфейс чата

## Выбор LLM 

Следующим шагом надо выбрать одну из доступных моделей.

![alt text](./image/Chat_AI_Choice_LLM_1024.png)

По умолчанию установлена модель Gemma 3, но мы рекомендуем начинать эксперименты с модели Qwen 3 32B, которая имеет больший контекст, поддерживает нативный вызов инструментов, а также может работать как в режиме с рассуждениями (включен по умолчанию) или без них - в таком случае нужно передать в запросе "/no_think".
С списанием, какие модели доступны, а также, какие преимущества есть у каждой из моделей, можно ознакомиться в разделе [Доступные модели](#Доступные-модели).

## Доступные модели

В этом разделе мы ведём актуальный список моделей, которые доступны на платформе.

| Модель | Контекст | Параметры | Reasoning | Инструменты | Картинки |
|:-------|:-------|:-------|:-------|:-------|:-------|
| Deepseek-chat	| 131k | 671B	| ✅ | ✅ | ❌ |
| Gemma 3 | 128k	| 27B	| ❌	| ❌	| ✅ |
| Qwen 3 |  131k | 32B | ✅	|✅ |	❌|

::: details
<summary> Описание доступных моделей </summary>

* **DeepSeek Chat**

Обновление DeepSeek V3 — это мощная гибридная модель с 671 млрд параметров, специально оптимизированная для кодогенерации и работы поисковых агентов. Модель поддерживает контекст до 128 тыс. токенов и позволяет гибко управлять режимом рассушений через параметр "reasoning_enabled". Она демонстрирует производительность уровня DeepSeek-R1, но работает быстрее, идеально подходя для программирования, исследований и агентных workflow.

* **Gemma 3**

Основная особенность этой модели в том, что она поддерживает картинки. Вы можете использовать её как OCR: модель неожиданно хорошо распознаёт даже рукописный текст на русском. Кроме этого, модель распознаёт и классифицирует объекты на фотографиях; может распознавать и переводить надписи.

* **Qwen 3 32B**

Основная модель, с которой мы рекомендуем начинать эксперименты. Поддерживает нативный вызов инструментов.
Может работать как в режиме:
  1. с рассуждениями (включен по умолчанию)
  2. без рассуждений (нужно передать в запросе /no_think).

:::

#### После выбора модели можно начинать диалог с чатом. Для этого необходимо просто писать свой запрос в окно диалога и дожидаться ответа.

# Ликбез

## Что такое LLM
Представьте, что у вас есть программа, которая прочитала миллионы книг, статей и страниц из интернета, а потом научилась предсказывать, какие слова могут идти друг за другом в любом тексте. Примерно так устроена большая языковая модель, или LLM (Large Language Model).

**LLM** — это просто большая куча матриц и векторной алгебры, которая обучается на огромном количестве текстов. В процессе обучения модель не просто запоминает информацию, а учится находить связи между словами, понимать закономерности языка и генерировать осмысленные ответы на самые разные вопросы. Когда вы задаёте LLM вопрос, она «вспоминает» подходящие по смыслу фразы и пытается предугадать, какие слова должны идти дальше, чтобы ответ звучал логично и понятно.

### Как LLM формирует ответы
Когда вы отправляете запрос, LLM делает следующее:

- **Читает ваш текст** и превращает его в последовательности чисел (векторов).
- **Находит связи** между вашим запросом и миллиардами других примеров, которые она изучила раньше. В весах модели, которые хранятся в виде таких же векторов, эти знания представлены в виде статистических связей, а не в виде исходного текста.
- **Предсказывает наиболее вероятные слова** или фразы, которые подходят для продолжения вашего текста.
- **Формирует ответ** по слову за раз, следуя наиболее логичной последовательности, исходя из своего опыта и изученных примеров.

Важно отметить, что все ответы LLM вероятностные, т. е. на один и тот же вопрос модель всегда будет отвечать немного по-разному. Именно поэтому ответы LLM могут выглядеть очень разумными и логичными, но при этом модель может допускать ошибки — она не всегда «понимает» информацию так, как это сделал бы человек.

### Ограничения LLM 
Языковые модели обладают рядом принципиальных ограничений, которые важно учитывать при работе с ними:

- **Ограниченный контекст** — модель одновременно обрабатывает только определенный объем текста (обычно несколько тысяч слов). При превышении этого лимита ранние части диалога "забываются", что приводит к потере контекста в продолжительных беседах.

- **Отсутствие долговременной памяти** — модель не запоминает предыдущие разговоры. Каждый новый запрос обрабатывается изолированно, а поддержание диалога требует постоянной пересылки всей истории.

- **Временное ограничение знаний** — обучение модели завершено на определенную дату (например, октябрь 2023 года). События и информация после этой даты модели неизвестны без дополнительных источников.

- **Вероятностная природа** — модель не обладает сознанием или реальным пониманием мира. Она генерирует ответы на основе статистических закономерностей, выученных из обучающих данных.

- **Склонность к галлюцинациям** — модель может генерировать правдоподобную, но фактически неверную информацию, особенно в узкоспециализированных темах или при недостатке релевантных данных.

- **Неспособность к точным вычислениям** — модель не выполняет математические операции, а предсказывает наиболее вероятный ответ. Для точных расчетов рекомендуется использовать связку "генерация кода → выполнение в интерпретаторе → анализ результата".

LLM эффективны для обработки текста и решения стандартных задач, но для сложных кейсов требуют дополнительной инфраструктуры — баз знаний, интеграций с внешними системами и инструментов выполнения кода.


### Схема работы LLM с базой знаний

![alt text](./image/Sh_LLM_RAG_1024.png)
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
+								# Чат с LLM
 								## Обзор сервиса Чат с LLM
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								**Чат с LLM** — это интуитивно понятный интерфейс для общения с LLM (Large Language Model). Подходит для знакомства с моделями, а также для встраивания на любой сайт в виде виджета. Чат дает возможность выбирать различные LLM модели,  базы знаний и настраивать системные промпты под свои задачи.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 								**Интерфейс чата:**
-											Описание чата и настройка чата
										
										
											2025-11-06 17:20:22 +03:00
+								![alt text](./image/Chat_AI_Main_1024.png)
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 								В интерфейсе доступен следующий функционал:
 . **Выбор модели:**
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								По умолчанию используется модель Gemma 3. Для смены модели выберите подходящий вариант из выпадающего меню.
 								Рекомендации по выбору модели доступны в разделе [Доступные модели](#ai-chat-llm-Дотупные-модели).
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 . **Выбор базы знаний:**
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								Для генерации ответов не на базе своего раннего обучения, а на основе актуальных данных, необходимо выбрать нужную базу знаний из выпадающего меню.
 								Более подробно, что такое "Базы знаний" в AI и как они работают, можно ознакомится в разделе [Базы знаний](#ai-chat-llm-База-знаний).
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 . **Выбор системного промпта:**
 								Системный промпт представляет из себя набор инструкций, на которые опирается модель при подготовке ответа на запрос пользователя.
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
 								Подробно про промпты можно почитать тут: [Промпты](#ai-chat-llm-Промпты)
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 . **Очистка контекста диалога:**
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								При длительном диалоге модель накапливает контекст и может начать генерировать неточные ответы ("галлюцинации"). Для предотвращения этого рекомендуется периодически очищать контекст сессии — нажмите иконку очистки в правом верхнем углу окна чата.
 								Подробно про ограничения LLM можно почитать тут: [Ограничения LLM](#LLM)
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 . **Диалог пользователя с чатом**
 								Диалог с чатом пользователь ведёт как в обычном чате в режиме вопрос-ответ.
 								Исходя из возможностей сервиса **Чат с LLM** пользовательский путь от авторизации к диалогу выглядит следующим образом:
-											Описание чата и настройка чата
										
										
											2025-11-06 17:20:22 +03:00
+								![alt text](./image/UX_Path_1024.png)
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Добавление навигации
										
										
											2025-11-20 11:59:44 +06:00
+								## Быстрый старт - убрать
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								Для авторизации и начала работы с чатом необходимо выполнить следующие шаги:
 . **Подключение**: Перейдите по адресу `ai.beeline.ru`
 . **VPN/VDL**: Обязательно подключитесь через корпоративный VPN или VDL
 . **Авторизация**: Нажмите «Начать работу» или «Перейти в чат»
 . **MobileID**: Пройдите стандартную авторизацию через MobileID
 . **Начало работы**: После авторизации вы попадете в интерфейс чата
 								## Выбор LLM
 								Следующим шагом надо выбрать одну из доступных моделей.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Описание чата и настройка чата
										
										
											2025-11-06 17:20:22 +03:00
+								![alt text](./image/Chat_AI_Choice_LLM_1024.png)
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 								По умолчанию установлена модель Gemma 3, но мы рекомендуем начинать эксперименты с модели Qwen 3 32B, которая имеет больший контекст, поддерживает нативный вызов инструментов, а также может работать как в режиме с рассуждениями (включен по умолчанию) или без них - в таком случае нужно передать в запросе "/no_think".
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								С списанием, какие модели доступны, а также, какие преимущества есть у каждой из моделей, можно ознакомиться в разделе [Доступные модели](#Доступные-модели).
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 								## Доступные модели
 								В этом разделе мы ведём актуальный список моделей, которые доступны на платформе.
 								| Модель | Контекст | Параметры | Reasoning | Инструменты | Картинки |
 								|:-------|:-------|:-------|:-------|:-------|:-------|
 								| Deepseek-chat	| 131k | 671B	| ✅ | ✅ | ❌ |
 								| Gemma 3 | 128k	| 27B	| ❌	| ❌	| ✅ |
 								| Qwen 3 |  131k | 32B | ✅	|✅ |	❌|
-											Добавление навигации
										
										
											2025-11-20 11:59:44 +06:00
+								::: details
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								<summary> Описание доступных моделей </summary>
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
+								* **DeepSeek Chat**
 								Обновление DeepSeek V3 — это мощная гибридная модель с 671 млрд параметров, специально оптимизированная для кодогенерации и работы поисковых агентов. Модель поддерживает контекст до 128 тыс. токенов и позволяет гибко управлять режимом рассушений через параметр "reasoning_enabled". Она демонстрирует производительность уровня DeepSeek-R1, но работает быстрее, идеально подходя для программирования, исследований и агентных workflow.
 								* **Gemma 3**
 								Основная особенность этой модели в том, что она поддерживает картинки. Вы можете использовать её как OCR: модель неожиданно хорошо распознаёт даже рукописный текст на русском. Кроме этого, модель распознаёт и классифицирует объекты на фотографиях; может распознавать и переводить надписи.
 								* **Qwen 3 32B**
 								Основная модель, с которой мы рекомендуем начинать эксперименты. Поддерживает нативный вызов инструментов.
 								Может работать как в режиме:
 . с рассуждениями (включен по умолчанию)
 . без рассуждений (нужно передать в запросе /no_think).
-											Добавление навигации
										
										
											2025-11-20 11:59:44 +06:00
+								:::
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								#### После выбора модели можно начинать диалог с чатом. Для этого необходимо просто писать свой запрос в окно диалога и дожидаться ответа.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 								# Ликбез
 								## Что такое LLM
 								Представьте, что у вас есть программа, которая прочитала миллионы книг, статей и страниц из интернета, а потом научилась предсказывать, какие слова могут идти друг за другом в любом тексте. Примерно так устроена большая языковая модель, или LLM (Large Language Model).
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								**LLM** — это просто большая куча матриц и векторной алгебры, которая обучается на огромном количестве текстов. В процессе обучения модель не просто запоминает информацию, а учится находить связи между словами, понимать закономерности языка и генерировать осмысленные ответы на самые разные вопросы. Когда вы задаёте LLM вопрос, она «вспоминает» подходящие по смыслу фразы и пытается предугадать, какие слова должны идти дальше, чтобы ответ звучал логично и понятно.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
 								### Как LLM формирует ответы
 								Когда вы отправляете запрос, LLM делает следующее:
 								- **Читает ваш текст** и превращает его в последовательности чисел (векторов).
 								- **Находит связи** между вашим запросом и миллиардами других примеров, которые она изучила раньше. В весах модели, которые хранятся в виде таких же векторов, эти знания представлены в виде статистических связей, а не в виде исходного текста.
 								- **Предсказывает наиболее вероятные слова** или фразы, которые подходят для продолжения вашего текста.
 								- **Формирует ответ** по слову за раз, следуя наиболее логичной последовательности, исходя из своего опыта и изученных примеров.
 								Важно отметить, что все ответы LLM вероятностные, т. е. на один и тот же вопрос модель всегда будет отвечать немного по-разному. Именно поэтому ответы LLM могут выглядеть очень разумными и логичными, но при этом модель может допускать ошибки — она не всегда «понимает» информацию так, как это сделал бы человек.
 								### Ограничения LLM
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								Языковые модели обладают рядом принципиальных ограничений, которые важно учитывать при работе с ними:
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								- **Ограниченный контекст** — модель одновременно обрабатывает только определенный объем текста (обычно несколько тысяч слов). При превышении этого лимита ранние части диалога "забываются", что приводит к потере контекста в продолжительных беседах.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								- **Отсутствие долговременной памяти** — модель не запоминает предыдущие разговоры. Каждый новый запрос обрабатывается изолированно, а поддержание диалога требует постоянной пересылки всей истории.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								- **Временное ограничение знаний** — обучение модели завершено на определенную дату (например, октябрь 2023 года). События и информация после этой даты модели неизвестны без дополнительных источников.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								- **Вероятностная природа** — модель не обладает сознанием или реальным пониманием мира. Она генерирует ответы на основе статистических закономерностей, выученных из обучающих данных.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								- **Склонность к галлюцинациям** — модель может генерировать правдоподобную, но фактически неверную информацию, особенно в узкоспециализированных темах или при недостатке релевантных данных.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								- **Неспособность к точным вычислениям** — модель не выполняет математические операции, а предсказывает наиболее вероятный ответ. Для точных расчетов рекомендуется использовать связку "генерация кода → выполнение в интерпретаторе → анализ результата".
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								LLM эффективны для обработки текста и решения стандартных задач, но для сложных кейсов требуют дополнительной инфраструктуры — баз знаний, интеграций с внешними системами и инструментов выполнения кода.
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								### Схема работы LLM с базой знаний
-											Описание чата и настройки
										
										
											2025-11-06 16:51:16 +03:00
-											Внесение изменений в раздел Быстрый старт
										
										
											2025-11-12 15:55:12 +03:00
+								![alt text](./image/Sh_LLM_RAG_1024.png)