NagaevDen16 фев в 13:21

LLM модели: зарубежные VS отечественные

Средний

6 мин

9.9K

Искусственный интеллектМашинное обучение * IT-инфраструктура * Natural Language Processing * DevOps *

Обзор

-6

Комментарии 18

sushka0 16 фев в 13:46

Вы бы хоть прочитали перед тем как публиковать

Kamil_GR 16 фев в 13:52

YandexGPT 5.1 Pro (LangChain “практически да” через OpenAI-совместимость) — но по цене в твоём расчёте ≈ 186,23 ₽ / 1000 отзывов

onyxmaster 16 фев в 14:33

я бы выбирала его, когда важнее экосистема/политики/интеграции, чем цена

Денис, вы бы с полом персонажа, от чьего лица ведёте повествование определились бы...

Angel_of_Sorrow 16 фев в 14:48

Без перехода на личности конечно, но это статья от CTO компании(судя по профилю). Комментарии излишни как мне кажется.

FireHawk 20 фев в 07:16

Интересно, в чём заключается хитрый план по написанию дерьмовых статей и дикредитации себя как специалиста, и компанию заодно (потому что если там CTO такой, чего ждать от компании)?

achekalin 16 фев в 15:28

Вот что мне в российских LLM нравится - так это стабильность. Опускание цен, частые релизы, прорывы... ну, не слышали, но пообещаем в пресс-релизах.

FSmile 16 фев в 23:12

Неконкурентоспособно

drbond 17 фев в 02:02

Если российская команда выбирает LLM для продакшена и этот продакшен будет связан с пользовательскими данными, то ничего другого у команды, кроме российских LLM не остаётся. Если же команда не российская, то наверное она будет ориентироваться на законодательство своей страны в вопросах обработки ПДн.

ToniDoni 17 фев в 19:10

А почему? Ллмка не хранит данные.

А на обработку вроде согласия субъекта достаточно.

drbond 17 фев в 19:43

Вот три фундаментальные ошибки в аргументации «LLM не хранит, а согласия достаточно»:

Ошибка 1: «LLM не хранит данные»

Это опасное упрощение. Даже если сама модель не запоминает промпты навсегда, инфраструктура вокруг неё — почти наверняка хранит:

Логи и телеметрия: API-провайдеры (OpenAI, Anthropic, Google и др.) логируют запросы и ответы для мониторинга, отладки и борьбы со злоупотреблениями.
Улучшение моделей: Многие провайдеры по умолчанию используют пользовательские данные для дообучения моделей, если это явно не запрещено в настройках Enterprise-тарифа.
Кеширование и бэкапы: Данные могут временно или постоянно сохраняться на стороне провайдера.

Итог: Даже если вы не сохраняете данные у себя, их получает и обрабатывает третья сторона. С точки зрения закона, это не отменяет факта обработки.

Ошибка 2: «Согласия субъекта достаточно»

Нет, недостаточно. Ни в РФ (152-ФЗ), ни в ЕС (GDPR).

В контексте 152-ФЗ (Россия):

Локализация (ст. 18(5)): Первичный сбор и хранение персональных данных граждан РФ должны осуществляться на серверах, физически находящихся в России. Отправка данных в API иностранной LLM нарушает это требование, даже при наличии согласия.
Трансграничная передача: Если данные уходят за рубеж, это отдельный юридический процесс. Он требует либо наличия страны в «белом списке» Роскомнадзора, либо обеспечения адекватной защиты, либо выполнения ряда бюрократических процедур. Просто «получить галочку согласия» здесь не работает.
Комплекс мер: Закон также требует обеспечения безопасности (шифрование, доступы), уведомления Роскомнадзора, назначения ответственного и т.д.

Вывод: Согласие — это лишь одно из условий начала обработки, но оно не отменяет требования локализации и безопасности.

Ошибка 3: «Нет хранения = нет регулирования»

Законы о персональных данных регулируют обработку (processing), а не только хранение.

Определение: Обработка — это любое действие с данными: сбор, запись, передача, систематизация, использование, обезличивание, блокирование, удаление.
Транзит — это тоже обработка: Сам факт отправки промпта с персональными данными (например, «Пациент Иванов, диагноз...») на сервер в другую юрисдикцию уже является трансграничной передачей и подпадает под регулирование.

Почему для российской команды это критично?

Если российский сервис отправляет пользовательские данные (ФИО, телефоны, историю обращений) в API иностранной LLM:

Нарушается требование локализации баз данных.
Возникает неконтролируемая трансграничная передача.
Провайдер LLM может использовать эти данные для обучения, что делает невозможным выполнение требования об удалении данных по запросу пользователя («право на забвение»).

Резюме: Использование иностранных LLM для работы с персональными данными граждан РФ возможно только в обезличенном виде, либо через специальные шлюзы/прокси, обеспечивающие локализацию и юридическую чистоту передачи. В противном случае выбор действительно сводится к российским решениям или self-hosted моделям, развернутым внутри контура компании.

Надеюсь, теперь Вы видите разницу между «технически модель не запоминает» и «юридически мы передали данные третьей стороне». Безопасность и комплаенс — это про архитектуру целиком, а не только про веса модели.

ToniDoni 17 фев в 20:43

Ну это понятно, что нужна первичная локализация, плюс согласие, если страна не в белом списке там тоже есть процедура кажется, с уведомлением надзирающих органов и так далее, и если они разрешат, тогда можно использовать зарубежную ллмку, так ведь?

Использование иностранных LLM для работы с персональными данными граждан РФ возможно только в обезличенном виде

Ну нет же если Вы не спорите с тем, что законодательно предусмотрена процедура получение разрешения на трансграничную передачу.

ToniDoni 17 фев в 21:12

Логи и телеметрия

Ну об этом вообще говорите особого смысла нет потому что так то ПД и внутри РФ абы где хранить нельзя, и если эти логи с ПД абы где такие осели, то это уже залёт.

Neikist 22 фев в 18:57

Всегда есть вариант постить китайские sota модели с открытыми весами.

Dywar 17 фев в 06:07

ИИ ускорил человечество в генерации хлама

XRay108 17 фев в 16:00

Если вы сами не читаете свои статьи то почему мы должны их читать? Попросите хотя бы любую вашу llm побыть редактором сделать вычитку и привести статью к единому стилю

panshin91 17 фев в 19:32

Жаль кармы нет минус поставить, обычно если не нравится, то просто скипаю, но тут прям коробит, сам много общаюсь с LLM'ками, от того же ChatGPT уже тошнит.

"Если хочешь, напиши: бла-бла-бла, и я сделаю бла-бла-бла" (с) чатгпт

FireHawk 20 фев в 07:02

Сравнение отечественных LLM-моделей
...
GPT-5.2
...
DeepSeek

с каких пор GPT-5.2 или DeepSeek стали отечественными моделями?

FireHawk 20 фев в 07:19

А в ы тоже заметили, как на Хабре перестали появляться интересные статьи, потом почти изчезли хорошие статьи, а потом всё скатилось в дерьмо и нейрослоп?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий