Всем привет!
Немного мыслей по AI чатам.
Существует достаточно много open source моделей - LLama от запрещенной Meta, Mistral, DeepSeek, Grok 1 от Twitter. Если говорить про предыдущие, не самые мощные версии моделей - есть Gemma от Google, специализированные модели от OpenAI. Это хорошо, так как дает возможность подключения к разработке моделей команд, не имеющих большого числа GPU. Дообучение моделей (fine tuning) дешевле первичного обучения. Запуск обученной модели - тоже. Плюс open source - это гарантия, что к AI будет доступ даже если конкретный сервис по тем или иным причинам закроется. И Мета выделяется тем, что отдала в open source последнюю тяжелую (большое число параметров) версию модели.
Второй момент: в тестах и в новостях сравниваются модели общего назначения и специализированные. Общего назначения - ChatGPT, Claude, Gemini, Llama, Grok, DeepSeek, Mistral, YandexGPT. Специализированные, на примере разработки - DeepSeek-Coder-V2, Codestral, CodeLlama, Phind, GigaCode. Можно сделать вывод, что модели последнего поколения достаточно мощные, чтобы хорошо справляться со специализированными задачами. Но любую модель можно подтюнить, и тогда она или превзойдет модель общего назначения или будет сравнима с ней требуя меньше железа.
Еще тренд - разделение моделей на легкие и тяжелые. Например, LLama 8b, 70b и 405b, это число параметров в billions. Т.е. большие модели - это дорого в облуживании, при этом во многих случаях применяются для "стрельбы из пушки по воробьям".