Пост @AIguide — Искусственный интеллект

16 часов назад2.9K

Продолжение предыдущего поста - “Как нейросети создают сайты: сравнительный тест на Ypage” - 3 Часть.

Сравнение моделей: кто как работает

Anthropic (Claude)

Claude Sonnet 4.6
Плюсы: Лучшее качество в тесте; богатый дизайн, детальная вёрстка
Минусы: Дороже среднего (72,40 ₽)

Claude Opus 4.8
Плюсы: Глубокий контент, продуманная структура
Минусы: Самый дорогой (89,50 ₽); артефакт "Новая страница" в HTML

Claude стабильно выдаёт полноценные лендинги. Sonnet - лучший результат в тесте, Opus дороже, но не безупречен.

OpenAI (GPT)

GPT-5.4
Плюсы: Хороший контент, meta-теги, современный дизайн
Минусы: Мелкий косяк в блоке цен

GPT-5.3 Codex
Плюсы: Быстрее и дешевле GPT-5.4; чистый результат
Минусы: Чуть проще визуально

OpenAI-модели надёжны: оба сайта созданы без сбоев. Codex - оптимальный выбор по цене и скорости в этой паре.

Google (Gemini)

Gemini 3.5 Flash
Результат: Сбой - сайт не создан

Gemini 2.5 Flash Lite
Результат: Сбой - сайт не создан

Единственные полные провалы теста. Обе модели не прошли даже начальную генерацию - на опубликованных URL остались пустые заготовки.

Qwen

Qwen 3.7 Max
Плюсы: Хороший результат за 25,70 ₽

Qwen 3.5 Flash
Плюсы: Самый дешёвый (9,00 ₽), самый быстрый (1м 26с)
Минусы: Шаблонный дизайн, артефакт в HTML

Qwen 3.7 Max - сильный бюджетный вариант. Flash-версия экономит, но качество заметно ниже.

DeepSeek V4 Pro

Один из лучших результатов за 24,30 ₽. Дольше всех генерировал (почти 6 минут), зато выдал профессиональный лендинг без ошибок.

StepFun Step 3.7 Flash

10,90 ₽ за полноценный сайт - отличное соотношение цена/результат. Быстро заменил провалившийся Gemini на той же нише.

Z-AI GLM-5.1

Хорошая структура и контент за 24,20 ₽, но слабое место - подбор изображений в блоке команды.

Сводная таблица качества

Салон красоты - Claude Sonnet 4.6
Вёрстка: ★★★★★ | Контент: ★★★★★ | Итог: Отлично

Доставка еды - DeepSeek V4 Pro
Вёрстка: ★★★★☆ | Контент: ★★★★★ | Итог: Отлично

Кофейня - Qwen 3.7 Max
Вёрстка: ★★★★☆ | Контент: ★★★★☆ | Итог: Хорошо

Агентство недвижимости - StepFun 3.7 Flash
Вёрстка: ★★★★☆ | Контент: ★★★★☆ | Итог: Хорошо

Курсы (Codex) - GPT-5.3 Codex
Вёрстка: ★★★★☆ | Контент: ★★★★☆ | Итог: Хорошо

Юридические услуги - GLM-5.1
Вёрстка: ★★★☆☆ | Контент: ★★★★☆ | Итог: Нормально

Курсы (GPT-5.4) - GPT-5.4
Вёрстка: ★★★☆☆ | Контент: ★★★★★ | Итог: Нормально

Ветеринарная клиника - Claude Opus 4.8
Вёрстка: ★★★★☆ | Контент: ★★★★★ | Итог: Нормально

Фитнес-клуб - Qwen 3.5 Flash
Вёрстка: ★★☆☆☆ | Контент: ★★★☆☆ | Итог: Слабо

Салон красоты - Gemini 2.5 Flash Lite
Итог: Сбой

Агентство недвижимости - Gemini 3.5 Flash
Итог: Сбой

Выводы

1. Большинство моделей справляются с простым ТЗ.
9 из 11 проектов дали рабочий лендинг с одного запроса. Это уже рабочий инструмент, а не эксперимент.

2. Стабильность важнее цены.
Gemini Flash-версии не создали сайт вообще. При выборе модели лучше ориентироваться на проверенные варианты (Claude, GPT, DeepSeek), а не на самые дешёвые.

3. Дешёвые модели экономят, но проигрывают в дизайне.
Qwen 3.5 Flash стоил 9 ₽, но лендинг выглядит как шаблон Bootstrap. Qwen 3.7 Max за 25,70 ₽ уже на другом уровне.

4. Дорогие модели не гарантируют идеал.
Claude Opus - самый дорогой (89,50 ₽), но оставил технический мусор в HTML. GPT-5.4 дал лучший контент, но с мелким косяком в вёрстке.

5. Типичные ошибки нейросетей при генерации сайтов:

артефакты платформы ("Новая страница") в итоговом HTML;
нерелевантные или повторяющиеся изображения;
визуальные недочёты (смещение карточек, неровные блоки);
шаблонный дизайн у budget-моделей;
полный сбой генерации (Gemini).

6. Лучшие по соотношению цена / качество в этом тесте:
DeepSeek V4 Pro, StepFun 3.7 Flash, Qwen 3.7 Max

Лучший по качеству: Claude Sonnet 4.6

Сколько стоит сайт "в реальной жизни"

Все лендинги из этого теста созданы без дополнительных правок - по одному запросу в чат. Средняя стоимость такого "сырого" результата - около 35 ₽ и 3 минут генерации.

На практике почти всегда нужны доработки: поправить текст, заменить картинку, выровнять блок, убрать артефакт. В этом тесте минимальные правки потребовались только у двух сайтов.