Pull to refresh
34
0.2
Филатов Антон @positroid

Web-архитектор

Send message

Так в исходном комментарии речь про вопросы на собеседовании. Если в рамках собеседования в решении задач "сомневаться не надо" - чем принципиально отличаются вопросы по архитектуре?

А по саксесс стори - я не уверен что "правильная" архитектура, которая не приведет к проблемам через полгода / годы вообще существует в условиях изменчивости продуктов, особенно если вы упоминаете фаундеров (стартапы?).

Я использую английский, потому что мне нужна была английская версия этой пирамиды.

Если вы не владеете английским на уровне носителя - эффективнее общаться на своем языке, автопереводы запросов и ответов менее эффективны. Получить результат на любом языке можно просто попросив отдать результат на нужном языке.

Спустя ~25 промтов и час работы, получаем финальную версию, которая похожа на то, что нам было нужно.

А теперь перечитайте ваши первые промпты и подумайте - реально ли по ним было понять, что вам нужно именно то, что получилось в итоге?

У Яндекса, Сбера и прочих компаний внутри страны есть еще большие ограничения по железу, которые вряд ли позволят конкурировать на рынке собственных моделей. С другой стороны, в Европе таких ограничений нет, но нет и топ моделей (ну кроме нишевых для определенных языков Mistral).

если завтра компании перестанут делиться решениями

Очень надеюсь, что здесь тренд развернется, Альтман анонсировал к лету релизнуть модель в опенсорс уровня o3-mini, что у них происходит внутри с исследованиями - действительно непонятно.

Если вы про OpenAI - это суммаризация настоящих рассуждений. Все остальные упомянутые модели отдают рассуждения без изменений в исходном виде.

вы плохо понимаете, что такое модультимодальные модели на уровне нейробиологии

Здесь вы, конечно, правы, совсем не моя сфера.

в основе все та же LLM, в которую распознается речь и подается текст и синтезируется обратно

Здесь нет - 4o выпускалась и анонсировалась как мультимодальная модель. Да, через ChatGPT мультимодальности почти не видно, картинкам её подвезли меньше месяца назад, голос в чате - до сих пор через конвертацию.

Advanced voice mode - мультимодальный, но есть только в приложении с конца февраля. Скорее всего вы не следите за обновлениями продуктов OpenAI и вероятно не в курсе.

Допускаю, что можно врать в анонсах про мультимодальность - но вывести работу с картинками на текущий уровень через конвертацию в текст - нет.

Насчет Alphabet - у меня нет никаких аргументов ни в пользу ни против, но они плохо умеют в PR, увы. Тот же выход Gemini 2.0 Flash Experimental с мультимодальной генерацией незаслуженно остался без внимания, пусть качество генераций хуже обновленного 4o - он хорош и релизнулся раньше. Кто в конечном итоге будет двигать прогресс - DeepMind, OpenAI или новая noname компания - стороннему наблюдателю (мне) неважно, главное чтобы был прогресс.

А история, особенно недавняя и IT'шная, помнит огромное количество быстрого замещения компаний, который в моменте являлись безусловными монополистами рынка.

у них сильные нейробиологи

Это же не константа, опытные кадры всегда мигрируют между компаниями или создают свои. Взять авторов гугловской статьи "All you need is attention", положившей начало буму трансформеров. Только один остался в гугле и руководит Gemini, один в OpenAI, один в Antrophic, у остальных свои стартапы или компании.

О каких закрытых фундаментальных исследованиях может идти речь? Да и научная сфера не настолько закрытая, шеринг знаний и статьями и на конференциях присутствует.

Даже их отдельные голосовые и генерации картинок и текста, это разные по сути модели.

Так было во времена DALLE-3 в качестве генератора, генерация картинок мультимодальна в 4o с недавнего времени. Синтез и распознавание речи - тоже, еще раньше релизили live-режим общения с трансляцией видео с камеры.

Да, без фундаментальных исследований далеко не продвинуться, но не стоит делать DeepMind здесь фаворитом только на основании их долгого опыта и имеющихся заслуг, не все открытия делают профессора.

какие подходы он использовал бы во время решения этой задачи, опрашивать про то как бы он поступил в той или иной ситуации связанной с командой, какую архитектуру бы построил для проекта

А в чем кардинальное отличие этих вопросов от прикладных? Та же нейронка и архитектуру придумает и что делать в конфликтной ситуации напишет и все остальное.

Увы, нет времени попробовать все, знаю поверхностно только из обзоров и статей. Кардинальных различий нет, и то и то форк VS кода, у обоих есть агентский режим работы ллмок, mcp и вот это все. Интерфейс и UX немного отличается, вроде windsurf попроще, cursor пофункциональнее, но меняется все настолько часто, что обзоры месячной давности уже не актуальны.

наглой рекламе ТГ

Наглая реклама выглядит совсем иначе) Упоминания каналов узаконены, если они не преследуют коммерческих целей (а ля купить подписку можете у меня в ТГ, как было в недавних постах).

Php / symfony. После ревью и тестов да, доходит

это было около года назад

Тогда мы про разное, вы про автодополнение в коде / подсказки в чате, я - про агентский режим работы и выполнения задач. Этот режим появился только в конце прошлой осени.

А вы пробовали осознанное управление контекстом для максимальной точности, и сравнивали результаты?

Пробовал до Cursor, долго и муторно, а результаты те же, если не хуже.

Возвращаться к этому не вижу смысла, мои задачи вполне решаются сразу, основной вопрос только в формулировании понятных требований. Из-за контекста проблемы если и возникают, то крайне редко (опять же если речь про Sonnet 3.7 или GPT-4.1, 4o ленив сам по себе, сколько контекста ему не давай).

Вы пропустили самое забавное)

У меня нет пальцев и травма от заглушек. НИКОГДА не используй заглушки и не опускай код.

А в целом промпт авторства Дениса Ширяева, это компиляция всех известных хаков на момент его формирования (кажется, тогда 4o только вышла еще). Часть уже устарела и современные ллм и без них справляются

Я пока не доверяю подбор контекста инструментам вроде Cursor 

А вы пробовали? По полугодовому опыту использования могу сказать что такой проблемы нет.

С одной стороны, ручное управление контекстом может казаться архаичным. С другой — именно оно дает больше контроля

Несомненно, это так, но с третьей стороны - ручной сбор всего нужного контекста и написание подробнейшего ТЗ для чата - это просто максимум рутины, отобьет любое желание этим заниматься, особенно при невысоких результатах. К тому же придется потом в обратную сторону из чата переносить изменения в проект - а если это не 1 сплошной файл, а 10 файлов с небольшими изменениями в разных местах?

Тем более что вместо этой рутины задачу за то же время можно и самому сделать, преимущества Cursor в том, что рутиной становится только ревью сгенерированного кода и слежение за процессом, чтобы ллм не увело в сторону.

Это IDE такие для того, чтобы дать llm проект в качестве контекста?

Это очень небольшая часть этих IDE, если очень кратко - то они обеспечивают поиск и сбор релевантного контекста, цикличный вызов ллм для решения задачи и применение ответов ллм непосредственно к проекту - т.е. на выходе вы получаете не код в чате, а внесенные правки непосредственно в проект.

В таком сценарии этим удобно будет пользоваться?

Нет, потому что вам вручную придется собирать весь контекст для решения задачи и потом также вручную переносить код из чата в проект. В качестве альтернативы можно подождать, пока эти возможности не допилят в ваших IDE, но по опыту что JetBrains, что Microsoft с этим сильно отстают.

Еще вариант - продолжать кодить в своих IDE, но к ИИ обращаться через AI-powered IDE, открытом на базе того же проекта.

Так и не удалось чего-то другого добиться

Попробуйте этот промпт подавать на вход в начале чата до своей задачи - там есть ряд хаков, которые помогают от ленивости модели. В идеале - попробуйте найти возможность пообщаться конкретно с GPT-4.1 или Sonnet 3.7 - это лучшие модели для кодинга сейчас, они слушаются инструкций гораздо лучше чем 4o, он достаточно ленив, в этом вы правы.

Ну и не забывайте, что ллм нужен контекст для решения задачи, если перечитать ваши просьбы к ЛЛМ и представить что вы ничего не знаете про свой проект - у вас бы получилось понять что нужно и как именно написать внутреннюю реализацию (если да - ок)?

Конкретно с ASP.NET не работал, возможно там навыки моделей чуть хуже, но в рамках Cursor и 4.1 или Sonnet 3.7 на PHP с одного промпта (промпт для Cursor - это до 25 вызовов агентов) получить 1000+ строк работающего кода (DTO, Entity, репозитории, сервисы, контроллеры) в 10+ файлах - норма.

Ну нет, обычные бизнесовые задачи по перекладываю json или внедрению локальной (для кодовой базы) фичи тоже успешно решаются без тз на уровне системного аналитика.

Я больше про то, что для успешного выполнения задача должна быть: а - конкретной и б - локализованной в коде, пусть для изучения агенту нужно будет прочитать несколько десятков файлов, но изменения должны вноситься в идеале в небольшое их количество (даже до 10 файлов - справляется). И так для каждой итерации.

Ну и хотя бы верхнеуровневое описание структуры проекта и кодовой базы - маст хэв.

Спасибо. Каюсь, пытался узнать эту информацию у 4o, но он меня уверил, что это невозможно и кешируется ответ на конкретный промпт)

Для задачи перевода я бы все же скользящее окно с суммаризацией использовал, возможно словарем имён собственных, чтобы не получить разные вариации "Думбльдоров" в разных местах. В остальном кажется что подавать весь оригинал на вход проще, но не оптимальнее.

Если правильно понимаю - это будет все же какой-то из вариантов квантования (т.е. сжатая модель, качество на единицы процентов хуже чем у оригинальной - точно не знаю, но на lmarena модели должны быть полноценные, на какое место встанет V3 в INT4 неизвестно).

Но в остальном да, запустить инференс можно и на оперативке без GPU, вопрос только зачем) Все фронтир модели вполне доступны если не бесплатно, то за весьма гуманный прайс.

Вижу приемлемыми только кейсы с конфиденциальностью данных / офлайн работой или тюнингом под свои задачи.

Инструментария полно, но вот завернутого в конкретно нужный вам продукт - придется поискать. Базово можно скормить фото тому же 4o в ChatGPT (в том числе бесплатному) и попросить что хотите - соответствие будет не 100%, но все же достаточно близко из-за его мультимодальности

Для "нормальной" - топ модель из опенсорсных - DeepSeek-V3-0324, делит 1 место в проприетарными моделями по кодингу - Минимум: 2× NVIDIA A100 80GB, или 4× RTX 3090/4090 (24GB). Т.е. ноутбук - никакой, да и обычный ПК с большой натяжкой, вам нужен сервер. Это будет примерно уровень 4o.

Из менее требовательного - Llama-4-Maverick-17B-128E-Instruct, она на 18 месте на lmarena и требует 1× NVIDIA A100 80GB или 2× RTX 3090/4090 (по 24 GB). Здесь уровень модели примерно GPT-4.

Что-то еще менее требовательное - только для решения простеньких задач либо дообучение на какой-то свой набор типовых.

Information

Rating
1,574-th
Location
Липецк, Липецкая обл., Россия
Date of birth
Registered
Activity

Specialization

Backend Developer, Software Architect
Lead
PHP
Symfony
Elasticsearch
CMS «1С-Bitrix»