Search
Write a publication
Pull to refresh
-5
0
Денис @Doman

QA

Send message

Интересная статья, спасибо.

Но сложилось впечатление, что на выходе получился не агент, а workflow. У Anthropic есть хорошая статья на эту тему.

Если агент видит как написаны соседние тесты, то он сможет разобраться и с PO, создавая новые тесты с его использованием.

Вряд ли каждый. Тут скорее про то, что анализ кадров проводится локально, что важно, т.к. размеченные кадры с нюдисами могут утечь из анализатора, плюс в таком флоу е2е шифрование ломается в отличие от локальных операций.

Главная проблема АЭС - неадекватно сильная зависимость от другой страны. Россия, Китай, а с недавних пор и США - не являются теми партнёрами, от которых хочется безальтернативно зависеть следующие 50 лет. Остаётся Франция, но у них самих сейчас проблема с качеством, компетенциями и топливом.

ВИЭ намного лучше диверсифицируются, можно держать парк генераторов от разных вендоров, и система все ещё будет оставаться надёжной (при правильном дизайне).

В наш неспокойный век (хотя какой из них был спокойным?), этот момент играет даже большую роль чем сиюминутная стоимость проекта.

Выглядит как недопонимание. Начальник изначально задал слишком высокую планку внедрения ИИ, а вы приняли диаметрально противоположную позицию. И теперь бодаетесь, вместо поиска компромисса.

Очевидно, что начальник видит проблему с медленным time to prod при текущем подходе. Не всегда подход "делаем или хорошо или ещё лучше" себя окупает. Иногда намного важнее быстро зарелизить MVP и захватить долю рынка, чем прийти с отличным решением когда все уже попилено. Или выпустить MVP как гипотезу, и посмотреть насколько востребовано и как пользуются, чтобы понять куда копать дальше. "Старая закалка" она же "ригидность" здесь только мешает. Могу сказать, что даже в банках для ряда фичей бизнес осознанно приоритезирует скорость над качеством, и нормально относится к негативным последствиям. Это новая реальность везде, кроме каких-то очень специфических продуктов (АЭС, Луноходы, медицина, но это не точно).

Также, при всех недостатках, AI невозможно игнорировать. LLM сделали огромный скачок за последние 3 года, а сейчас в него ещё и вложили все деньги мира. Вероятность ещё одного скачка весьма велика. Да даже и текущего уровня, при наличии нормального окружения, хватит чтобы ускорить целый ряд рутинных задач. И вашего менеджера наверняка напрягает, что "ригидный" техлид удерживает всю команду от получения продакшн опыта в очень перспективном направлении. И пока конкуренты (на самом деле почти все) активно осваивают AI, пусть даже как инвестицию, вы лишаете себя этого опыта. И если AI "выстрелит", то вся команда мгновенно устареет вместо плавной трансформации.

Наконец, внедрение AI это ещё одна сложная и интересная инженерная задача, и именно так у этой инициативе надо подходить. Понять какую проблему хочется решить (TtP), посмотреть на каких задачах можно применить сейчас, как адаптировать архитектуру под дальнейшее внедрение, какие новые метрики понадобятся для data driven решений, набросать с начальником роадмап и начинать постепенное внедрение. Ещё можно заранее посмотреть какие no-code/low-code решения есть на рынке помимо Loveable - может вам что-то больше понравится.

Конечно, воплотить такой подход в жизнь будет психологически тяжело, учитывая сколько усилий было потрачено на войну с AI. А тут, получается, назад надо сдать. Но, на мой взгляд, умение переосмыслить ситуацию, умение адаптироваться - это как раз и есть свойства хорошего инженера.

Вы сказали, что роботизация сборки увеличивает стоимость на порядки (без приведения каких либо доказательств). Вам аргументированно ответили с конкретным примером, что это совершенно не так.

Может, у вас есть надёжные данные про "на порядок"?

создает кривые изображения

Сделал отличную картину сам? Будут считать, что сгенерировал.

Значит, не такие уж и кривые изображения создаёт GenAI.

Насколько правильно платить бонус за рефералов? Если есть крутой спец, с которым хочется работать в любимой компании, то и так его позовешь (в тч в свою команду). А вот ради денег - выгоднее звать вообще всех, т.к. штрафа за неудачный найм нет. Можете привести примеры, когда сотрудник не хочет кого-то звать, но за деньги - да, и это выгодно компании?

Я бы тоже вынес голландцев отдельно, особенно что касается прямоты и вежливости. Любопытные могут почитать про "dutch directness". Все эти темы с "не обидеть" больше про США и Скандинавию, как мне кажется.

Спасибо большое что поделились опытом!

Кажется, что самый большой челенж во всей этой задаче - понять что вообще такое "похожие книги". По жанру? По атмосфере? По стилю? И ответ на этот вопрос влияет: а на что именно должен обращать внимание LLM-суммаризатор, мб не только на контент. А в случае с данными от правообладателей, возникает вопрос насколько аннотации консистентны друг с другом и можно ли их корректно сравнивать - разные авторы аннотаций/содержаний могут делать фокус на разных вещах. Запрос аннотаций от GPT4 тоже зависит от промпта и расставленных в нем акцентов.

Поэтому возникло сразу несколько вопросов:

  • У вас есть 3 источника данных для эмбеддингов (аннотация от автора, саммари от LLM, аннотация от GPT4). Какой из них даёт более качественный результат при использовании? Если оценивали раздельно, или есть возможность вытащить эти данные из общей оценки.

  • Я правильно понял, что эвалюация проводилась через месяц? То есть, выбор моделей, параметров, промптов осуществлялся скорее интуитивно? Или же был размеченный датасет, на котором вы ставили эксперименты, подбирая оптимальные переменные?

  • Как вы выбрали именно эти модели LLM (Qwen2.5) и эмбеддингов?

Можно взять относительно недорогой Quest 3S, к которому разные вендоры делают линзы практически на любые диоптрии (например).

"Детерминированная свобода" это оксюморон.

Я не согласен.

Во-первых, в источнике написано одно очень важное условие: "You must give it an approved prompt, nothing else", которое сводит на нет многие промпт инжиниринг подходы вроде CoT, не говоря уже о более серьезных подходах вроде агентности. Я отчасти согласен, что перебор разных промптов будет похож на брутфорс, но вот мульти-агентный подход с фидбеком (мб ревьювером) тут может помочь.

Во-вторых, тезис "Но важно понимать, что это всего лишь извлечение (retrieval) уже существующих решений или их комбинаций, но никак не решение новых задач" кажется мне неверным. Изначально взята сложная задача, с которой не любой джун справится. Тот факт, что LLM пишут корректный код в проектах, которые раньше не видели - уже говорит о решении новых задач. Или можно предложить LLM очень простую, но не существующее ранее задачу про буквы, которые выходят из поезда:

Решение примитивной задачи ("б" действительно не вышла)

Решение задачи с 3 выключателями и 3 лампочками, но я запретил измерять температуру и дал длинный провод
Решение 1. Физическое.
Решение 1. Физическое.
Решение 2. Электрическое.
Решение 2. Электрическое.

Обе задачи уникальны. В случае второй задачи, LLM показала понимание работы физического мира и использования подручных предметов. Поэтому я бы суммировал текущее состояние LLM как:

  • LLM едва ли могут решать когнитивно сложные уникальные задачи. Во всяком случае пока что.

  • LLM способны решать относительно простые уникальные задачи, в том числе и весьма креативными способами.

  • LLM "думают" вслух, и если дать модели подумать перед написанием ответа, то ответ будет точнее. Вся архитектура o1-preview от OpenAI построена на базе этого подхода.

@it_union,вопрос без подвоха: у вас есть другие источники? Когда сокращали ABBYY, то весь LinkedIn и Х бурлили, а про сокращения в VK не получается найти никакой информации кроме этой статьи.

Достаточно добавить "think step by step" в конец промпта и LLM выдаст правильный результат. Большие языковые модели думают "вслух", поэтому всегда лучше давать им пространство для размышлений.

Понизят за снятие налички (ಠ_ಠ)

1
23 ...

Information

Rating
5,723-rd
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity

Specialization

Test Automation Engineer, Quality Assurance Engineer