Обновить
1185.04

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга
Уровень сложности

Часть 2. Промпт-инжиниринг: обзор продвинутых техник (Chain-of-Thought, декомпозиция)

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров6.1K

Мы продолжаем адаптированный перевод статьи “The Prompt Report: A Systematic Survey of Prompt Engineering Techniques” (первую часть можно найти здесь). С переводом мне по-прежнему помогает коллега – Анастасия Тарабакина. 

В этой части мы обсудим такие техники промптинга, как Chain-of-Thought и декомпозиция. Начнем с техник промптинга, которые заставляют модель демонстрировать пользователю внутренний процесс “рассуждения” над задачей (Thought Generation).

Читать далее

Baidu и AI Search Paradigm: мультиагентная структура для интеллектуального поиска информации

Время на прочтение14 мин
Количество просмотров938

Аналитический центр red_mad_robot продолжает разбирать ключевые исследования в сфере интеллектуальных систем и генеративного поиска. На этот раз рассказываем про архитектуру AI Search Paradigm от Baidu — новой системы интеллектуального поиска, построенной на LLM и мультиагентных методах.

Читать далее

Иллюзия интеллекта: как живые тесты разоблачают ИИ-кодеров

Время на прочтение4 мин
Количество просмотров4.8K

ИИ-код сегодня выглядит все изящнее — но стоит попытаться его запустить, как начинаются сюрпризы: сбои, ошибки и несоответствия задаче. Почему же модели, которые так уверенно “говорят” на языке программирования, на практике регулярно сбоят? Возникает ощущение, что между красивым ответом и рабочим решением все еще большая пропасть.

Недавнее исследование переворачивает классический подход к оценке сгенерированного кода. Оказывается, настоящее мастерство модели видно не в том, насколько аккуратно она пишет функции, а в том, что происходит при реальном запуске: как ведет себя интерфейс, работает ли программа долгие минуты, справляется ли со сложными сценариями.

В этом обзоре разбираемся, как живые тесты и интерактив дают шанс действительно выделить сильные модели и почему это может стать поворотным моментом для будущих кодогенераторов.

Читать далее

Автономный AI сотрудник

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.7K

Это перевод моей статьи в LinkedIn

Главная мечта современных инвесторов в ИИ - это автономный ИИ сотрудник, который может полностью заменить некоторых специалистов и работать без постороннего вмешательства.

На мой взгляд это уже вполне достижимая цель, которая достижима с текущим уровнем технологий.

Приведу пример на близкой мне области - программирование (но вообще применим к большинству digital профессий). Сделаем автономного ИИ middle backend разработчика.

Сделаем мы его на локальной серверной машине, внутри контура компании.

Сразу скажу что Я не буду выкладывать свой код, настройки или workflows для открытого доступа. Моя цель - верхнеуровнево показать рабочее для меня решение, потому что вижу не то что пробел, а вообще отсутствие материалов такого рода информации, даже с таким поверхностным уровнем детализации.

Читать далее

Искусство написания промптов: генерируем и редактируем изображения с помощью нейросетей

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров7.3K

Всем привет! Меня зовут Алёна Лагойкина, я дизайнер в AGIMA. Последний год я много экспериментировала с нейронками: пробовала создавать и редактировать самые разные артефакты — по работе и для себя. За это время у меня полетела видеокарта, я завела себе китайскую симку, достала китайский VPN и в целом начала учить китайский язык. И всё это — чтобы освоить искусство промтинга.

В этой статье расскажу, какие нейронки хорошо себя показали, для каких задач они подходят, какие примочки упрощают работу, но главное — как поставить задачу для ИИ так, чтобы он тебя точно понял. Спойлер: китайский для этого знать необязательно. А вот английский — желательно.

Читать далее

ИИ против B2B-дизайна. Кто победил?

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.5K

ИИ всё чаще обещает «заменить дизайнеров». Я решила проверить, насколько это правда. Не на красивых лендингах, а на честных B2B‑интерфейсах, где таблицы, фильтры и кнопки, а не эмоции и котики.

Взяла три инструмента Wireframe Designer, UX Pilot и Uizard и дала им одинаковый промт: создать страницу контрактного модуля для выдуманной корпоративной системы. Сравнила, кто из них действительно понимает, что такое интерфейс, а кто просто красиво рисует прямоугольники.

Читать далее

Подножка для AI в виде UTF-8

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.4K

Думаю, вам начинают надоедать тексты про вайб-кодинг. Но не волнуйтесь, мой интерес не в том, чтобы рассказывать о новых невероятных достижениях, меняющих мир, и бла-бла-бла... Интереснее поискать места, в которых начинается сбой при генерации кода. Это позволит адаптировать работу статических анализаторов для новых задач контроля кода, который создаётся с помощью таких систем.

Читать далее

Личный опыт: как я навайбкодил сайт за три дня

Время на прочтение4 мин
Количество просмотров12K

Решил попробовать вайб-кодинг и заодно сделать полезное дело — создать HR-сайт для компании, в которой я руковожу ИТ-департаментом. Рассказываю, что меня впечатлило, а с чем пришлось повозиться.

Читать далее

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

Время на прочтение7 мин
Количество просмотров767

В гонке за следующей волной «умных» систем большие языковые модели (LLM) берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

Реальность такова: человеческие ревьюеры по-прежнему обеспечивают уровень контекстного понимания, которому ИИ пока не соответствует. Поэтому вместо того чтобы противопоставлять методы, многие в индустрии приходят к связке «LLM-судья + человеческая оценка» как к наиболее эффективной комбинации. В этой статье разберём, что такое LLM-судья, как он соотносится с человеческой оценкой и почему гибридный подход имеет наибольший смысл.

Читать далее

История (и код на github) про то, как ChatGPT подружил проектный телеграм-чатик и таски в Jira

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.6K

(спойлер: в конце будет ссылка на GitHub)

Таск-менеджеры вроде Jira — хороший инструмент для ведения проектов. Вот только есть одна проблема — на них очень быстро забивают. В первую очередь — проектные менеджеры (на всякий случай: я тоже забиваю). Когда проект стартует, менеджер с командой, как правило, делают волевую попытку декомпозировать его на эпики и задачи. Каждая задача получает красивое описание, а иногда даже назначенных исполнителей и дедлайны.

Потом проект стартует…

Внезапно меняются требования и бэклог, появляются дополнительные зависимости. Часть задач внезапно оказывается ненужной, ещё более внезапно меняются менеджеры и ключевые участники. Рано или поздно таски начинают зарастать мхом: апдейты не комментируются, статусы не двигаются.

В какой-то момент наиболее ответственный член команды решает устроить субботник и позакрывать то, что уже сделано. Отсюда — популярность следующих вопросов в поддержке Jira:

Читать далее

Как оценить качество машинного перевода

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров447

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

Читать далее

Почему «больше токенов ≠ лучше» или Как научить LLM работать с длинным контекстом

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.8K

Всем привет! Меня зовут Наталья Бруй, я промпт-инженер в MWS AI. Вместе с моей коллегой  Анастасией Тищенковой мы решили ответить на вопрос, который мучает нашего пиарщика многих – почему больше токенов не равно лучше и  как заставить LLM работать адекватно на длинном контексте. 

Если вы создаете ИИ-решения для работы с большим объемом документов и хотите, чтобы LLM вам в этом помогала ( отвечала на вопросы по содержанию, генерировала запросы и заявления на их основе, делала резюме и и пр.) не абы как, а опираясь на выданные ей данные, тогда вам под кат. 

Оговорочка: эта статья для тех, кто находится на первых этапах освоения темы работы с длинным контекстом и вовлечен в создание каких-нибудь новых ИИ-продуктов на основе языковых моделей. Если вы уже две диссертации об этом написали, тогда можете сразу в комментариях ссылки оставить – мы почитаем. 

Читать далее

Как я с помощью LLM писал эмулятор ZX Spectrum

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.1K

... или может ли ИИ заменить программиста? Сейчас со всех сторон долбят про то, как ИИ помогает в жизни и вообще, если ты не используешь ИИ, то ты в отстающих и лузер. Я к этому отношусь спокойно, ибо мои занятия совершенно не допускают использование ИИ из-за очень большой цены ошибки, но долбежка все-таки делает свое дело. Плюс как-то внезапно обнаружил, что у (не реклама) cloud.ru доступны Foundation Models (они же БЯМ, они же LLM) без оплаты. Понятное дело, тестовый период и прочее, но использовать можно. Но просто мучать модельки вопросами уровня «сколько цифр в слове» смысла мало, поэтому решил попробовать сделать что-то хоть капельку полезного и получить собственный ответ на вопрос пригодности БЯМ. Результат для нетерпеливых тут https://github.com/kiltum/zxgo

Далее несколько абзацев истории, чтобы просто было понятно, каким путем я шел до результата. Скажу честно, выбор места приложения сил БЯМки был сделан довольно быстро: напиши мне много кода. Раз пока все бесплатно, выбрал самый большой Qwen и предложил ему написать эмулятор КР580ВМ80А (он же Intel 8080), причем на питоне. И внезапно, он с первой попытки сгенерил что-то очень похожее на правду. Хмыкнув, я нашел образ ПЗУ от Радио-86 и зарядил еще пару десятков запросов. Вскоре я с глубоким удовлетворением увидел в окошке заветное «РАДИО 86-РК» и следом «-->». 

Немного порадовавшись результату, я преисполнился энтузиазма и решил поднять ставки. Z80 и ZX Spectrum! Культовая машина, все нюансы которой разложены по полочкам и по которой документации на порядки больше, чем для «радио»,«микроши» и «специалиста» вместе взятых. А чтобы было совсем хардкорно, основным языком я выбрал С++.

Читать далее

Ближайшие события

LLM уже может все! Или еще нет?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров854

Генеративные ИИ-модели сегодня очень хороши в генерации текста. Быть может, они уже полностью могут взять на себя роль автора такого релевантного типа игр, как "текстовый квест"? Взять на себя их полное ведение. А что если просто описать игровой мир и "запустить" в него игрока? Сможет ли получиться игра со "свободным миром", но конечной и достижимой целью, на базе чистого ИИ? Или нет?

Я на практике попробовал ответить на этот вопрос.

Читать далее

Предобусловливание и импульс в оптимизации: взгляд на алгоритмы PHB/PN от исследователей Яндекса

Время на прочтение15 мин
Количество просмотров967

Современные задачи оптимизации в машинном обучении часто оказываются плохо обусловленными — грубо говоря, их ландшафт имеет долины с резко различающейся кривизной. В таких случаях методы на основе градиентного спуска сходятся медленно: шаг, выбранный для устойчивости на одном участке, оказывается слишком малым на другом. 

Для ускорения сходимости широко применяются методы с механизмом импульса (momentum): классический метод Поляка — Heavy Ball (HB) — и метод Нестерова (ускоренный градиент). Оба эти метода используют идею накапливать «инерцию» градиента, благодаря чему могут двигаться по направлению оптимума быстрее обычного градиентного спуска. 

Однако, хотя импульс позволяет ускорить алгоритм, сам по себе он не решает проблему плохой обусловленности функции. В таких ситуациях на помощь приходит предобусловливание — масштабирование шагов оптимизации по разным координатам на основе дополнительной информации о функции, чтобы выровнять скорость сходимости по различным направлениям задачи. 

Всем привет! Меня зовут Степан Трифонов, я аналитик‑разработчик в Яндекс Пэй. Недавно мы с коллегами, Леонидом Левиным и Савелием Чежеговым, опубликовали научную статью Incorporating Preconditioning into Accelerated Approaches: Theoretical Guarantees and Practical Improvement, где ввели предобусловленные версии классических ускоренных методов — Preconditioned Heavy Ball (PHB) и Preconditioned Nesterov (PN) — и доказали для них оценки сходимости при весьма общих допущениях на предобусловливающую матрицу. Также мы провели численные эксперименты, которые продемонстрировали практический выигрыш новых алгоритмов по сравнению с обычными (непредобусловленными) методами HB и Нестерова.

Читать далее

Наука для бизнеса: что внедрять завтра (анализ 134 195 научных работ 2025 года)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.3K

Чтобы понять, какие технологии будут определять рынок завтра, компании опираются на прогнозы/отчёты аналитиков или анализируют патенты. Но есть источник, который часто опережает и патенты – научные публикации. Далее о том, как я проанализировала 134195 научных статей 2025 года, чтобы ответить на вопрос, на какие технологии делать ставку прямо сейчас.

Читать далее

Когда мозг становится процессором: как и зачем ученые выращивают живые компьютеры

Время на прочтение5 мин
Количество просмотров1.8K

Представьте, что ваш ПК не жужжит вентиляторами и не поглощает электричество, как голодный дракон, а тихо пульсирует, словно крошечный кусочек жизни в пробирке. Звучит как сюжет фантастического триллера? Вовсе нет — это реальность, которую сейчас лепят в швейцарских лабораториях. Органоиды, миниатюрные аналоги мозга, выращенные из стволовых клеток, обещают изменить мир компьютерных технологий. Давайте обсудим новый подход к созданию вычислительной системы, прозванный wetware (мокрое железо). А еще поговорим о том, как он вписывается в будущее аппаратного обеспечения, где биология становится партнером технологий. Что ж, поехали! 

Читать далее

Симуляция делового совещания с GigaChat. Вся сила в промпте

Время на прочтение8 мин
Количество просмотров704

Недавно мне поступил необычный запрос: нужен инструмент, который позволил бы отрабатывать навыки управления командой в условиях, максимально приближенных к реальности.

Так родилась идея: создать деловую игру - симулятор делового совещания, где игрок выступает в роли CEO, а реплики остальных участников генерирует ИИ (GigaChat). Хотелось проверить, насколько реалистичными могут быть дискуссии, если задать правильные условия.

Эта статья - о проработке промпта, результатах и выводах.

Читать далее

Мобильный клиент для LM Studio с удаленным доступом

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.3K

Предисловие. Я тут работаю с lmstusio сервером и мне нужно было приложение на andriod которое бы с ним работало быстро и без всяких дополнительных танцев с бубном. Сделав его я подумал почему бы не предложить другим может кому то же надо. Выглядит он так

Читать далее

Temporal: Возможности многоагентных архитектур

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.5K

Многоагентная архитектура открывает несколько мощных паттернов. Здесь я начну с основ и опишу, как с помощью Temporal сделать создание многоагентных систем простым, надёжным и увлекательным.

Читать далее

Вклад авторов