Обновить
2
0
Anatolii@ARazum

QA in AI

Отправить сообщение

Построение AI агентов в медицине

Время на прочтение10 мин
Охват и читатели7.4K

Любой, кто пробовал создать ИИ‑ассистента для регулируемых областей вроде здравоохранения, знает — это не просто. Нужно балансировать между полезностью/гибкостью и политикой «не навреди». Особенно сложно, когда пытаешься запихнуть такие разные и конфликтующие поведения в одну модель.

Читать далее

Как мир регулирует ИИ

Время на прочтение9 мин
Охват и читатели8.5K

К 2025 году в мире искусственного интеллекта уже больше нормативных документов, чем рабочих моделей. США публикуют руководства для безопасного использования LLM, Европа принимает AI Act, в ОАЭ и Сингапуре появляются свои принципы ответственного ИИ. Россия тоже не стоит в стороне и нормативные требования активно у нас разрабатываются.

Уже действующие и готовящиеся нормы ЕС, США, Китая и России требуют от ИБ не просто контроля моделей, но и полноформатного аудита, документирования и управления реальными угрозами.

Мы в HiveTrace внимательно следим за этой эволюцией из практической необходимости: от того, как быстро и в каком направлении будет развиваться регуляторика, зависит, какие функции мы добавим в продукт завтра.

Читать далее

Chonkie: революция в RAG-чанкинге — скорость, лёгкость, удобство

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели13K

В эпоху, когда большие языковые модели (LLM) становятся всё более мощными и применяются во многих задачах, одна из ключевых проблем остаётся прежней — как эффективно снабжать их релевантным контекстом. Одним из популярных решений является подход RAG, где качество итогового ответа зависит от целого ряда факторов, одним из которых является качественное чанкирование исходных текстов. Сегодня мы рассмотрим одно из новых и интересных решений.

Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о Chonkie — библиотеке для простого и быстрого чанкирования документов, а также на практике применю её и сравню с другими популярными решениями: LangChain и LlamaIndex.

Читать далее

OpenSource, или как я перестал бояться и полюбил автотесты

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.1K

Всем привет! Меня зовут Илья. Я давно читаю habr, не так долго занимаюсь программированием и еще чуть меньше времени хочу написать здесь статью. Не то, чтобы это идея фикс (или hotfix), но лучше опубликоваться и жалеть, чем поставить в план на «когда-нибудь потом», ничего не сделать, и «получить за это премию». Таких задач у меня уже накопилось на несколько жизней вперед, поэтому, приняв волевое решение, я выделил время на графоманию.

В прошлом мне доводилось писать околонаучные статьи и вести блог про путешествия, совершенные в разных стадиях трезвости (на рецензируемые статьи ВАК про пьяные авантюры, к сожалению, не хватило грантов). Но поскольку срок давности по этим событиям давно прошел, а все самое значимое я забыл, то опишу свой недавний опыт, связанный с OpenSource. 

Идея открытого программного обеспечения мне нравится. Люди, создающие OpenSource проекты вызывают интерес, особенно, когда их продукты востребованы и конкурентноспособны. Двигать индустрию IT в свободное от работы время, вместо того, чтобы предаваться гедонизму — достойно уважения. Особенно, когда сам активно пользуешься подобными продуктами, вместо платных аналогов или ручного труда.

Читать далее

Расширяем базовый функционал n8n: от RAG до кастомного агента с MCP

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели10K

Компании и энтузиасты стремятся автоматизировать процессы, но не каждый готов писать код с нуля. Поэтому в последние годы особую популярность набрала no-code платформа n8n. С её помощью можно быстро собирать пайплайны различной сложности: от простых чат-ботов до умных ассистентов, которые управляют календарем и напоминают о задачах.  Обычно в статьях про n8n затрагивают только готовые блоки, собирают из них пайплайны автоматизации, но в то же время упоминают об ограниченности использования этой платформы. Действительно, базовых блоков в n8n может не хватать, чтобы закрыть все потребности пользователя, но сегодня я покажу, как можно обойти эти ограничения и расширить базовый функционал n8n.

Привет, Хабр! Меня зовут Музафаров Данил, я Data Scientist в компании Raft. В этом туториале я шаг за шагом покажу: как локально развернуть n8n, как добавить кастомные API и создать полноценного AI-агента с MCP tools с расширенным функционалом. Придется немного писать код, но главное, что это позволит оставить архитектуру решения на n8n, дополнив его кастомными тулами.

Читать далее

N8n: (не)реальные возможности и ограничения

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели24K

N8n сейчас у всех на слуху. Подростки создают рабочие процессы, которые автоматизируют целые отделы, а затем продают их за тысячи долларов в Twitter. Менеджеры, которые никогда не писали ни строчки кода, за ночь автоматизируют рабочие процессы всего своего отдела.

Звучит слишком хорошо, чтобы быть правдой?

Читать далее

Как заставить LLaMA генерировать продающие SEO‑описания для ритейла

Уровень сложностиПростой
Время на прочтение20 мин
Охват и читатели5.7K

Зачем изучать генерацию SEO‑описаний? Представьте, что вам нужно разом загрузить на сайт сотни товаров: ручками каждое описание не напишешь, а универсальный шаблон выдаёт скучные списки характеристик, которые никто не читает. Что, если эту работу делегировать LLaMA и получить не просто текст, а продающий контент, готовый к выкладке в карточку товара?

Читать далее

GPT-4o vs YandexGPT: как мы отлаживали метрики в DeepEval из-за требований ИБ

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.2K

В нашей компании мы занимаемся автоматизацией тестирования и часто сталкиваемся с необходимостью не только разворачивать сложные пайплайны, но и реализовывать метрики, которые действительно помогают выявлять тонкие баги в работе LLM-классификаторов. Есть понятная open-source инфраструктура, привычные инструменты и строгие требования ИБ. Но когда начинаешь сравнивать разные модели-судьи — например, GPT-4o от OpenAI и YandexGPT, — традиционные подходы к валидации и любимые метрики внезапно ведут себя очень по-разному.

В этой статье я расскажу, как обычный процесс локализации метрик для DeepEval вывел нас не только на поиск багов в коде, но и привёл к пересмотру самой логики автоматизированной оценки: почему педантичность одной LLM может “маскировать” ошибки, а прагматичность другой — неожиданно улучшить вашу диагностику. Разберём код живых метрик, покажем, как переход от faithfulness к relevancy помог нам обнаружить и устранить важную логическую уязвимость, и выделим пять универсальных уроков, которые понадобятся каждому, кто автоматизирует оценку LLM не “по учебнику”, а по-настоящему.

Если вам интересен опыт построения эксплуатируемых, не “пластмассовых” метрик для LLM-классификаторов в условиях ограничений ИБ и смешанных инфраструктур (OpenAI + российские модели) — добро пожаловать под кат!

Читать далее

Finetuning Qwen 3 на RTX4090: полный гайд обучения LLM c помощью Unsloth

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели8.5K

💡 О чём эта статья: В этой статье я разбираю, как с помощью библиотеки Unsloth обучить LLM и ускорить её обучение с LoRA/DoRA-адаптерами. Я также провёл серию экспериментов на данных по МКБ-10, сравнил качество моделей и описал тонкости экспорта в GGUF.

Читать далее

Векторный кэш: делаем умные ответы еще быстрее

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели2.5K

Сегодня чат‑боты и интеллектуальные ассистенты широко применяются в различных сферах: поддержка клиентов, корпоративные системы, поисковые сервисы и во многих других. Для их разработки часто используют архитектуру Retrieval‑Augmented Generation (RAG), которая объединяет генерацию ответа с поиском данных во внешних источниках. Такой подход помогает ботам и ассистентам давать более точные и актуальные ответы. Но на практике оказывается, что RAG сталкивается с проблемой повторяющихся запросов, из‑за которой система многократно выполняет одни и те же вычисления, повышая нагрузку и время отклика.

Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft, и в этой статье мы разберемся, что такое векторный кэш и как его использовать. Давайте начнем!

Читать далее

MCP для новичков

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.4K

Model Context Protocol (MCP) - это просто API, разработанный для LLM. Конечно, LLM могут использовать традиционные API, но это как просить повара готовить в кладовке.

Читать далее

Ускоряем проверку документов для клинических исследований за счёт пайплайна на базе YandexGPT 5 Pro

Время на прочтение13 мин
Охват и читатели3K

В мире ежегодно проводятся тысячи клинических исследований, а в России их количество может доходить до 900 в год. До внедрения в практику новые методы лечения, лекарства и медицинские изделия проходят множество испытаний под строгим контролем. Исследователям необходимо подтверждать безопасность и эффективность метода, а также соответствие самой процедуры испытаний научным стандартам и нормам этики. Эти процессы формализованы и требуют подтверждения официальными документами — но их нельзя свести к одному простому формату, особенно если дело касается этики. Поэтому только проверка пакета документации может занимать недели, а в современных условиях хочется, чтобы эта работа была менее длительной — чтобы пациенты быстрее получали доступ к новым методикам лечения.

В 2025 году команда НМИЦ онкологии им. Н.Н. Петрова вместе с Центром технологий для общества Yandex Cloud и компанией Raft запустила приложение для быстрой обработки документов клинических исследований. Решение на базе большой языковой модели Яндекса помогает специалистам научного центра классифицировать документы, проверять их оформление и содержание по чек‑листу — и это позволяет сократить цикл согласования с нескольких месяцев до 5–10 дней.

Читать далее

Как создатели Stable Diffusion выжимают максимум из тренировочных данных

Время на прочтение7 мин
Охват и читатели960

Современные диффузионные модели творят чудеса. Они создают фотореалистичные портреты несуществующих людей, превращают наброски в детализированные иллюстрации и генерируют сложные художественные композиции по нескольким словам описания.

Но задумывались ли вы, на чём учатся эти модели? Что именно они видели в процессе тренировки? Как инженеры собирают и размечают данные? История тренировочных датасетов оказывается намного интереснее и сложнее, чем может показаться на первый взгляд.

В этой статье я расскажу о том, как исследователи научились извлекать максимум пользы из несовершенных данных. Мы разберем, какие данные используются для обучения диффузионных моделей, какую роль играет синтетическая разметка и как она реализуется, а также на чем обучаются сами модели-разметчики.

Читать далее

Зоопарк инструментов Майкрософт для AI разработчика

Время на прочтение4 мин
Охват и читатели1.7K

Все знают, что Microsoft давно купила OpenAI, и теперь, казалось бы, должна иметь самую продвинутую инфраструктуру для развертывания решений на основе искусственного интеллекта и современных моделей, не так ли? Тогда почему мы так мало о них слышим? Что вообще у них есть в этой сфере?

Давайте разберемся.

Читать далее

CAG и KAG: Улучшенные методы дополнения генерации после RAG

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.3K

Если вы следите за развитием технологий в области обработки естественного языка, то наверняка слышали о технологии Retrieval Augmented Generation (RAG), которая объединяет методы поиска с генеративными моделями для создания более интеллектуальных, обогащенных контекстом ответов. Но, как и любая технология, RAG имеет свои особенности, и именно здесь на помощь приходят два подхода: Cache-Augmented Generation (CAG) и Knowledge-Augmented Generation (KAG). В этой статье мы подробно рассмотрим, что представляют собой эти методы, чем они отличаются друг от друга и в чем заключается их преимущество. Давайте начнем!

Читать далее ->

Градиентный бустинг для чайников

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.9K

Если вы помните Вольтрона — вы уже понимаете Gradient Boosting. Команду странных механических львов, объединяющихся в огромного робота против зла, только вместо «зла» здесь неупорядоченные данные.

Читать далее

Важность времени на размышления: как работают вычисления во время инференса

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели875

Еще в 2020 году в статье о GPT-3 появился график, заслуживающий отдельного внимания: чем больше языковые модели, тем лучше они справляются с задачами без дообучения (zero-shot). Пять лет этот график был путеводной звездой для исследователей ИИ, влияя на всё — от архитектуры моделей до разработки железа. C выпуском o1 OpenAI пришел с новым графиком. На этот раз речь не только о размере — а о том, чтобы дать моделям время думать

Читать далее

LLM во временных рядах: от предикта температуры до криптовалют

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели3.1K

Базовое желание человека -- знать что будет дальше. Какая завтра погода, в какое время не будет пробок, сколько будет стоить нефть и бакс. Было бы удобно провести быстрый анализ с LLM, ведь у каждого есть доступ хотя бы к одной нашумевшей нейросетке.

Тем более LLM уже может прогнозировать будущее! Ниже вы можете посмотреть результаты прогноза для разных временных рядов из статьи Large Language Models Are Zero Shot Time Series Forecasters.

Остается лишь вопрос, а можно ли лучше?

Давайте разберемся!

Погружение в мир диффузионных моделей — путеводитель для новичков

Уровень сложностиПростой
Время на прочтение26 мин
Охват и читатели3.1K

Диффузионные модели перевернули мир генеративного искусственного интеллекта, вытеснив GAN'ы и вариационные автоэнкодеры. Но как они работают? Чем отличаются друг от друга? И как научиться их использовать?

Эта статья — путеводитель для тех, кто хочет разобраться в диффузионных моделях с нуля. В ней вы найдете три подхода к изучению — теория, практика и продвинутая практика.

Читать далее

Илон Маск заинтересовался взломом AI-агента на $50000

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели1.4K

AI-агенты, способные самостоятельно обращаться к функциям системы для решения задач, набирают популярность. На прошлой неделе OWASP опубликовал гайд об угрозах для AI-агентов и примеры уязвимостей на базе популярных фреймворков. Участник лаборатории ИТМО AI Security Lab Александр Буянтуев предложил версию криптоагента Freysa на базе CrewAI. Этот криптоагент должен был защитить призовой фонд и привлёк внимание Илона Маска, когда кто-то смог заполучить $50000.

Стоит ли доверять AI-агентам?

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Инженер по обеспечению качества, Аналитик по обеспечению качества
Средний
Git
Python
PostgreSQL
MongoDB