Обновить
608.75

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Тестирование LLM-приложений с DeepEval

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели485

В этой статье я расскажу о способе написания тестов для LLM-приложений с использованием инструмента DeepEval. Рассмотрены базовые концепции данного инструмента, а также приведен пример его использования на реальном приложении c RAG. Будет теория и много примеров на Python.

🔥 Начинаем 🔥

Новости

Оценки продукта в три простых шага

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели1.5K

Когда в продукте появляется LLM‑фича, спорить о качестве «на глаз» быстро становится дороже самой разработки: каждый новый промпт, ретривер или модель меняет поведение, а воспроизводимость улетучивается. В этой статье — прагматичный рецепт, как превратить оценку качества в инженерную процедуру: собрать небольшой датасет с фейлами, откалибровать LLM‑оценщиков под отдельные критерии и завести eval‑harness, который будет ловить регрессии при каждом изменении конфигурации.

Перейти к статье

Claude Code изнутри: как устроены AI-агенты для разработки

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели3.5K

Команда AI for Devs подготовила перевод статьи о том, как на самом деле устроены AI-агенты для программирования. Автор шаг за шагом показывает, что за Claude Code не стоит магия: это последовательный агентный цикл, инструменты, контроль разрешений и работа с контекстом.

Читать далее

Функция потерь: как алгоритм понимает, что он ошибся

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели3.9K

Доброго времени суток, «Хабр»!

Представьте, что вы играете в дартс. Сначала ваши дротики разлетаются по всей мишени, но с каждой попыткой вы постепенно приближаетесь к заветному центру. Человек интуитивно понимает, что нужно скорректировать бросок: сильнее, выше, левее или правее. Примерно так же работает и алгоритм машинного обучения. Только вместо интуиции там есть функция потерь.

Сегодня поговорим об этой функции, попробуем в ней разобраться и понять, как же алгоритм понимает, что он ошибся. Принимайте стратегически удобное положение, ну а я приступаю к своему повествованию.

Читать далее

Семантическая декомпозиция медицинских текстов: автоматизированное извлечение клинических находок и биомаркеров

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.9K

Уже скоро год, как запущена AI-платформа для хранения и аналитики персональных медицинских данных Lissa Health. Недавно в ней появился отчет «Профиль здоровья», который учитывает любую информацию, которую пользователь предоставил о себе. Чтобы его реализовать, нам пришлось полностью переработать идеологию движка системы.

Мы совершили качественный переход от документо-центрической к фактор-центрической модели данных, где атомом информации о здоровье человека является медицинский факт с уникальным кодом и контекстом.

Ниже - техническое описание новой структуры.

Читать далее

Более 40 млн человек каждый день спрашивают ChatGPT о здоровье

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели4.7K

Наверное, все уже в курсе, что OpenAI анонсировал раздел Health в ChatGPT - это специальное пространство для обсуждений здоровья в ChatGPT. Если Вы думаете, кто будет делиться такими данными с чат-ботом, Вы очень удивитесь) Вашему вниманию представляю отчет AI as a Healthcare Ally - обзор того, как ChatGPT сейчас используют в здравоохранении...

Читать далее

Мы не создаём мыслителей. Где ошибка?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.4K

Современные LLM принципиально не могут иметь сущность. Не из-за архитектуры, а из-за способа обучения.

Читать далее

Как достучаться до клиента в мобильном приложении: вчера и сегодня

Время на прочтение8 мин
Охват и читатели5.6K

Привет, Хабр!
В последнее время я вижу много рекомендаций о том, как успешно работать с клиентской базой и развивать клиентский опыт. Кажется, что в этой теме я могу быть полезным. Меня зовут Алексей Ласкин, я руководитель Центра компетенций по монетизации данных в команде РСХБ.Цифра, занимаюсь проектами по монетизации данных в цифровых каналах экосистемы «Я в агро» — Свое фермерство, Свое родное, Свое за городом, Свои финансы, Свой бизнес, Монеты.

Хочется поделиться тем, как развивается СVM (Customer Value Maximization) и какие тренды на него влияют: разработчикам это может помочь сформировать понимание целей и средств разработки, которые следует использовать при проектировании СVM-систем. Опыт банков, показателен в части объема данных, который мы можем использовать для формирования предложений.

Читать далее

«Привет! Я [0.44, -0.91, 0.66...]» или как научить машину чувствовать смысл слов

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели6.4K

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда больше, чем с «теплоходом».

Первое правило обучения любой модели машинного обучения — это преобразование входных данных в числа. Цифровой объект можно представить числом: картинку, текст, аудио или видеофайл — практически всё что угодно.

Для того чтобы ввести этот объект в нашу ML модель как некое понятие, мы должны преобразовать его в определённый набор чисел. По этому набору чисел мы сможем определить, что, например, этот объект «яблоко», а не «груша».

С картинками все просто. В чёрно-белом изображении (в градациях серого) самый яркий пиксель имеет значение 1, самый тёмный — 0, а оттенки серого имеют значения от 0 до 1. Такое числовое представление упрощает обработку изображений. Преобразовав изображение в цифровую форму на основе значений пикселей, мы можем использовать его в качестве входных данных для обучения нашей модели, позволяя нейронной сети обучаться на значениях пикселей.

Однако что делать с текстом? Как спроецировать буквы в числа?

Читать далее

Прививаем машине музыкальный вкус: фильтруем плейлист на основе предпочтений

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели4.2K

Раньше это было способом скоротать время в дороге, но теперь чтобы найти музыкальную "жемчужину" нужно несколько часов сфокусированного прослушивания новинок. Встал выбор: забить или..

Однажды у меня возникла идея, что с моим музыкальным хобби мне могло бы помочь ML. БОльшая часть входящего материала не соответствует моему персональному фильтру. Если убрать ее, то я снова смогу делать подборку в фоне и получать удовольствие

Я не эксперт в ML, но задача вроде бы понятная - готовим датасет, берем модель, обучаем, приключение на 20 минут..

..сейчас, спустя год, когда мой pet-project наконец-то работает. Я смотрю на путь, который привел меня к этому результату. Даже не с точки зрения технологий(про ML лучше писать мастерам игры), а с точки зрения логики решения глазами разработчика. Вот этим я и хочу поделиться

Читать далее

Экономисты OpenAI уволились, потому что компания отказывается публиковать правду об ИИ и рабочих местах

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.2K

Что происходит, когда ваши собственные исследователи называют вас пропагандистским рупором, почему CEO Anthropic признаёт, что 50% рабочих мест могут исчезнуть, и данные, которые OpenAI отчаянно хочет похоронить.

Ведущие исследователи только что покинули OpenAI. Не ради более высоких зарплат. Не чтобы присоединиться к Google или *Meta. Они ушли, потому что отказались участвовать в том, что считали масштабной пропагандистской операцией.

И то, что происходит за закрытыми дверями, должно беспокоить всех нас.

Том Каннингем, экономист и специалист по данным в OpenAI, уволился в сентябре. В своём внутреннем прощальном сообщении он не стал подбирать слова. По его словам, команда экономических исследований всё дальше уходила от настоящей науки, превращаясь, цитирую, «в пропагандистский рупор своего работодателя».

Читать далее

Machine Unlearning. Часть 1: Почему моделям нужно уметь забывать

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели4.7K

Большие языковые модели (LLM) сегодня умеют невероятно много — от генерации текста до сложного анализа данных. Но что происходит, если часть информации, на которой они обучались, нужно удалить? Просто убрать лишние данные и переобучить модель может быть слишком накладно и дорого.

Всем привет! Меня зовут Вадим, я Data Scientist в компании Raft. В этой статье я расскажу о достаточно новом направлении машинного разучивания (Machine Unlearning), которое позволяет моделям “забывать” не нужные знания без полного их переобучения.

Читать далее

Контролируемость цепочек рассуждений в больших языковых моделях

Время на прочтение13 мин
Охват и читатели3.4K

Команда AI for Devs подготовила перевод исследования OpenAI о контролируемости цепочек рассуждений в современных моделях. Авторы разбирают, почему наблюдение за CoT может быть ключевым инструментом безопасности, как масштабирование моделей и обучение с подкреплением влияют на контролируемость и какой «налог» приходится платить за более надёжный мониторинг.

Читать далее

Ближайшие события

ML на Мосбирже — почему мой грааль не работает?

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.7K

Время после нового года решил провести с пользой и окунуться в машинное обучение. Заняться Machine Learning — и посмотреть получится что‑то или нет с российским рынком акций на Московской бирже.

Моей целью было построить такую систему, которая будет учиться на истории и в перспективе торговать лучше чем случайное блуждание 50/50. Но из‑за комиссий и спреда подобные блуждания изначально отрицательны — чтобы выйти в плюс надо как минимум покрывать комиссии.

Если говорить о результатах очень кратко, то технически всё работает, но вот финансовый результат на грани безубыточности.

Если Вы только интересуетесь этой темой Вы можете посмотреть какие‑то шаги в моей статье, а если Вы уже опытный разработчик подобных систем, то можете подсказать что‑нибудь в комментариях.

Причём вся эта работа выглядит совершенно не так как показывается в фильмах про уолл‑стрит: фактически это написание скриптов и монотонный запуск и всё происходит полностью локально на компьютере.

Читать далее

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.9K

В этой статье разберём исследование от компании Anthropic, которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE — Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели — заставим думать, что она Санта Клаус 🎅.

Читать далее

Как затащить AI в Java/Kotlin проект

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели7.2K

Мир Enterprise-разработки на Java/Kotlin и мир нейронных сетей кажутся параллельными вселенными. С одной стороны - статическая типизация, многопоточность, Spring-контейнеры, а с другой - Python-скрипты, тензорные операции и эксперименты в Jupyter Notebook. Между ними - пропасть, через которую многие команды не решаются перешагнуть.

Однако необходимость строить этот мост возникает всё чаще. Заказчик хочет «искусственный интеллект» в новом фиче, аналитики мечтают о реализации чат-бота  с преферансом и барышнями, а менеджеры слышали, что конкуренты уже всё автоматизировали. Как же совместить надежность и структуру JVM-проекта с гибкостью и мощью AI? В этой статье постараемся разобраться какие инструменты для этого есть на данный момент и как с ними работать.

Читать далее

Embedder для ИТ-крестьянина

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.3K

Я - Дмитрий Черняк, владелец компании, производящей цифровых консультантов «Нейроботник» и архитектор этого решения. Наиболее простой и ходовой вариант нашего продукта — консультант на сайте, с подключенной моделью и RAG‑базами. Простые задачи ограничиваются одной базой, более сложные — несколькими, совмещающими семантический поиск с целевым — по ключевым словам и фразам, с многошаговым ответом. Для большинства задач в данной нише этого достаточно.

Эта статья посвящена предновогоднему тесту эмбеддеров (табличка результатов прилагается).

Читать далее

Почему учёные не могут прекратить поиски инопланетной жизни

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6.9K

Всегда будут «кричащие волк», чьи заявления рассыпаются под пристальным взглядом. Но инопланетяне определённо существуют - если наука осмелится их найти.

Несмотря на всё, что мы узнали о себе и физической реальности, в которой все мы обитаем, гигантский вопрос о том, одиноки ли мы во Вселенной, остаётся без ответа. Мы исследовали поверхности и атмосферы многих миров в нашей Солнечной системе, но только Земля демонстрирует неоспоримые признаки жизни - прошлой или настоящей. За последние 30 лет мы открыли более 5 000 экзопланет, выявив среди них множество миров размером с Землю, потенциально обитаемых. Тем не менее ни один из них пока не раскрыл себя как действительно населённый, хотя перспективы обнаружения внеземной жизни в ближайшем будущем завораживают.

Читать далее

Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели6.3K

Prompt caching часто обсуждают как «бонусную опцию» в API-прайсе: мол, попал в кэш — дешевле и быстрее. В статье разбираем, что за этим стоит на самом деле: почему кэш — это не «память диалога», а переиспользование KV-тензоров на уровне одинаковых префиксов, как из этого вырастает PagedAttention/vLLM с блоками и хэш-цепочками, и какие мелкие, но фатальные детали (динамический системный промпт, недетерминированный JSON, перестановка tool defs) мгновенно превращают кэш в тыкву.

Как это устроено

Будущее дронов: встроенный ИИ

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели13K

Всё больше БПЛА используют машинное зрение для навигации и распознавания объектов. Обычно предполагается, что это система с ограниченными вычислительными возможностями, которой управляет оператор удалённо, а движок ИИ работает из облачного сервиса с подключением через интернет.

Но что, если на БПЛА поставить локальную модель и мощный GPU-ускоритель, чтобы ИИ работал локально и самостоятельно принимал решения? Несколько лет назад такое казалось фантастикой. Но сейчас прогресс в области БПЛА настолько бурный, что ситуация меняется каждые несколько месяцев.

Посмотрим, какие ИИ-ускорители устанавливают в современные дроны.

Читать далее
1
23 ...

Вклад авторов