Как стать автором
Обновить
658.22

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Тест на прочность: LLM против сложных задач

Время на прочтение4 мин
Количество просмотров1.5K

В мире, где условия задач постоянно меняются, способность языковой модели учиться на ходу без перестройки своих параметров становится настоящим вызовом. Недавнее исследование показывает, как простые техники рефлексии, эволюционных эвристик и планирования превращают LLM в гибких агентов, способных адаптироваться к новым ситуациям. От классической игры «камень-ножницы-бумага» до сложных головоломок Ханойской башни — узнайте, какие стратегии работают лучше всего и какие перспективы откроются перед LLM в динамических средах.

Читать далее

Gemma-3: Обзор модели

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5K

Языковая модель, которая работает быстрее, понимает глубже, а объём имеет более компактный, — кто ты, воин? Да, это Gemma-3, как вы уже догадались по названию статьи. Google, а точнее подразделение DeepMind, вновь смог приятно удивить активных пользователей ИИ, выпустив довольно лёгкий инструмент, который готов посоперничать с гигантами вроде ChatGPT-4 и Deepseek-R1. Компания даже заявила, что Gemma-3 — это лучшая нейросеть среди малых языковых моделей и что она лишь немного уступает производительности DeepSeek-R1, который имеет 671 млрд параметров.

Нейросети Gemma позиционируются разработчиками как лёгкие ИИ, способные выполнять широкий спектр операций: генерировать текст различных форматов, изображения и даже короткие видео, анализировать медиа, создавать несложный программный код и так далее.

Ну, по крайней мере так про неё говорят. А насколько это правда, мы проверим.

Читать далее

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров898

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. 

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. 

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

Нейро-дайджест: ключевые события мира AI за 3-ю неделю мая 2025

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров1.8K

Привет! 👋 Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

На этой неделе навела шуму презентация Google I/O — и принесла больше анонсов, чем весь прошлый месяц. Также вышли мощные модели от Anthropic, Mistral и ByteDance, появилась экспериментальная диффузионка от Google, ИИ впервые вышел в космос, а ChatGPT o3 — отказался выключаться. 

Всё самое важное — в одном месте. Поехали!

Читать прошлый выпуск

Читать далее

Шпаргалка по установке драйверов NVIDIA на ML сервер

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Данный материал предназначен для быстрой и последовательной установки драйверов NVIDIA, в том числе для видеокарт 50xx серии, а также настройки NVIDIA Container Toolkit. Эта инструкция актуальна для Linux-систем на базе Ubuntu и других Debian-совместимых дистрибутивов.

Читать далее

Разработчики открыли ранний доступ к Kling 2.1

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2K

Через несколько дней после того, как Google выпустила Veo 3, компания Kling, видимо, ощутила давление и открыла ранний доступ к своему грядущему семейству видеомоделей Kling 2.1. Время было выбрано как нельзя более удачно.

Вчера на X и Reddit появилось несколько видеороликов, созданных с помощью Kling 2.1. В этом посте я расскажу о том, что же на самом деле предлагает Kling.

Судя по тому, что я прочитал, будет три разных режима:

Standard Mode в Kling 2.1:

Читать далее

Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 2

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.3K

Часть 2 — это гайд по выживанию в мире кривых текстов, а также грамматический апокалипсис, куда мы закинули ChatGPT‑o1, o3, две штуковины от «Яндекса» — «Нейроредактор» и YandexGPT-5-Pro, Text.ru и «Мистера корректора». Заставили их искать опечатки, запятые, кавычки и ошибки уровня «25-го декабря» — и да, это больно.

Зачем терпеть этот разбор? Чтобы не стать тем парнем, чей пост на «Хабре» поправили в комментах. Готовьтесь: тут будут не только баллы, но и таблица, из‑за которой один нейрокорректор плачет в уголке. Да‑да, он снова всё испортил. Поехали разбирать, кто реально исправит ваши «исчо», а кто наделает новых ошибок.

Читать далее

Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.4K

Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала зачёркивать текст... В статье я исследую инструменты, способные сберечь от этих неприятностей. Всё это нацелено на одну задачу: найти лучший инструмент для проверки орфографии и пунктуации.

Эта тема важна для всех, кто взаимодействует с текстом, независимо от того, редактируете ли вы роман, готовите отчёт или пишете пост в соцсетях (да, даже твиты требуют идеальной подачи).

Для обзора я выбрал 13 самых популярных онлайн‑сервисов, приложений и нейросетей, чтобы определить, кто лучше сможет проверить правописание (орфографию и пунктуацию). Мы разберём их по косточкам, выявим силу и слабость каждого участника и, конечно, определим победителя.

(Ну правда, почему ошибки всегда выпрыгивают на глаза только после отправки?)

Читать далее

# Автоматизация цифрового маркетинга с помощью ИИ: системный подход, который работает

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров400

ИИ уже управляет рекламой, воронками и контентом. Петр Жогов показывает, как построить рост без лишней ручной работы.

Читать далее

Ускоряем проверку документов для клинических исследований за счёт пайплайна на базе YandexGPT 5 Pro

Время на прочтение13 мин
Количество просмотров3.6K

В мире ежегодно проводятся тысячи клинических исследований, а в России их количество может доходить до 900 в год. До внедрения в практику новые методы лечения, лекарства и медицинские изделия проходят множество испытаний под строгим контролем. Исследователям необходимо подтверждать безопасность и эффективность метода, а также соответствие самой процедуры испытаний научным стандартам и нормам этики. Эти процессы формализованы и требуют подтверждения официальными документами — но их нельзя свести к одному простому формату, особенно если дело касается этики. Поэтому только проверка пакета документации может занимать недели, а в современных условиях хочется, чтобы эта работа была менее длительной — чтобы пациенты быстрее получали доступ к новым методикам лечения.

В 2025 году команда НМИЦ онкологии им. Н.Н. Петрова вместе с Центром технологий для общества Yandex Cloud и компанией Raft запустила приложение для быстрой обработки документов клинических исследований. Решение на базе большой языковой модели Яндекса помогает специалистам научного центра классифицировать документы, проверять их оформление и содержание по чек‑листу — и это позволяет сократить цикл согласования с нескольких месяцев до 5–10 дней.

Читать далее

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров9.8K

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? 

Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть!

Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok!

Мы вас заинтриговали?

Тогда приятного прочтения!

Как работает решатель капчи на базе ИИ: от OCR до глубокого обучения

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.1K

Капча стала привычным элементом интернета: искажённые тексты, картинки с «найди все светофоры», аудио-загадки и другие испытания, которые призваны отличить человека от машины. Каждый разработчик бот-систем или QA-инженер при автоматизации веб-сценариев хоть раз сталкивался с тем, что скрипт внезапно спотыкается о CAPTCHA. Возникает естественный вопрос: можно ли научить программу решать капчи так же, как это делает человек, – причём быстро и надёжно? В этой статье я попробую разобраться, как устроены ИИ-решатели капчи (AI CAPTCHA solver) – от классических методов OCR до современных нейросетей.

Читать далее

Объяснимый ИИ в ML и DL

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.2K

Объяснимый ИИ — очень важный аспект в ML и DL. Он заключается в том, чтобы интерпретировать модель так, чтобы можно было около прозрачно объяснить ее решения. Потому что это довольно частая необходимость как у конечного заказчика, ведь для них это просто «черный ящик», так и у разработчиков непосредственно (например, для отладки модели). На русском языке таких статей не так много (для тех, кто знает английский проблем с этим нет, на нем таких статей много, например, Kaggle), поэтому я решил, что статья покажется актуальной, и сегодня я попробую рассказать про это и показать на конкретном примере, как его можно реализовать.

Читать далее

Ближайшие события

Как ИИ научился думать картинками

Время на прочтение4 мин
Количество просмотров1.9K

Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным.

Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

Читать далее

Не горе от ума, а ум от голода — откуда LLM такие умные

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4.9K

Когда большие языковые модели начали неожиданно хорошо отвечать на абсолютно разные вопросы и даже вроде бы выходить за те рамки, на которых их обучали, все, конечно, сильно обрадовались. Настолько обрадовались, что наращивать мощности и получать новые крутые результаты оказалось интереснее, чем выяснять, почему вообще LLM работают, как именно они хранят знания и хранят ли их вообще. Этот вопрос интерпретируемости LLM так или иначе стоял всегда, но теперь, когда мы все попривыкли к впечатляющим результатам новых моделей, стал заметнее. 

Макс Тегмарк предложил использовать механистический подход к интерпретируемости, но применять его не к алгоритмам внутри LLM, а к самим знаниям. То есть попробовать выяснить, есть ли внутри моделей какая-то закономерность запоминания или даже понимания. Сразу спойлер (а на самом деле — название статьи) — модели умны от “голода”, это  “intelligence from starvation”. Причем это общий вывод для разных моделей.

Читать далее

Языковые модели для бизнеса: сравниваем малые (SLM) и большие (LLM) модели

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.6K

Большие языковые модели (LLM) звучат впечатляюще, но всегда ли нужно их использовать? Разберемся, в каких случаях стоит использовать LLM, а когда использование малых языковых моделей (SLM) окажется более разумным и экономичным решением без потери качества.

Читать далее

CV/ML-проект от идеи до продакшена: практическое руководство

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.8K

Привет, меня зовут Вадим Медяник, я технический директор ИТ-компании BPA. Я регулярно участвую в реализации проектов, где используется машинное обучение и компьютерное зрение — от первых обсуждений с заказчиком до вывода решения в прод. Со временем накопилось достаточно практики, чтобы выделить повторяющиеся этапы, типичные ошибки и решения, которые реально работают.

Это практическое руководство собрал для коллег и команд, кто работает с подобными проектами — или только планирует. Здесь нет задач про state-of-the-art или подбор идеальных архитектур. Скорее хочу пройтись по каждому этапу — с чего начать, о чём спросить бизнес, где обычно «сыпется» проект, и что помогает пройти до конца. Рассчитано на тех, кто хочет разобраться в базовой структуре CV/ML-проекта, будь то инженер, аналитик или управленец. Если понадобится — можно будет углубиться в технические детали отдельно. Для удобства разделил весь путь подготовки CV-проекта на несколько основных этапов.

Читать далее

На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.8K

START — опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.

Читать далее

Топ-100 нейросетей для генерации текста, кода, изображений, видео и аудио

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров5.6K

После громкого дебюта ChatGPT и Midjourney в 2022 году нейросети стали появляться как грибы после дождя. Интернет наполнился большим количеством сервисов, предлагающих генерацию текста, кода, изображений, видео и аудио по текстовым запросам.

Разумеется, многие из таких сервисов существовали и раньше, однако именно на 2022 и 2023 годы пришелся их рассвет — настолько стремительный и яркий, что неподготовленный пользователь может легко заблудиться в этом новом направлении.

Для выбора подходящего инструмента необходима наглядность — знать, какие сервисы существуют, чем они отличаются и какими возможностями обладают. Так проще разобраться и сложнее запутаться.

В этой статье собраны самые популярные платформы для генерации контента, работающие сразу «из коробки» — открыл, ввел, получил. Их можно классифицировать двумя способами — по контенту и по моделям.

Читать далее

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Время на прочтение7 мин
Количество просмотров14K

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов.

Читать далее

Вклад авторов

Работа

Data Scientist
50 вакансий