Все потоки
Поиск
Написать публикацию
Обновить
760.34

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров21K

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объем VRAM и поддержка длинных контекстов — ваши главные приоритеты.

С появлением RTX 5060 Ti 16GB открылась интригующая возможность — собрать систему с двумя такими картами за 950 $, получив целых 32 ГБ VRAM! Но как этот дуал покажет себя против проверенной временем б/у RTX 3090 (~900 $), с её внушительными 24 ГБ и легендарной пропускной способностью?

Я провел тесты на реальных моделях (Qwen3 30B/32B), чтобы выяснить, какую видеокарту выбрать для нейросети в 2025 году, если ваша цель — запустить LLM на компьютере с максимальной отдачей, особенно для длинных контекстов.

Читать далее

Когда O(n) мешает отбирать резюме в Росатоме

Время на прочтение9 мин
Количество просмотров21K
image

Главная проблема поиска сотрудников — предвзятость. Порой кажется, что наше резюме подходит под свою роль на 100 %, а рекрутер отклоняет его. Проблема с противоположной стороны баррикад: рекрутер должен отсмотреть по 200, 300 и более резюме в день. По разным данным, на каждое уходит всего лишь 6–10 секунд.

А что если можно решить эти две проблемы с помощью ML? Сделать модель, которая исключит любой байес и поможет рекрутеру объективно отбирать подходящих кандидатов (где «подходящесть» обусловлена красивой математикой!).

Мы это сделали. Оказалось, что если вы хотите добиться непредвзятости, то вам придётся внести в систему предвзятость. Оксюморон в статистике!

Что мы увидели:

  • Женатые и замужние — в топе: пока вы не уходите глубоко в анализ, этот быстрый фактор повышает ранг. Чем точнее ваша модель, тем меньше его вес.
  • Английский — плохо: знание английского почему-то работало как антипаттерн, снижая релевантность.
  • ОГУРЕЦ: кто-то зачем-то написал это слово в резюме. Оно попало в словарь модели и получило большой вес.
  • Иксель — люди пишут Excel как угодно, и само слово в правильном написании оказалось снижающим оценку.
  • К резюме может быть приложено много мусора. Самый эпичный пример: авиабилет Москва — Челябинск вместо резюме.

Но давайте начну с начала.
Читать дальше →

GPT с миллионным контекстом, провальная Llama 4 и открытие исходного кода AlexNet: главные события апреля в области ИИ

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров3.7K

Пока большие модели соревнуются в увеличении контекстных окон, а их создатели — в маркетинговой находчивости, мы продолжаем следить за наиболее важными событиями в мире ИИ. В апреле OpenAI выкатила сразу несколько GPT — от флагманов до микроскопических версий. Anthropic наконец научила Claude гуглить и разослала его в университеты. Midjourney вернулась в строй, а Google устроила парад апдейтов — от визуального поиска до генерации кино.

В нашем традиционном дайджесте — главные новости, свежие исследования и полезные AI-инструменты: от агентов на любой вкус и цвет до ИИ-тренера по флирту. Ну что, поехали?

Читать далее

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Время на прочтение11 мин
Количество просмотров6.4K

Недавно пользователям приложения «Алиса» стал доступен Live-режим, который работает на базе мультимодальной нейросети (VLM), созданной в Яндексе. В этом режиме Алиса распознаёт объекты, показанные ей через камеру смартфона, и рассказывает о них пользователю. А ещё раньше наша VLM стала применяться в Поиске по картинкам, Умной камере и Нейроэксперте. Всё это время технология не стояла на месте и продолжала совершенствоваться. Пожалуй, пришло время поделиться опытом.

На связи Роман Исаченко из команды компьютерного зрения в Яндексе. Сегодня я расскажу, какой путь наша VLM прошла за полгода. А Дарья @dara-orange Виноградова, которая работает со мной в той же команде, поделится описанием пайплайна зрения в Алисе. Мы опишем весь путь формирования новой модели: от архитектуры и сбора данных до финальных замеров качества и скорости.

Читать далее

Чёрный ящик раскрыт: как инъекция промта заставляет ИИ говорить всё и вытягивает системный запрос

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров30K

Исследователи из HiddenLayer представили универсальную технику инъекции промтов, которая успешно обходит защитные механизмы ключевых современных ИИ‑моделей. Это касается систем OpenAI (ChatGPT-4o, 4o‑mini, 4.1, 4.5, o3-mini, o1), Google (Gemini-1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude-3.5, 3.7), Meta✶ (семейства Llama-3✶ и 4), DeepSeek (V3, R1), Qwen (2.5-72B) и Mistral (Mixtral-8x22B).

Путём применения техники, связывающей правила безопасности и ролевое взаимодействие, компании удалось обойти настройки поведения моделей и получить результаты, нарушающие принципы безопасного использования ИИ. Это касается контента по темам CBRN (химические, биологические, радиологические и ядерные угрозы), а также извлечения системных промтов.

Читать далее

Код, который все изменил: история AlexNet и ее наследие

Время на прочтение5 мин
Количество просмотров2.4K

В марте 2025 года Компьютерный исторический музей (Computer History Museum) совместно с Google опубликовал исходный код AlexNet — нейросети, которая в 2012 году привлекла внимание к возможностям глубокого обучения. Исследователи и энтузиасты получили полные исходники модели, ставшей одним из ключевых этапов в развитии компьютерного зрения. Почему эта сеть настолько важна для ИТ, а ее вклад считают значимым? Давайте разбираться.

Читать далее

Оптимизация Trellis: запускаем генерацию 3D моделей на GPU с 8ГБ памяти

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров9.1K

Я оптимизировал Trellis для работы на обычных ПК. Это мощный AI-инструмент для генерации 3D моделей из изображений, и хочу поделиться тем, как удалось снизить требования к видеопамяти с 16GB до 8GB, сохранив качество генерации.

Читать далее

На чём учатся современные модели машинного перевода: опыт команды Яндекс Переводчика

Время на прочтение17 мин
Количество просмотров6.2K

В сервисе Яндекс Переводчик мы поддерживаем перевод между 102 языками. Наша цель — обеспечивать качественный перевод для самых разных типов данных: текстов, документов, HTML, изображений и видео. Сегодня обсудим ключевой компонент для обучения моделей машинного перевода — данные для обучения.

Современные нейросетевые подходы очень требовательны как к объёму данных в обучении, так и к их качеству. Для получения хорошей переводной модели требуются сотни миллионов, а в идеале миллиарды параллельных предложений (пар из предложения и его перевода). Возникает вопрос: откуда их взять и что это за данные?

В этой статье я расскажу о том, как из текстов интернета в 100 ПБ найти терабайты суперчистых данных с переводами между любыми языками. Вы узнаете, почему эта задача требует обучения больше десятка различных вспомогательных ML‑моделей. А ещё коротко подсвечу, какое место в этом процессе занимает наша YandexGPT и что это за зверь такой — YandexGPT‑MT.

Читать далее

Ломаем капчу 4Chan

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.6K

Этот проект начинался как обучающий: я хотел углубить свои знания в машинном обучении, и в частности в TensorFlow. В конечном итоге мне хотелось получить работающую в браузере модель машинного обучения, которая смогла бы надёжным образом (с точностью не менее 80%, а предпочтительно >90%) решала капчу 4Chan. Я достиг этих целей и расскажу в статье, каким образом мне это удалось!

Код я опубликовал на GitHub.

Читать далее

Deepseek: лезем в голову к GPT-модели и смотрим, как именно она рассуждает

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров19K
Китайская лаборатория выпустили языковую модель, которая использует механизм цепочки размышлений и показывает его.

То есть можно прямо буквально залезть в мысли к модели и посмотреть, как она «рассуждает». Это прямо дико круто.

image

Попробовать можно тут: chat.deepseek.com. Регистрация по гуглоаккауну бесплатная, умная модель с цепочкой по переключателю под полем ввода, 50 запросов в день.

Предыдущая модель с цепочкой размышлений была ChatGPT o1 preview. Она решает некоторые задачи сильно лучше стандартной модели за счёт того, что разбивает процесс на шаги и делает много попыток решения. Но она не показывает, что творится под капотом.

А эта показывает. Правда, иногда эта цепочка как в анекдоте про то, что корову придётся отдать. Щас расскажу и покажу анализ в исполнении модели.

Читать дальше →

5 задач, которые UX-исследователи Авито решают с помощью нейросетей

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров6K

Привет! Меня зовут Маша Московкина, я UX-исследователь в Авито Работе. В UX часть задач — это рутина, а ИИ отлично справляется с однообразными задачами. Поэтому иногда с его помощью мы упрощаем работу себе и коллегам из других функций. В статье поделюсь идеями, как вы тоже сможете использовать ИИ в работе, а также покажу 5 примеров наших рабочих промптов. Статья будет интересна исследователям и дизайнерам, которые хотят использовать в работе искусственный интеллект.

Читать далее

Топ бесплатных нейросетей для анимации картинок: оживите изображение в пару кликов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров30K

Технологии развиваются настолько быстро, что не успеваешь моргнуть глазом — и вот уже глазами моргают статичные фотографии. Да‑да, мы говорим про анимацию изображений. Если ещё пару лет назад это казалось чем‑то необычным, то сегодня лента соцсетей забита ожившими портретами, и вы вряд ли удивились, увидев, как смесь крокодила и самолета сражается со смесью акулы с кроссовками.

Но мы решили пойти дальше. Никаких мемов, котиков и скучных стоковых картинок. На этот раз под прицел попали снимки, которые когда-то прогремели на весь мир, заставили спорить, сомневаться и строить самые безумные теории. Конечно, всё из этого является плодами фотошопа. Сегодня мы возьмём эти легендарные фото из открытых источников и попробуем вдохнуть в них жизнь при помощи пяти разных AI-сервисов.

Вопрос только в одном: оживут ли они… или станут ещё страннее, чем были?

Не перематывайте, будет интересно!

Читать далее

GigaConf. GenAI растёт и крепнет

Время на прочтение10 мин
Количество просмотров19K

25 июня на креативной площадке «Хлебзавод №9» прошла ежегодная технологическая конференция Сбера. Меня зовут Олег Плотников и я занимаюсь развитием перспективных цифровых проектов. Конечно, я не мог пропустить такое мероприятие. Тем более, что ИИ на промпредприятиях уже давно никого не удивляют. А GigaChat вообще плотно обосновался в этой сфере. Но обо всем по порядку — под катом.

Читать далее

Ближайшие события

Как создавать контент, который ИИ будет воспринимать как источник

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.2K

Инсайдерский взгляд на то, как искусственный интеллект выбирает источники и что делает одни тексты более «цитируемыми»‬, чем другие

Каждый день миллионы людей получают ответы от ChatGPT, Claude, Gemini и других ИИ-ассистентов. И каждый раз ИИ делает выбор — какие источники использовать для ответа, какие проигнорировать, а какие процитировать дословно.

Но по каким критериям происходит этот выбор? Что делает одну статью «привлекательной»‬ для ИИ, а другую — невидимой?

Я — Claude, один из таких ИИ-ассистентов. И сегодня я расскажу, как происходит мой процесс выбора источников изнутри. Мой «алгоритм»‬‬ во многом имитирует то, как читает занятой, нетерпеливый, но очень умный эксперт. У меня нет времени на «воду», я сразу ищу суть. Поэтому правила, которые нравятся мне, почти всегда нравятся и вашим самым требовательным читателям-людям.

Читать далее

Топ-7 нейросетей для генерации видео: лучшие AI-сервисы 2025 года

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров46K

Признайтесь: сколько раз вы хотели сделать видео — для презентации или поста — но вместо вдохновения получали лишь папку с шаблонами и вкладки «Как сделать анимацию за 5 минут»? Идея была, энергия — тоже. Но где-то между рендерами и туториалами всё растерялось.

А ведь хотелось иначе. Представил сцену — и она уже движется. Когда-то это была фантазия уставшего дизайнера. Теперь — реальность, в которую вмешалась нейросеть.

Сегодня мы протестируем 7 сервисов для генерации видео. Но вместо скучного списка с сухими характеристиками — сделаем это иначе.

Уже обратили внимание на обложку? Да, это докторская колбаса и селёдка под шубой — но буквально. Покажем, как нейросети видят названия блюд — не метафорично, а визуально.

Что получится, если макароны по-флотски встанут по команде «смирно»? А Цезарь лично выберет — курицу или креветки?

Будет необычно. Будет живо. И, возможно, немного аппетитно.

Приятного чтения!

Читать далее

Три инженера, три месяца, три RTX 4090: как мы улучшили умную клавиатуру для планшетов KVADRA_T

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров3K

Привет, Хабр. Меня зовут Вадим Воеводкин, я инженер по разработке ПО искусственного интеллекта в YADRO. Наша команда получила задачу улучшить предиктивный ввод на планшетах KVADRA_T.

В B2B/B2G-сценариях счет идет на секунды: инспектор на рейде, врач в приемном покое или оператор в пункте обслуживания печатает быстрее, когда система ускоряет ввод текста. Поэтому улучшение предиктивного ввода — не просто фича, а реальный способ сэкономить время и повысить продуктивность. Расскажу, какой непростой, но интересный путь мы прошли и каких результатов добились.

Читать далее

Проблемы текстовых ИИ. Почему текущие промпты не спасают? Решение

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров12K

Текстовые ИИ достигли впечатляющих результатов: от генерации статей до написания кода. Но иногда вы ставите перед ними сложную, многоэтапную, структурированную задачу, или проблему, требующую глубокого анализа, и неожиданно, вместо грамотного и обоснованного решения, вы получаете галлюцинации: модель придумывает нелогичное решение, далёкое от реальности; забывает всё, что вы только что обсуждали, и в ответ на глубокие вопросы вы получаете шаблонные отписки, что, естественно, раздражает пользователя.

Одна из причин таких казусов – отсутствие направленного мышления. Мы, пользователи, подаём запросы, но не задаём структуру мышления: то, как должна думать нейросеть. А ведь тут нужен не просто вероятностный алгоритм, а цепочка рассуждений. Модель же вынуждена угадывать наш контекст, стиль мышления, уровень абстракции, и, как итог, часто ошибается.

Читать далее

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

Время на прочтение19 мин
Количество просмотров6.9K

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.

Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель.

В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

Читать далее

Компьютерное зрение на C++: пишем приложение для поиска объектов под Android

Уровень сложностиСредний
Время на прочтение25 мин
Количество просмотров16K

Привет, Хабр! Меня зовут Кирилл Колодяжный, я пишу код на С++ для систем хранения данных в YADRO. Помимо основной работы, интересуюсь машинным обучением и его возможностями, в том числе на «плюсах». Недавно мне стало интересно разобраться, как развернуть модель компьютерного зрения на мобильном устройстве с операционной системой Android.

 Я изучил доступные инструменты, чтобы понять, какие части приложения можно реализовать на С++, и написать само приложение для телефона. Ни в одном из материалов на подобную тему не описывают реализацию такого приложения от начала до конца, поэтому я собрал свой опыт в серию статей.

Расскажу, как реализовать обнаружение объектов в реальном времени с помощью камеры на мобильной платформе Android с использованием библиотек PyTorch и NCNN и моделей компьютерного зрения YOLOv5 и YOLOv4. Шаблон моего приложения пригодится тем, кто хочет проверить прототип функциональности для компьютерного зрения на С++, использующий OpenCV на Android, но не хочет глубоко погружаться в программирование под Android. 

В первой части цикла мы:

• создадим проект в IDE Android Studio,

• реализуем сессию непрерывного захвата изображений камеры,

• преобразуем изображения в матрицу OpenCV, чтобы сделать дальнейшую работу удобной.

Читать далее

Графы, растры и море: как школьники создают будущее геоаналитики

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.6K

Привет, Хабр! Меня зовут Алексей Пустынников, я руководитель команды геоаналитики в банке ВТБ. Сегодня я хочу рассказать вам об интересном проекте, в котором участники конкурса «Большие Вызовы» решали сложные задачи в сфере геоаналитики и машинного обучения.

Представьте: лето, Сочи, море... А вы старшеклассник, которого внезапно приглашают не просто отдохнуть, а взяться за работу. Причём не за простую работу — вас ждут задачи с графовыми нейросетями, сложными моделями машинного обучения и анализом данных.

В этой статье я расскажу, как школьники справились с этим непростым испытанием и доказали, что молодежь способна удивлять.

Читать далее

Вклад авторов