Все потоки
Поиск
Написать публикацию
Обновить
775.83

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

Нейросети без градиентов: спектральное моделирование и построение решений

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров6.8K

В статье предлагается альтернативный подход к построению нейронных сетей без использования алгоритма обратного распространения ошибки. Вместо оптимизации весов с помощью градиентов рассматривается прямой спектральный синтез решений, основанный на анализе гармонического содержания сигналов. На примере логических функций XOR, AND и OR показано, как линейные и нелинейные преобразования влияют на спектр входных данных и как эти преобразования можно использовать для ручной сборки нейросетевых структур. Отдельное внимание уделяется роли функций активации как спектральных операторов. В завершение обсуждаются ограничения классического подхода к обучению и обозначаются перспективы использования частотного кодирования, которое будет рассмотрено в следующей статье.

Читать далее

Нейро-дайджест: ключевые события мира AI за 3-ю неделю мая 2025

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров2.1K

Привет! 👋 Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

На этой неделе навела шуму презентация Google I/O — и принесла больше анонсов, чем весь прошлый месяц. Также вышли мощные модели от Anthropic, Mistral и ByteDance, появилась экспериментальная диффузионка от Google, ИИ впервые вышел в космос, а ChatGPT o3 — отказался выключаться. 

Всё самое важное — в одном месте. Поехали!

Читать прошлый выпуск

Читать далее

Код, железо, стратегия: в чем секрет победителей ML-соревнований?

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.7K

Кто из вас участвовал в соревнованиях по машинному обучению? А кто выигрывал? В мире ML олимпиады, хакатоны и прочие состязания — это не просто способ проверить свои навыки. Это полигон, где рождаются и проверяются новые подходы к решению сложных задач.

В 2024 году прошло более 400 таких соревнований с общим призовым фондом свыше $22 миллионов. Но кто же эти люди, которые выиграли этот куш? И что такого они сделали, чтобы обойти других?

Мы проанализировали отчет The State of Machine Learning Competitions 2024 и выделили из него самые ценные моменты для практикующих разработчиков. Если хотите узнать, что на самом деле отличает победителей от остальных участников, то этот материал для вас.

Читать далее

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

Время на прочтение10 мин
Количество просмотров18K

Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний. Поделюсь опытом определения критериев качества, сбора валидационного датасета, подбора промптов и выбора модели. Результаты оказались обнадёживающими: метод действительно позволяет улучшить генеративную систему без участия ручной разметки и асессоров.

Читать далее

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров5.1K

При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.

Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

Читать далее

Четыре месяца дебатов реддиторов и ботнета на языковых моделях показали: машины спорят не хуже людей

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров2K

26 апреля модераторы сообщества /r/changemyview на Reddit объявили, что учёные Цюрихского университета четыре месяца тайно публиковали сгенерированные ИИ комментарии. Этичность эксперимента вызвала споры, хотя сами исследователи считают его допустимым. Как оказалось, боты на языковых моделях успешно спорили с участниками сообщества.

Читать далее

Как мы научили GigaChat слышать: погружение в аудиомодальность

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров6.7K

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat, эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте!

Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

Читать далее

Как мы освободили операторов от классификации текстов диалогов на 1000+ классов

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.9K

Всем привет! Меня зовут Наумов Герман, я работаю в Лаборатории машинного обучения Альфа-Банка, и я расскажу, как мы автоматизировали внутренние процессы, упростили работу операторов чата с физическими лицами. Задача не особо простая и тюнингом гиперпараметров как на Kaggle не решается. Но решается.

Читать далее

Код, теория и практика: подборка книг по NLP

Время на прочтение6 мин
Количество просмотров5.1K

Привет! Это Никита Малыхин, Tech Lead в команде AdTech в Центре Big Data МТС. В прошлый раз я поделился подборкой книг о нейронных сетях и рекомендательных системах. В 2к25 поиск практических советов по NLP в книгах может выглядеть как сизифов труд, ведь это одно из самых быстроразвивающихся направлений в ML. Тем не менее, сегодня будет втораячасть подборки — на этот раз сфокусируемся на материалах по естественному языку и книгам с практическими советами по машинному обучению. Хорошие специалисты в этой сфере на вес золота, а книги как раз помогают прокачать навыки. Все будет по делу, с примерами и практикой. Поехали!

Читать далее

Как научить модель рассуждать, не переобучая её, меньше чем за 10$

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров3.9K

Это статья обобщение моего исследования передачи знаний от большой модели с замороженными весами в малую модель, которую мы будем обучать через расширенный механизм кросс внимания или проще говоря через LLM модули. Оригинальное исследование доступно по ссылке: arxiv.org/abs/2502.08213 . Репозиторий с кодом и весами доступен на Hugging Face: LLM модули.

Само исследование появилось из необходимости использовать знания больших обученных моделей в ограниченных рамках для четкого списка задач, при этом ни бюджета ни мощностей на файн-тюнинг моделей, даже не слишком больших, нет.

Читать далее

DeepSeek штурмует рейтинги, OpenAI запускает первого автономного агента: главные события января в сфере ИИ

Время на прочтение19 мин
Количество просмотров6.3K

Первый месяц 2025 года задал высокую планку для развития ИИ. DeepSeek выпустила открытую модель уровня о-1, которая переполошила весь интернет и обрушила акции гигантов индустрии. Американские коллеги ответили настоящим шквалом релизов: OpenAI анонсировала сразу три значимых обновления, а NVIDIA презентовала новую линейку RTX и бюджетный суперкомпьютер для работы с ИИ-моделями.

Пока все отходили от новогодних праздников, индустрия ИИ продолжала развиваться с космической скоростью. Разбираем главные события января: новые модели, неожиданные исследования и амбициозные проекты.

Читать далее

Менеджер данных: как новая роль изменила подход к работе с ML

Время на прочтение10 мин
Количество просмотров4.2K

Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. 

Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. 

В этой статье я расскажу:

🌚 Кто такой менеджер данных и чем он занимается.

🦾 Как эта роль помогла нашей команде ML-инженеров.

🔜 Когда такой специалист может понадобиться вам.

🔎 Как найти подходящего кандидата на эту позицию.

Читать далее

Делаем быстрый, качественный и доступный синтез на языках России — нужно ваше участие

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.8K

Привет, Хабр!

В этом году мы делаем проект Фонда Бортника по разработке модели синтеза речи языков России и СНГ. Возможно, нас на Хабре вы знаете по статьям про синтез речи, детектор голоса или через одного популярного бота для озвучки в Телеграме (на всякий не буду ссылку прикладывать).

Наша основная задача - сделать удобный, быстрый, устойчивый, качественный и нетребовательный к вычислительным ресурсам синтез на самых популярных у нас в стране и в ближайшем зарубежье языках.

По итогу проекта планируется публикация общедоступных моделей синтеза языка под свободной лицензией (MIT). Мы бы хотели покрыть как минимум 10 популярных языков. Всего популярных языков (более 100 тысяч носителей) 30+, так что, в принципе, тут есть, где разгуляться.

Поэтому ищем людей, у которых два родных языка (русский и второй родной), которые бы помогли нам с рядом вещей:

С чем?

Ближайшие события

Путь в 10 000 токенов: как ML помогает технической поддержке Yandex Cloud

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.6K

Меня зовут Евгений, и я работаю над инструментами автоматизации для поддержки Yandex Cloud. Моя главная цель проста — избавить людей от рутины. Если задачу можно легко решить с помощью LLM, то инженеры освобождаются для более творческих и нетривиальных задач, а пользователи получают результат со стабильным качеством.

В этой статье хочу поделиться несколькими инструментами, которые опираются на большую языковую модель Яндекса и помогают нашим коллегам упрощать шаблонные операции и сохранять высокий SLA.

Читать далее

Деменция LLM: как языковые модели забывают, зачем учились, и что из этого следует

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров7.3K

Привет, Хабр! Меня зовут Руслан Абдуллин, я работаю в отделе аналитических систем R-Style Softlab и занимаюсь созданием и продвижением сервисов на основе искусственного интеллекта.

Недавно мне попалась научная статья, которая затронула давно интересующий меня вопрос: что будет, если новые модели будут обучаться на данных, которые создавались с помощью другой LLM? Дальше прилагаю вольный пересказ/перевод статьи статьи с ключевыми моментами, сокращениями и некоторыми пояснениями (выделены курсивом). И, конечно, жду вас в комментах для обсуждения. Оригинал и полный текст статьи можно прочитать здесь.

Читать далее

Почему галлюцинируют нейросети [и что с этим делают]

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров9.2K

Австрийский математик Курт Гёдель еще в 1931 году сформулировал и доказал две теоремы о неполноте. В общем случае первая теорема гласит, что всякая непротиворечивая теория имеет утверждения, которые нельзя доказать средствами этой теории. Теорема оказала значительное влияние на различные научные области и в некоторой степени может способствовать пониманию того, почему галлюцинации в системах ИИ неизбежны. 

Сегодня мы обсудим, как современные исследователи решают проблему галлюцинаций LLM, какие методы для этого применяют и как выгодно использовать виртуальную инфраструктуру с GPU для обучения нейросетей.

Читать далее

Nvidia тюнингует LLaMA, нобелевские лауреаты ликуют, исследователи Apple ищут логику: главные события октября в сфере ИИ

Время на прочтение11 мин
Количество просмотров3.1K

Делимся подборкой важных и интересных событий из мира AI и машинного обучения за последний месяц. Сегодня в программе: Нобелевские премии за прорывы в ИИ, новые модели от tech-гигантов, 70 000 новых вирусов и затерянные в пустыне города, а также обзор свежих инструментов для работы с нейросетями. 

Мы расскажем о последних достижениях в области генерации контента и новых фреймворках для разработчиков, а также поделимся интересными исследованиями, которые могут изменить наше понимание возможностей языковых моделей.

Читать далее

LLM агент для работы с Google Spreadsheets

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3K

Салют, Хабр! На связи Арсенин Никита из команды R&D в SberDevices. Сегодня я хочу рассказать про одно из наших направлений исследований — разработку агентских систем на основе больших языковых моделей.

В этой статье мы постараемся сделать обзорный тур по ключевым технологическим аспектам проектирования и реализации LLM‑агентов, рассмотрим способы работы связок LLM и функций, некоторые компоненты мультиагентных систем, методы контролируемой генерации и повышения робастности. Кроме того, представим и подробно опишем архитектуру и способ построения одного из прототипов LLM‑агентов, нацеленных на выполнение задач в Google SpreadSheets.

Наш LLM‑агент был реализован при помощи SDK GigaChain и GigaGraph, адаптированными под работу с GigaChat. Вы можете посмотреть на итоговую версию Google SpreadSheets агента в репозитории или начать разработку своего агента с вводного туториала.

Читать далее

Пока не исправили — модифицируй, или Анализ расширений атаки уклонения для LLM

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.1K

Добрый день, уважаемые читатели Хабра. В связи с бурным развитием генеративных моделей и реализованных на них чат‑ботов (ChatGPT, Gemini, Bard, Notion AI, Compose AI, Poe, Phind) у пользователя появляется ложное чувство, что модели стали умнее, защищённее и, в целом, ближе к совершенству, сравнимы с человеческим интеллектом. Отсюда мы получаем целый пласт заблуждений. Например, что модели нас «чувствуют», «понимают», ведь мы выкладываем для них столько информации о себе, начиная от стилистики нашего письма, что уже является неким цифровым отпечатком нашей личности, и заканчивая оценкой их собственной работы. На самом деле это миф. И трендом 2023–2024 годов стало обширное внимание публики к XAI:

как они (генеративные модели) устроены и как они принимают решения;

как проводятся атаки уклонения (склонение моделей к неверной выдаче);

как эти атаки (уклонения) связаны с другими атаками на LLM и какие они могут быть для эскалации деструктивного поведения системы;

с какой позиции верно интерпретировать выход генеративной модели;

разработка системы эшелонированной защиты моделей;

разработка системы внутреннего критика для модели.

Для начала начнём с существующих атак и их анализа. Заинтересованных приглашаем под кат.

Читать далее

В ногу с дипфейками: применение технологии и этические аспекты

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

Технология «deepfake» несёт в себе глубокие этические последствия, усиливая опасения по поводу дезинформации и манипуляций. Плавно смешивая сфабрикованный контент с реальностью, дипфейки подрывают доверие к СМИ и общественному дискурсу. А так как образы людей эксплуатируются без их согласия, это ставит под угрозу и личную безопасность. 

Проблемы с доверием усиливаются, поскольку отличить правду от лжи становится всё более сложной задачей. Смягчение этих этических затруднений требует упреждающих мер, включая надёжные системы обнаружения и нормативные рамки.

Читать далее

Вклад авторов