Обновить
702.16

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Как оценить качество машинного перевода

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров446

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

В данной статье рассматриваются две наиболее распространенные метрики для оценки качества перевода — BLEU и COMET. Также проводится анализ того, как проверить статистическую значимость различий между двумя системами перевода, используя эти метрики.

Читать далее

Почему «больше токенов ≠ лучше» или Как научить LLM работать с длинным контекстом

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.8K

Всем привет! Меня зовут Наталья Бруй, я промпт-инженер в MWS AI. Вместе с моей коллегой  Анастасией Тищенковой мы решили ответить на вопрос, который мучает нашего пиарщика многих – почему больше токенов не равно лучше и  как заставить LLM работать адекватно на длинном контексте. 

Если вы создаете ИИ-решения для работы с большим объемом документов и хотите, чтобы LLM вам в этом помогала ( отвечала на вопросы по содержанию, генерировала запросы и заявления на их основе, делала резюме и и пр.) не абы как, а опираясь на выданные ей данные, тогда вам под кат. 

Оговорочка: эта статья для тех, кто находится на первых этапах освоения темы работы с длинным контекстом и вовлечен в создание каких-нибудь новых ИИ-продуктов на основе языковых моделей. Если вы уже две диссертации об этом написали, тогда можете сразу в комментариях ссылки оставить – мы почитаем. 

Читать далее

Как я с помощью LLM писал эмулятор ZX Spectrum

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.1K

... или может ли ИИ заменить программиста? Сейчас со всех сторон долбят про то, как ИИ помогает в жизни и вообще, если ты не используешь ИИ, то ты в отстающих и лузер. Я к этому отношусь спокойно, ибо мои занятия совершенно не допускают использование ИИ из-за очень большой цены ошибки, но долбежка все-таки делает свое дело. Плюс как-то внезапно обнаружил, что у (не реклама) cloud.ru доступны Foundation Models (они же БЯМ, они же LLM) без оплаты. Понятное дело, тестовый период и прочее, но использовать можно. Но просто мучать модельки вопросами уровня «сколько цифр в слове» смысла мало, поэтому решил попробовать сделать что-то хоть капельку полезного и получить собственный ответ на вопрос пригодности БЯМ. Результат для нетерпеливых тут https://github.com/kiltum/zxgo

Далее несколько абзацев истории, чтобы просто было понятно, каким путем я шел до результата. Скажу честно, выбор места приложения сил БЯМки был сделан довольно быстро: напиши мне много кода. Раз пока все бесплатно, выбрал самый большой Qwen и предложил ему написать эмулятор КР580ВМ80А (он же Intel 8080), причем на питоне. И внезапно, он с первой попытки сгенерил что-то очень похожее на правду. Хмыкнув, я нашел образ ПЗУ от Радио-86 и зарядил еще пару десятков запросов. Вскоре я с глубоким удовлетворением увидел в окошке заветное «РАДИО 86-РК» и следом «-->». 

Немного порадовавшись результату, я преисполнился энтузиазма и решил поднять ставки. Z80 и ZX Spectrum! Культовая машина, все нюансы которой разложены по полочкам и по которой документации на порядки больше, чем для «радио»,«микроши» и «специалиста» вместе взятых. А чтобы было совсем хардкорно, основным языком я выбрал С++.

Читать далее

Предобусловливание и импульс в оптимизации: взгляд на алгоритмы PHB/PN от исследователей Яндекса

Время на прочтение15 мин
Количество просмотров954

Современные задачи оптимизации в машинном обучении часто оказываются плохо обусловленными — грубо говоря, их ландшафт имеет долины с резко различающейся кривизной. В таких случаях методы на основе градиентного спуска сходятся медленно: шаг, выбранный для устойчивости на одном участке, оказывается слишком малым на другом. 

Для ускорения сходимости широко применяются методы с механизмом импульса (momentum): классический метод Поляка — Heavy Ball (HB) — и метод Нестерова (ускоренный градиент). Оба эти метода используют идею накапливать «инерцию» градиента, благодаря чему могут двигаться по направлению оптимума быстрее обычного градиентного спуска. 

Однако, хотя импульс позволяет ускорить алгоритм, сам по себе он не решает проблему плохой обусловленности функции. В таких ситуациях на помощь приходит предобусловливание — масштабирование шагов оптимизации по разным координатам на основе дополнительной информации о функции, чтобы выровнять скорость сходимости по различным направлениям задачи. 

Всем привет! Меня зовут Степан Трифонов, я аналитик‑разработчик в Яндекс Пэй. Недавно мы с коллегами, Леонидом Левиным и Савелием Чежеговым, опубликовали научную статью Incorporating Preconditioning into Accelerated Approaches: Theoretical Guarantees and Practical Improvement, где ввели предобусловленные версии классических ускоренных методов — Preconditioned Heavy Ball (PHB) и Preconditioned Nesterov (PN) — и доказали для них оценки сходимости при весьма общих допущениях на предобусловливающую матрицу. Также мы провели численные эксперименты, которые продемонстрировали практический выигрыш новых алгоритмов по сравнению с обычными (непредобусловленными) методами HB и Нестерова.

Читать далее

Наука для бизнеса: что внедрять завтра (анализ 134 195 научных работ 2025 года)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.3K

Чтобы понять, какие технологии будут определять рынок завтра, компании опираются на прогнозы/отчёты аналитиков или анализируют патенты. Но есть источник, который часто опережает и патенты – научные публикации. Далее о том, как я проанализировала 134195 научных статей 2025 года, чтобы ответить на вопрос, на какие технологии делать ставку прямо сейчас.

Читать далее

AI-генерация тестов: как превратить 3 месяца работы в 1 неделю

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров3.1K

AI генерирует тесты, но 95% из них не работают — галлюцинирует классы,
путает поля, использует несуществующие API. Знакомо? Мы в отделе RAPID прошли через
это на проекте с биржевым протоколом TWIME. Делимся итеративным подходом:
как за 3 шага превратить хаос из 307 тестов в 109 работающих.
С конкретными промптами, метриками и выводами.

Читать далее

Часть 2. Победа над каракулями: бенчмарки Attention/ControlNet/Canva и готовые рецепты

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров392

Привет, чемпионы! Мы детально разобрали природу проблемы и изучили арсенал методов. Теперь перейдем к самому важному — практическим результатам. Я протестировал каждый подход на реальной задаче создания инфографики "Agentic AI Explained" и готов показать, что действительно работает.

Читать далее

Сможет ли языковая модель научиться читать биржевые графики? Эксперимент с LLM на данных Московской биржи

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров12K

Представьте опытного трейдера: наверняка он не говорит котировками и не рассказывает про индикаторы — он просто говорит «сильный тренд», «пробой уровня» или «ложный отскок». Для него график это язык: свечи, объёмы и уровни складываются в понятные фразы о том, что сейчас происходит на рынке. Именно от этой человеческой интуиции я и отталкивался в своём эксперименте.

Идея была такая: а что, если научить искусственный интеллект понимать этот язык? Не подавать модели сырые числа, а переводить бары и объёмы в текстовые описания наблюдаемых паттернов и кормить ими языковую модель. Гипотеза была что в тексте уже будет содержатся достаточно данных, чтобы модель научилась связывать недавнюю торговую историю с тем, пойдёт ли цена вверх на следующий день.

Инструмент эксперимента — модель distilbert‑base‑uncased с Hugging Face и это облегчённая, быстрая версия BERT для понимания языка. Мне показалось это практичным выбором для прототипа — позволяет быстро проверять разные способы текстовой разметки без гигантских ресурсов. Цель была чёткая: по текстовому описанию недавней истории торгов предсказать рост цены на следующий день.

Но это исследование моя попытка представления рыночных данных как языка, а не попытка сразу создать алгоритм для автотрейдинга. Ещё важно: это мой личный эксперимент, проведённый одним человеком и выполненный однократно. Результаты дали интересные наблюдения.

Расскажу, как происходила разметка графиков в текст, какие шаблоны сработали лучше и какие метрики использовались. Также отмечу ограничения подхода и идеи для повторных экспериментов.

А ещё весь код уже на GitHub.

Анализ и код

Как агент учится на ходу: почему память оказалась сильнее дообучения

Время на прочтение4 мин
Количество просмотров1.5K

ИИ-агенты с каждым годом решают всё более сложные задачи — кажется, что до автомобиля без водителя или сверхумного личного ассистента рукой подать. Но как только доходит до настоящей работы — где действий сотни, приложения переключаются туда-сюда и всё зависит от прошлого опыта — они удивительно часто спотыкаются. Модели становятся мощнее, но забывают вчерашние ошибки, не учатся на них и снова наступают на те же грабли.

Новое исследование меняет привычный подход: оказывается, чтобы агент стал умнее, дело не столько в дообучении или размерах модели. Гораздо важнее — встроенная память, которая сохраняет удачные решения, учит быстро находить выход из тупиков и, главное, формирует привычку рефлексировать. Такой подход уже позволил простой модели обогнать продвинутых конкурентов в длинных офисных задачах и находить неожиданные, а порой даже очень “человеческие” решения.

Здесь разбираемся, как агенты учатся использовать свой опыт на лету, почему память и рефлексия меняют всё для ИИ — и чем это грозит (или радует) тем, кто ждет настоящих самостоятельных цифровых помощников.

Читать далее

Как ИИ меняет науку, строит новую экономику и управляет дронами – топ-10 исследований ИИ за сентябрь 2025

Время на прочтение15 мин
Количество просмотров2.1K

В сентябре 2025 года мы увидели как вместо одной гигантской нейросети с миллиардами параметров рождается федерация интеллектов — распределённая экосистема, где небольшие модели обмениваются знаниями, координируют усилия и достигают результатов, недоступных каждой из них поодиночке.

В этом обзоре вы узнаете, как ИИ научился открывать новое научное знание, создавать игровые миры и понимать реальность через смыслы, проектировать сложные системы и даже управлять дронами. В финале вы узнаете чем наш мозг похож на большую языковую модель.

Читать далее

Пожиратель токенов (или нет): анатомия протокола MCP для ИИ-агентов

Время на прочтение9 мин
Количество просмотров2.6K

Поводом написания этой статьи послужил подслушанный диалог:

— А на чем у вас агенты написаны?

— У нас на MCP!

Для меня MCP всегда был просто протоколом, то есть именно способом отправки и обработки запросов. А когда я слушал выступления или читал некоторые статьи о том, как плох/хорош MCP, меня не покидало ощущение чего-то странного. Но все же решил, что это от незнания, и я чего-то не понимаю. А когда не понимаешь, но очень хочешь понимать, то самый лучший способ — это взять и разобраться.

Именно это предлагаю и сделать в статье, а также замерить MCP, чтобы ответить на вечный вопрос: сколько сжирает MCP, подключать ли его вообще или и так сойдет?

Читать далее

Что я вынес из Oxford Machine Learning Summer School 2025

Уровень сложностиСредний
Время на прочтение29 мин
Количество просмотров2.1K

Побывал на Oxford Machine Learning Summer School 2025 — одной из крупнейших летних школ, посвящённых искусственному интеллекту, проходившей в самом центре Оксфорда. В течение четырёх дней мы слушали лекции исследователей из DeepMind, Hugging Face, Amazon, Google, ученых топовых европейских вузов. Обсуждали foundation models, reinforcement learning, generative AI и on-device ML. В статье делюсь своими впечатлениями и кратким пересказом программы, отражающей мировые тренды в развитии современного машинного обучения.

Читать далее

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.8K

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Читать далее

Ближайшие события

Краткая история машинного зрения: от статьи Селфриджа до первых патентов

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров946

На сегодня машинное зрение – это либо просто синоним компьютерного зрения, либо компьютерное зрение, используемое в промышленности, либо более общее понятие - технология и методы, которые используются для визуального автоматического контроля, управления промышленными процессами, роботами и т.д., то есть инструмент системной инженерии. Словом, если стояла бы цель запутать человека, желающего узнать, что такое машинное зрение, то она выполнена. Но так или иначе, даже в последнем случае машинное зрение так переплетено с IT-технологиями, что иначе как компьютерным зрением это назвать трудно. Вероятно, поэтому историю машинного зрения традиционно отсчитывают от публикации в 1955 году статьи Оливера Селфриджа из Массачусетского технологического института (MIT) «Распознавание образов и современные компьютеры», а сам он провозглашен «отцом машинного восприятия». 

Читать далее

Какой табличный формат LLM понимают лучше всего? (Результаты по 11 форматам)

Время на прочтение8 мин
Количество просмотров3.3K

Команда AI for Devs подготовила перевод статьи о том, в каком формате лучше всего передавать таблицы LLM. Исследование охватило 11 популярных форматов — от CSV и JSON до YAML и Markdown. Результаты неожиданны: разница в точности достигает 16 процентных пунктов, а выбор формата напрямую влияет на стоимость инференса и стабильность RAG-пайплайнов.

Читать далее

Зачем бизнесу GPT-платформа, а не просто LLM: опыт JET & Yandex GPT Lab

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.1K

Меня зовут Антон Чикин, я руковожу отделом интеллектуального анализа в «Инфосистемы Джет». В статье я попробую показать на практическом примере, почему корпоративный ИИ нельзя свести к установке готовой LLM — и что именно приходится выстраивать вокруг неё, чтобы получить реальную ценность для бизнеса.

Этот материал будет полезен тем, кто отвечает за внедрение ИИ в компаниях среднего и крупного масштаба: ИТ-директорам, архитекторам корпоративных систем, специалистам по информационной безопасности и тем, кто рассматривает генеративный ИИ как инструмент автоматизации бизнес-процессов.

Читать далее

Искусственное мышление: дать ИИ понимание и эстетику

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров3.1K

Сильный искусственный интеллект (AGI, искусственное мышление) - это Священный Грааль современной компьютерной науки. Его поиском занимается множество людей и на него направляются миллиарды денег.

Бурное развитие нейросетей в последние годы, кажется, сформировало представление, что путь от слабого ИИ к сильному будет эволюционным - то есть, за счёт только лишь развития нейросетей мы получим систему, которая будет понимать смысл и чувствовать красоту.

Однако, этот тезис не доказан ни теоретически, ни практически. А что, если он и вовсе ошибочен? Чтобы увереннее размышлять об этом, давайте зададим простые, базовые вопросы: что такое понимание и зачем оно нужно? Что такое эстетика и зачем она нужна?

Мы не сможем избежать этих вопросов на пути к искусственному мышлению, а значит попробуем дать предельно содержательные ответы на эти вопросы. Сделав это максимально честно и старательно, посмотрим, не смогут ли ответы нам чем-то помочь, сделать перспективы сильного ИИ сколько-нибудь яснее?

Данная статья - это в первую очередь приглашение вместе подумать.

Читать далее

Как протестировать машинный переводчик

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров464

Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества.

В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль.

В этой статье мы подробнее рассмотрим, как наша команда выбирает тестовые наборы данных и обсудим ограничения существующих стандартов.

Читать далее

Часть-1. Почему ИИ рисует каракули вместо текста: анатомия проблемы и дорожная карта решений

Уровень сложностиСредний
Время на прочтение29 мин
Количество просмотров2.2K

Привет, чемпионы! Давайте начистоту. Вы уже перепробовали все: и промпты в кавычках, и уговоры на английском, и даже шептали запросы своему GPU. Результат? Очередная вывеска с текстом, напоминающим древние руны, переведенные через пять языков. Знакомо? Это наша общая, фундаментальная боль, и сегодня мы не будем ее заливать кофеином и надеждой. Мы возьмем ее, положим на операционный стол и проведем полную анатомическую диссекцию.

Читать далее

Инженирия контекста для саморазвивающихся ИИ-агентов

Время на прочтение4 мин
Количество просмотров1.6K

Обычно качество ИИ улучшают двумя путями — дообучая веса или сокращая промты, чтобы всё работало быстрее и дешевле. Со временем короткие шаблоны теряют смысл, а длинные инструкции превращаются в кашу из выжимок.

Оказывается, сила ИИ-приложений кроется не в размере модели, а в том, как “живёт” и развивается их контекст. В роли суперспособности выступает динамичный плейбук — он не боится становиться длиннее, обновляется маленькими шажками и сохраняет тонкие доменные знания. Модель сама учится отбирать, что ей важно, а не просто сжимать всё в краткие подсказки.

В этом разборе — как инженерия контекста помогает ИИ думать гибче и как этот подход работает на практике.

Читать далее

Вклад авторов