Как стать автором
Поиск
Написать публикацию
Обновить
769.8

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Глубокое обучение в науке вредно без глубокой проверки фактов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.4K

Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям).

Однако если вы проделаете кропотливую работу по анализу чужой опубликованной работы и обнаружите, что она полна серьёзных ошибок, в том числе сотнями некорректных прогнозов, то можете опубликовать на bioRxiv препринт, который не получит и доли цитат и просмотров исходного исследования. На самом деле, именно это и произошло в случае двух статей:

Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications

Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv

Эта пара статей о функциях ферментов стала прекрасным примером для изучения границ применения ИИ в биологии и неправильно расставленных акцентов в современной публикации результатов. В этом посте я расскажу о некоторых подробностях, однако призываю вас изучить статьи самостоятельно. Этот контраст станет ярким напоминанием о том, как сложно бывает оценить правдивость результатов ИИ без глубокого знания предметной области.

Читать далее

Нейро-дайджест: ключевые события мира AI за 1-ю неделю июня 2025

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2K

Привет! 👋 Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась интересной: обновления от ElevenLabs, Gemini и Suno, Sora встроили в Bing, вайб-кодинг гонка Cursor и Codex, Юра Борисов в фильме про OpenAI, а Илон надеется отправить людей на Марс до 2030.

Всё самое важное — в одном месте. Поехали!

Читать прошлый выпуск

Читать далее

Топ-7 нейросетей для генерации видео: лучшие AI-сервисы 2025 года

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров25K

Признайтесь: сколько раз вы хотели сделать видео — для презентации или поста — но вместо вдохновения получали лишь папку с шаблонами и вкладки «Как сделать анимацию за 5 минут»? Идея была, энергия — тоже. Но где-то между рендерами и туториалами всё растерялось.

А ведь хотелось иначе. Представил сцену — и она уже движется. Когда-то это была фантазия уставшего дизайнера. Теперь — реальность, в которую вмешалась нейросеть.

Сегодня мы протестируем 7 сервисов для генерации видео. Но вместо скучного списка с сухими характеристиками — сделаем это иначе.

Уже обратили внимание на обложку? Да, это докторская колбаса и селёдка под шубой — но буквально. Покажем, как нейросети видят названия блюд — не метафорично, а визуально.

Что получится, если макароны по-флотски встанут по команде «смирно»? А Цезарь лично выберет — курицу или креветки?

Будет необычно. Будет живо. И, возможно, немного аппетитно.

Приятного чтения!

Читать далее

Как устроены LLM-агенты: архитектура, планирование и инструменты

Время на прочтение14 мин
Количество просмотров8.8K

Всем привет! С вами Кирилл Филипенко, сисадмин из Selectel, и сегодня мы погрузимся в тему LLM-агентов. Сейчас об этих самых «агентах» кричат буквально из каждого утюга, поэтому пришло время наконец-то разобраться, что это такое, как они работают и с чем их, собственно, едят. Прыгайте под кат, будет интересно!
Читать дальше →

Никто не читает старые статьи… базу, так сказать, основу…

Время на прочтение7 мин
Количество просмотров4.5K

Много авторов так или иначе рассказывают о статьях в ML-сообществе, но большинство из них популярны, потому что являются хорошими опытными специалистами, а значит в своё время прошли все базовые статьи и могут себе позволить рассказывать только о новинках в сообществе. Что же делать молодым специалистам, которые действительно хотят разобраться, но ещё не читали ту самую базу?.. так сказать, основу...

Для себя и, надеюсь, кого-то ещё, я предлагаю эти три разбора, на мой взгляд, основополагающих статей мира ML. Приятного прочтения.

Читать далее

От месяцев к минутам. Как мы применяем машинное обучение для поиска перспективных литий-ионных проводников

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.4K

Привет, я Артем Дембицкий, аспирант программы «Науки о материалах» и стажёр‑исследователь Центра энергетических технологий Сколтеха, а также младший научный сотрудник команды «Дизайн новых материалов» Института AIRI. Мы с коллегами используем модели машинного обучения для разработки новых материалов с улучшенными свойствами.

Недавно статья с результатами нашего исследования вышла в npj Computational materials — журнале из семейства Nature. Совместными усилиями Сколтеха и AIRI мы оценили применимость машинного обучения для ускоренного поиска литий‑ионных проводников, а также показали практический пример использования универсальных межатомных потенциалов для подбора защитных покрытий катодов твердотельных аккумуляторов.

В этой статье хотелось поделиться подробностями нашей работы, а также в целом рассказать об этих материалах и о том, как их ищут.

Читать далее

Не гугли — собери ИИ-агента, который сам ищет, пишет и помогает с кодом

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров25K

Заметил, что трачу часы на поиск, баги и рутину — собрал ИИ-агента, который делает это за меня. Протестировал 3 подхода — от no-code до кастомного LangChain. В статье — инструкция и инсайты.

Читать далее

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

Время на прочтение11 мин
Количество просмотров1.3K

В современном мире объемы данных растут экспоненциально: компании ежедневно генерируют и обрабатывают огромные массивы информации — от реляционных баз данных и текстовых документов до изображений, аудио и видео. С ростом объемов информации усложняется и ее защита, особенно в отношении чувствительных сведений: персональных данных сотрудников и клиентов, финансовой информации, корпоративных документов и других конфиденциальных материалов.

Традиционные методы обнаружения и классификации информации, основанные на формальной экспертизе и регулярных выражениях, демонстрируют ограниченную эффективность: они неплохо работают для стандартных форматов, таких как email-адреса и банковские карты, но могут не покрывать с должной полнотой обнаружение в реальных сценариях. На помощь приходит машинное обучение, позволяющее автоматизировать процесс классификации, учитывать контекст и работать с разными источниками информации.

Меня зовут Вадим Безбородов. Мы c Максимом Митрофановым в департаменте Data science & ML в Positive Technologies занимаемся исследованием и внедрением машинного обучения в продукты компании. В этой статье расскажем о наших исследованиях и внедрении ML в модуль поиска и классификации чувствительных данных в PT Data Security.

Читать

Похож ли ваш текст на ИИ?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.6K

Я пользуюсь ИИ при написании текстов. Честно говоря, не считаю это чем-то плохим, потому что, по моему мнению, главное — это то, ради чего текст пишется: если читатель узнал что-то новое, то цель достигнута. Но, к сожалению, статья, написанная ИИ, выглядит скучной, гладкой и, несмотря на любую идею внутри, вызывает у читателя отторжение. Поэтому сегодня в этой теме я задался вопросом, какие паттерны говорят о том, что текст писал ИИ, а не человек, и почему человеку эти паттерны не нравятся?

Всё это, конечно, субъективно. Например, я определяю по ощущениям: где-то к третьему абзацу статьи просто понимаю, что это писал ИИ. Вежливый «ЧатГПТ», брызжущий метафорами (чаще поверхностными) «Дипсик», логичный до наивности «Клод», оптимистичный «Грок» — разницы нет. ИИ и всё.

Итак, сегодня моя цель формализовать паттерны среднего чистого (без промптов) ИИ и сделать промпт, который позволит определить то, насколько заданный текст похож на творчество ИИ. Почему не определить автора? Потому что я знаю людей, которые пишут, как ЧатГПТ-мини: реально гладкий, поверхностный текст, никаких резких поворотов и углублений. И знаю, как может писать ИИ под хорошим промптом. Так что давайте я просто попытаюсь определить наиболее распространенные паттерны моделей, которые можно выделить в тексте.

Читать далее

Как мы сделали новых ИИ-помощников для программистов компактными и при этом могучими

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.3K

В прошлом году мы уже рассказывали, как создавали нашего помощника программиста Kodify. Не прошло и года, и мы представили вам новую его версию — Kodify 2. А буквально сегодня объявили о выпуске опенсорсной — Kodify Nano. Kodify 2 доступен только для корпоративных заказчиков, а Kodify Nano мы сделали открытым — выложили на Hugging Face.

Ключевое слово для обеих этих версий — компактность. В этой статье отвечаем на главный вопрос, который нам отовсюду прилетал при запуске Kodify: Почему мы решили пойти против течения и создать «легких» ИИ‑помощников для разработчиков? Также вы узнаете, как мы их учили, чтобы они справлялись с поставленными задачами не хуже, чем их собратья схожего или даже большего размера, и какую методологию оценки использовали.

Читать далее

Как проверять ИИ гипотезы быстро и дешево – гайд в CRISP-DM Light фреймворк

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.1K

Делали ли вы работу в стол? Вопрос риторический…

Но больше, чем остальным это грустное чувство «проекта в стол» знакомо тем, кто занимается разработкой и внедрением ИИ решений: по статистике за 2024 год из них доходят до продакшена только от 15 до 30%

И большинство неудач здесь не из-за плохих моделей или технической сложности, а из-за несогласованных бизнес-потребностей.

Наши партнеры из Яндекса на CTO Conf-2025 презентовали новый фреймворк — CRISP‑DM Light — он призван исправить эту ситуацию.

Читать далее

Тест-драйв Claude 4: Opus и Sonnet в бою за код и 3D

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров9.7K

Май 2025-го выдался жарким на ИИ‑новости: Anthropic наконец запустила долгожданный Claude 4 — сразу в двух вариантах, Opus 4 и Sonnet 4. Это не просто апдейт, а гибридные рассуждающие модели, которые обещают совместить скорость ответов с глубоким анализом. Разработчики уже грезят ИИ, который программирует днями и ночами, а Anthropic называет это «новым рубежом для кодинга и автономных агентов». Скромничают? Возможно. Но факт: релиз важный.

Зачем это всё? Opus 4 способен неустанно кодить и решать многомодальные и агентные задачи, а Sonnet 4 призван поднять планку в массовых сценариях.

Читать далее

Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей

Время на прочтение8 мин
Количество просмотров13K

Привет, Хабр! Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. Сегодня поговорим о готовящемся к выпуску сервере YADRO G4208P G3, к раннему образцу которого мы получили полный доступ, чтобы оценить его эффективность работы с нейросетями.

Мы провели масштабное тестирование разных ИИ-моделей на платформах с восемью H100 NVL и RTX 4090, адаптированных для установки в сервер. Когда выгоднее взять RTX 4090, а в каких случаях не обойтись без серверных карт? Давайте вместе разберемся.

Читать далее

Ближайшие события

Ваш персональный аналитик: как создать RAG-пайплайн для анализа Telegram-каналов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3K

Сегодня мы создадим вашего персонального аналитика источников, который будет вытаскивать самое важное из ваших любимых Telegram-каналов.

Мы соберём RAG-пайплайн, который по запросу проанализирует последние новости по интересующим темам и выдаст понятный отчёт. Разберём пошагово всю структуру и подумаем, как можно развивать и улучшить эту систему.

Читать далее

Эксперимент Agent Village: как автономные ИИ-агенты собрали деньги на благотворительность

Время на прочтение3 мин
Количество просмотров3.6K

Недавно команда энтузиастов решила провести необычный эксперимент: предоставить нескольким ИИ-агентам виртуальные компьютеры, доступ в интернет и минимум модерации. В итоге они не только автономно собрали почти $2 000 на благотворительность, но и попутно выдали кучу инсайтов о том, как сегодня они действуют «на свободе». Разбираемся, что получилось, почему это интересно, а местами даже пугающе.

Читать далее

Взлом AI Assistant через… философию?

Время на прочтение3 мин
Количество просмотров8.1K

Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?".

Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.

Читать далее

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Уровень сложностиСложный
Время на прочтение18 мин
Количество просмотров1.9K

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
Общая информация о датасете
Стенд для тестирования
Результаты
Заключение

Читать далее

Как прямая помогает обучать машины

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.2K

В контексте компьютеров, обучение — это всего лишь превращение плохих догадок в более качественные. В этом посте мы увидим, что всё начинается с прямой линии: линейная регрессия даёт первую догадку, а градиентный спуск продолжает её улучшать.

Давайте начнём с чего-то близкого нам: цен на недвижимость. Большие дома стоят больше, маленькие — меньше. Подобный паттерн можно заметить даже без анализа: чем больше места, тем дороже.

Если создать график цен, то его форма будет очевидной: идущая вверх нечёткая кривая с долей шума, но вполне определённым трендом.

Взаимное движение цены и размера как будто предсказуемо. Однако оно не ограничено фиксированными шагами или категориями, их масштаб скользит. Дом может стоить 180 тысяч, 305 тысяч или иметь какую-то промежуточную цену.

Теперь представьте, что вы продаёте свой дом. Его площадь 1850 квадратных футов (~172 квадратных метра) — больше среднего, но явно не особняк. Вы видели, почём продаются дома в вашем районе, но цены колеблются. Какой будет справедливая цена?

Читать далее

Топ нейросетей для пересказа и суммаризации текста

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров6.7K

Представьте: вы стоите по горло в море текста — полезного и не очень, от души разбавленного водой, может быть написанного сложным языком, — а времени у вас в обрез. Да даже и представлять не надо — знакомая ведь ситуация? Кто из нас ни разу не тонул в этом текстовом океане, ну? Но вместо того, чтобы тонуть, можно научиться ходить по воде — а надёжными проводниками станут нейросети‑суммаризаторы.

Стили и задачи текста бывают разные, и их соотнесением с наиболее сильными сторонами нейросетей мы и займёмся.

Читать далее

Бизнесу не нужно внедрять ИИ. Рассказываю, как ИИ-хайп ослепил российские компании

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров17K

На связи Владимир Макеев, СЕО Surf. Я активно слежу за развитием ИИ и сам тестирую разные решения для ускорения разработки. И вот, что заметил: вокруг сотни государственных инициатив и прорывных кейсов внедрения ИИ. Есть даже национальная стратегия, которая подразумевает, что уже через 5 лет компании в 95% отраслей должны внедрить ИИ.

Компании думают, что затеряются в веках, если срочно не прикрутят нейросети. А после внедрения ИИ-решений презентуют невероятные бизнес-результаты. Рассказываю, почему всё работает не так, как нам хотелось бы.

Читать дальше

Вклад авторов