Как стать автором
Поиск
Написать публикацию
Обновить
776.52

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Шпаргалка по установке драйверов NVIDIA на ML сервер

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.7K

Данный материал предназначен для быстрой и последовательной установки драйверов NVIDIA, в том числе для видеокарт 50xx серии, а также настройки NVIDIA Container Toolkit. Эта инструкция актуальна для Linux-систем на базе Ubuntu и других Debian-совместимых дистрибутивов.

Читать далее

Разработчики открыли ранний доступ к Kling 2.1

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.4K

Через несколько дней после того, как Google выпустила Veo 3, компания Kling, видимо, ощутила давление и открыла ранний доступ к своему грядущему семейству видеомоделей Kling 2.1. Время было выбрано как нельзя более удачно.

Вчера на X и Reddit появилось несколько видеороликов, созданных с помощью Kling 2.1. В этом посте я расскажу о том, что же на самом деле предлагает Kling.

Судя по тому, что я прочитал, будет три разных режима:

Standard Mode в Kling 2.1:

Читать далее

Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 2

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.8K

Часть 2 — это гайд по выживанию в мире кривых текстов, а также грамматический апокалипсис, куда мы закинули ChatGPT‑o1, o3, две штуковины от «Яндекса» — «Нейроредактор» и YandexGPT-5-Pro, Text.ru и «Мистера корректора». Заставили их искать опечатки, запятые, кавычки и ошибки уровня «25-го декабря» — и да, это больно.

Зачем терпеть этот разбор? Чтобы не стать тем парнем, чей пост на «Хабре» поправили в комментах. Готовьтесь: тут будут не только баллы, но и таблица, из‑за которой один нейрокорректор плачет в уголке. Да‑да, он снова всё испортил. Поехали разбирать, кто реально исправит ваши «исчо», а кто наделает новых ошибок.

Читать далее

Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.5K

Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала зачёркивать текст... В статье я исследую инструменты, способные сберечь от этих неприятностей. Всё это нацелено на одну задачу: найти лучший инструмент для проверки орфографии и пунктуации.

Эта тема важна для всех, кто взаимодействует с текстом, независимо от того, редактируете ли вы роман, готовите отчёт или пишете пост в соцсетях (да, даже твиты требуют идеальной подачи).

Для обзора я выбрал 13 самых популярных онлайн‑сервисов, приложений и нейросетей, чтобы определить, кто лучше сможет проверить правописание (орфографию и пунктуацию). Мы разберём их по косточкам, выявим силу и слабость каждого участника и, конечно, определим победителя.

(Ну правда, почему ошибки всегда выпрыгивают на глаза только после отправки?)

Читать далее

Ускоряем проверку документов для клинических исследований за счёт пайплайна на базе YandexGPT 5 Pro

Время на прочтение13 мин
Количество просмотров4K

В мире ежегодно проводятся тысячи клинических исследований, а в России их количество может доходить до 900 в год. До внедрения в практику новые методы лечения, лекарства и медицинские изделия проходят множество испытаний под строгим контролем. Исследователям необходимо подтверждать безопасность и эффективность метода, а также соответствие самой процедуры испытаний научным стандартам и нормам этики. Эти процессы формализованы и требуют подтверждения официальными документами — но их нельзя свести к одному простому формату, особенно если дело касается этики. Поэтому только проверка пакета документации может занимать недели, а в современных условиях хочется, чтобы эта работа была менее длительной — чтобы пациенты быстрее получали доступ к новым методикам лечения.

В 2025 году команда НМИЦ онкологии им. Н.Н. Петрова вместе с Центром технологий для общества Yandex Cloud и компанией Raft запустила приложение для быстрой обработки документов клинических исследований. Решение на базе большой языковой модели Яндекса помогает специалистам научного центра классифицировать документы, проверять их оформление и содержание по чек‑листу — и это позволяет сократить цикл согласования с нескольких месяцев до 5–10 дней.

Читать далее

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров12K

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? 

Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть!

Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok!

Мы вас заинтриговали?

Тогда приятного прочтения!

Как работает решатель капчи на базе ИИ: от OCR до глубокого обучения

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.7K

Капча стала привычным элементом интернета: искажённые тексты, картинки с «найди все светофоры», аудио-загадки и другие испытания, которые призваны отличить человека от машины. Каждый разработчик бот-систем или QA-инженер при автоматизации веб-сценариев хоть раз сталкивался с тем, что скрипт внезапно спотыкается о CAPTCHA. Возникает естественный вопрос: можно ли научить программу решать капчи так же, как это делает человек, – причём быстро и надёжно? В этой статье я попробую разобраться, как устроены ИИ-решатели капчи (AI CAPTCHA solver) – от классических методов OCR до современных нейросетей.

Читать далее

Объяснимый ИИ в ML и DL

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.5K

Объяснимый ИИ — очень важный аспект в ML и DL. Он заключается в том, чтобы интерпретировать модель так, чтобы можно было около прозрачно объяснить ее решения. Потому что это довольно частая необходимость как у конечного заказчика, ведь для них это просто «черный ящик», так и у разработчиков непосредственно (например, для отладки модели). На русском языке таких статей не так много (для тех, кто знает английский проблем с этим нет, на нем таких статей много, например, Kaggle), поэтому я решил, что статья покажется актуальной, и сегодня я попробую рассказать про это и показать на конкретном примере, как его можно реализовать.

Читать далее

Как ИИ научился думать картинками

Время на прочтение4 мин
Количество просмотров2K

Современные ИИ-модели достигли впечатляющих успехов в понимании текстов и изображений, однако все еще не идеальны в задачах, где важна визуальная интуиция, таких как навигация и планирование действий. Сегодня большинство моделей конвертируют визуальную информацию в текстовую и только затем принимают решения, что приводит к потере важных деталей и делает решение задач менее интуитивным.

Когнитивная наука подтверждает, что человеческий мозг использует два канала мышления — текстовый (вербальный) и визуальный (невербальный). Но современные мультимодальные модели (MLLM) чаще всего полагаются на текстовые объяснения даже там, где визуальное мышление было бы намного эффективнее. До мая 2025 года не было серьезных исследований, которые бы ответили на вопрос: могут ли современные модели решать задачи исключительно с помощью визуальной информации без использования слов?

Читать далее

Не горе от ума, а ум от голода — откуда LLM такие умные

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.1K

Когда большие языковые модели начали неожиданно хорошо отвечать на абсолютно разные вопросы и даже вроде бы выходить за те рамки, на которых их обучали, все, конечно, сильно обрадовались. Настолько обрадовались, что наращивать мощности и получать новые крутые результаты оказалось интереснее, чем выяснять, почему вообще LLM работают, как именно они хранят знания и хранят ли их вообще. Этот вопрос интерпретируемости LLM так или иначе стоял всегда, но теперь, когда мы все попривыкли к впечатляющим результатам новых моделей, стал заметнее. 

Макс Тегмарк предложил использовать механистический подход к интерпретируемости, но применять его не к алгоритмам внутри LLM, а к самим знаниям. То есть попробовать выяснить, есть ли внутри моделей какая-то закономерность запоминания или даже понимания. Сразу спойлер (а на самом деле — название статьи) — модели умны от “голода”, это  “intelligence from starvation”. Причем это общий вывод для разных моделей.

Читать далее

Языковые модели для бизнеса: сравниваем малые (SLM) и большие (LLM) модели

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.1K

Большие языковые модели (LLM) звучат впечатляюще, но всегда ли нужно их использовать? Разберемся, в каких случаях стоит использовать LLM, а когда использование малых языковых моделей (SLM) окажется более разумным и экономичным решением без потери качества.

Читать далее

CV/ML-проект от идеи до продакшена: практическое руководство

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2.1K

Привет, меня зовут Вадим Медяник, я технический директор ИТ-компании BPA. Я регулярно участвую в реализации проектов, где используется машинное обучение и компьютерное зрение — от первых обсуждений с заказчиком до вывода решения в прод. Со временем накопилось достаточно практики, чтобы выделить повторяющиеся этапы, типичные ошибки и решения, которые реально работают.

Это практическое руководство собрал для коллег и команд, кто работает с подобными проектами — или только планирует. Здесь нет задач про state-of-the-art или подбор идеальных архитектур. Скорее хочу пройтись по каждому этапу — с чего начать, о чём спросить бизнес, где обычно «сыпется» проект, и что помогает пройти до конца. Рассчитано на тех, кто хочет разобраться в базовой структуре CV/ML-проекта, будь то инженер, аналитик или управленец. Если понадобится — можно будет углубиться в технические детали отдельно. Для удобства разделил весь путь подготовки CV-проекта на несколько основных этапов.

Читать далее

На START, внимание, марш: как победить галлюцинации и научить LLM точным вычислениям

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2K

START — опенсорсная LLM для точных вычислений и проверки кода. В START решены две главные проблемы большинства обычных моделей: галлюцинации и ошибки в многоэтапных расчетах. В статье разберемся, зачем и как именно эти проблемы решены.

Читать далее

Ближайшие события

Топ-100 нейросетей для генерации текста, кода, изображений, видео и аудио

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.3K

После громкого дебюта ChatGPT и Midjourney в 2022 году нейросети стали появляться как грибы после дождя. Интернет наполнился большим количеством сервисов, предлагающих генерацию текста, кода, изображений, видео и аудио по текстовым запросам.

Разумеется, многие из таких сервисов существовали и раньше, однако именно на 2022 и 2023 годы пришелся их рассвет — настолько стремительный и яркий, что неподготовленный пользователь может легко заблудиться в этом новом направлении.

Для выбора подходящего инструмента необходима наглядность — знать, какие сервисы существуют, чем они отличаются и какими возможностями обладают. Так проще разобраться и сложнее запутаться.

В этой статье собраны самые популярные платформы для генерации контента, работающие сразу «из коробки» — открыл, ввел, получил. Их можно классифицировать двумя способами — по контенту и по моделям.

Читать далее

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

Время на прочтение7 мин
Количество просмотров16K

Привет! Меня зовут Александр Плошкин, я руковожу группой развития качества персонализации в Яндексе. Сегодня мы открываем доступ к одному из крупнейших рекомендательных датасетов — Yambda. Он содержит 4,79 миллиардов обезличенных пользовательских действий, собранных за 10 месяцев использования сервиса Яндекс Музыка.

Мы выбрали Яндекс Музыку, потому что это крупнейший подписной стриминговый сервис в России, которым в среднем в месяц пользуются 28 миллионов людей. Существенная часть датасета — агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков, полученные из системы персональных рекомендаций «Моя волна». Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность.

Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов: от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему. Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач.

В этой статье я расскажу, из чего состоит датасет, как мы его собирали и как вы можете использовать его для оценки новых рекомендательных алгоритмов.

Читать далее

Как начать мыслить о создании цифрового интеллекта

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.1K

С чего можно начать мыслить о создании цифрового интеллекта, даже если он будет очень простым. Несколько идей, которые должны показать, как можно мыслить о ИИ по-другому, какими основными свойствами должна обладать программа и с чего можно начать мыслить в направлении создания цифрового интеллекта.

Рассмотрим небольшую программу на основе некой обобщённой логики, с помощью которой можно изменять логику работы программы динамически, не изменяя её кода. Оригинальный взгляд на программирование.

Читать далее

Играемся с RTX 5090 (GB202) для инференса

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7K

Продолжаем статьи про практические тесты актуальных картонок от Nvidia (A5000 Ada, A100, 3090 и A10). В этот раз мне предложили (не реклама) денёк погонять Nvidia RTX 5090 в хостинге (себе такую брать я бы не стал), и я не мог отказаться от такого предложения.

За день что‑то стоящее натренировать нынче уже проблематично, поэтому будем «снимать» уже привычных обратно совместимых «попугаев» через gpu-burn и также замерим скорость инференса одной нашей довольно прожорливой сетки в продакшене.

Все шутки про Nvidia давно уже не шутки, санкции и торговые войны идут своим чередом, но тем не менее в России новинки появляются с завидной регулярностью несмотря на все запреты.

На фоне сильно негативного новостного фона со стороны игрового сообщества про новый релиз Nvidia и своеобразных «успехов» Nvidia по наращиванию своей капитализации продвинутой «сегментации» рынка (все уже пошутили про новый коннектор, огромный рост TDP и размера карт), мне лично было интересно, а есть ли рост 50* поколения карт для наших задач против 30* поколения.

Если верить техно‑ и игровым блоггерам, их новое поколение совсем не впечатлило. Меня зато так «впечатлило» 40* поколение, что мы даже не рассматривали апгрейд 3090. Но обо всём по порядку.

Давайте разбираться!

Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров43K

Искусственный интеллект давно перестал быть набором скучных алгоритмов. Это и художник, который рисует словами, и переводчик, что ломает языковые барьеры, и музыкант, играющий на голосовых нотах. Но есть у него ещё одно дело, в котором он преуспел, — синтез речи.

Но всё ли так гладко?

Просто тараторить текст — мало. Настоящий голос должен видеть запятые, чувствовать паузы, играть интонациями и уметь погружать. Он должен звучать не как робот, а как рассказчик с характером. С душой — насколько это вообще возможно для машины.

Поэтому мы устроим кастинг четырём нейросетям. Послушаем, как они звучат, как держат паузы, как справляются с эмоциями. И главное — попробуем понять: насколько близко они подошли к имитации живого рассказчика.

А чтобы было интересно, мы вдохновились атмосферой «Хоббита». Интересно, смогла бы нейросеть рассказать о приключениях лучше самого Бильбо Бэггинса?

Сегодня алгоритмы получат Толкина, омографы, арабский язык — и замок, который может быть замком.

Готовьте Ваши уши — мы начинаем!

Читать далее

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Время на прочтение6 мин
Количество просмотров1.3K

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

Читать далее

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров4.2K

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.

Предлагаем вместе с нами проверить, на что способен одноплатный компьютер Lichee Pi 4A в задачах обработки изображений, несмотря на его ограниченные ресурсы. А заодно — получить базовые навыки по разработке систем компьютерного зрения. Пройдем путь от настройки системы до отслеживания кликов по картинке и распознавания объектов с моделью YOLOX.

Читать далее

Вклад авторов