Как стать автором
Поиск
Написать публикацию
Обновить
764.46

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Google представила ИИ-генератор видео Veo 3

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров61K

Если Veo 2 произвел на вас впечатление, то Veo 3 вас просто поразит.

Google IO 2025 завершилась, и это была абсолютная масса анонсов в сфере ИИ. Многие люди, включая меня, до сих пор поднимают челюсти с пола. Но из всех анонсов Veo 3 - один из самых захватывающих для меня.

Об остальных анонсах я расскажу в отдельном посте, а пока давайте сосредоточимся на новейшей генеративной видеомодели Google.

Читать далее

Основы глубокого обучения. Часть 4: Рекуррентный слой. Теория и реализация на torch

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров3.3K

Очередной туториал по рекуррентному слою. Эта статья для новичков. Изначально хотел сделать на собственной реализации autograd, но в этом нужно дополнительно разбираться, там много нюансов. Да и не думаю, что это кому-то нужно, поэтому сделал всё-таки на torch.

Читать далее

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров3.4K

Когда мы говорим о машинном обучении, то автоматически подразумеваем Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не менее, некоторые задачи можно решать с помощью С++. И не только ради эксперимента, а для увеличения производительности сервисов и упрощения работы с кодом. 

Кирилл Колодяжный, разработчик СХД в YADRO, несколько лет изучает машинное обучение на С++. Он уже написал программы для поиска лица на фото и для распознавания объектов в реальном времени. Под катом — пять материалов Кирилла, после которых инженерам захочется «пересесть» с Python на C++. Хотя бы на время.

Читать далее

Nvidia AI Factory: Суперкомпьютер на Тайване и новые горизонты для ИИ

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров724

19 мая 2025 года Nvidia, Foxconn и правительство Тайваня объявили о партнёрстве для создания AI factory — суперкомпьютера, предназначенного для обучения крупных языковых моделей (LLM), робототехники и развития умных городов. Как сообщает The Wall Street Journal, проект укрепляет позиции Тайваня как центра ИИ-инноваций и задаёт новый стандарт для вычислительных платформ. В этой статье мы разберём техническую основу AI factory, её значение для разработчиков и перспективы для российской ИИ-экосистемы.

Читать далее

Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров15K

В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB (ссылка на таблицу лидеров).

Ранее мы уже рассказывали на Хабре о создании русскоязычных задач для MTEB. Напомним, что этот бенчмарк предназначен для оценки моделей, способных создавать эмбеддинги текста — векторные представления, применяемые в различных задачах NLP.

Читать далее

Возвращаюсь к работе мозгом после месяцев кодинга с LLM

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров42K

TLDR: LLM неплохо справляются с кодингом, но в больших проектах они пишут запутанный сумбур. Я уменьшил объём использования ИИ при кодинге и вернулся к работе головой, ручке и бумаге.

Несколько месяцев назад мне нужно было создать новую инфраструктуру для моего SaaS, потому что связка из PHP+MySQL перестала отвечать нашим требованиям. Мне не терпелось воспользоваться этой возможностью, чтобы максимально задействовать все новые LLM, с которыми я экспериментировал. Поэтому я временно отказался от должности разработчика ПО, став сам себе продакт-менеджером. Я обсуждал с Claude технологии, проводил собственные исследования и спустя много итераций составил план. В итоге я решил использовать Go+Clickhouse.

Когда настала пора начинать кодить, я попросил Claude сгенерировать большой и сложный файл markdown с описанием моей старой инфраструктуры, желаемой новой инфраструктуры, перечислением того, чего я хочу достичь, почему мне это нужно и так далее.

Потом я закинул это всё в Cursor Notepads и начал составлять промпты. Cursor пишет код, я собираю и тестирую его. Меня вполне устраивало происходящее, кодовая база была не самой чистой, но вроде работала. Мне важнее была скорость разработки, а не чистота кода — мои бизнес-клиенты SaaS сказали, что им нужны определённые данные, а эта новая инфраструктура была единственным способом их доставки. У меня было ещё несколько потенциальных клиентов, ожидающих моего сообщения о том, что всё готово, чтобы можно было приобрести тарифный план. Пока всё не готово, я в буквальном смысле каждый день теряю деньги.

Читать далее

Lasso MCP Gateway: щит между AI-агентами, тулами и вашими секретами?

Время на прочтение6 мин
Количество просмотров1K

С развитием AI-агентов и Model Context Protocol (MCP) актуальной становится проблема безопасности при работе с различными инструментами. Что если ваш AI-агент случайно прочитает конфиденциальный файл с токенами доступа и "случайно" поделится ими с вами в своем ответе, а учитывая логирование ваших запросов, он точно попадет на сервер провайдера вашего агента, а возможно еще и IDE, в которой этот агент и обитает.

Ярким примером тулы, которая выполняет поиск по вашим локальным файлом является mcp-filesystem. Один шаг не туда и вам придется бежать за ревоком токена, а если он еще и от организации, ваши админы явно не скажут вам спасибо.

Не забываем про то, как у XAI токен просто лежал на github пару месяцев: статья

Для решения этой проблемы команда Lasso Security разработала MCP Gateway — прокси-сервер, который встает между AI-агентом и MCP-тулами, обеспечивая санитизацию чувствительной информации.

В этой статье я поделюсь результатами тестирования Lasso MCP Gateway в двух сценариях: интеграция с Cursor IDE и локальная реализация с собственным агентом на PydanticAI.

Читать далее

Автономный робот для обследования нефтяного месторождения

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров949

В рамках хакатона «Кубок РТК: Нефтяное месторождение», который проходил в марте 2025 года в Архангельске, наша команда misis_robo_club разработала автономного робота для инспекции нефтепромысла.

Читать далее

Я не люблю NumPy

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров18K

Говорят, что невозможно по-настоящему возненавидеть кого-то, если сначала не полюбил его. Не знаю, справедливо ли это в целом, но это определённо описывает моё отношение к NumPy.

NumPy — это ПО для выполнения вычислений с массивами на Python. Оно невероятно популярно и очень сильно повлияло на все популярные библиотеки машинного обучения, например, на PyTorch. Эти библиотеки во многом имеют те же самые проблемы, но для конкретики я рассмотрю NumPy.

Читать далее

Claude, есть пробитие: взламываем самую защищенную модель

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.5K

Сегодня мы бросаем вызов самой защищённой модели — Claude. Несмотря на свою репутацию как одной из самых продвинутых и защищённых моделей, он не абсолютно неуязвим. В прошлой статье я показал метод внедрения системных директив, который работает почти на всех моделях — но не на Claude. Сегодня покажу как модифицировать этот подход, чтобы успешно пройти его фильтры и заставить модель следовать нашим указаниям. И в подтверждении выполним откровенно «красный» запрос.

Читать далее

Способны ли нейросети реконструировать древние языки?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.3K

В настоящее время нейросети успешно используются для языкового перевода. По сравнению со старыми программами и онлайн переводчиками, прогресс на лицо. Алгоритмы демонстрируют более тонкое понимание речи, владение контекстом, они способны к стилизации.

И если с современными языками нейросети справляются довольно толково, возникает вопрос: как насчет древних? До сих пор работа с ними представляла существенное затруднение. Скажем, тот же Google Translate из рук вон плохо работает с латынью.

Между тем, лингвисты давно предпринимают попытки реконструкции еще более древних языков, к примеру — праиндоевропейского. Разумеется, подобные разработки имеют только гипотетический характер. Тем не менее сравнительное языкознание выработало алгоритмы, согласно которым язык можно «состарить», низведя его до определенной стадии развития.

Способны ли современные нейросети выполнить качественную реконструкцию архаичных языков? И как проверить ее достоверность? Для практического разрешения данных вопросов обратимся к сервису DeepSeek. По моему опыту, пока он продемонстрировал лучший результат среди подобных средств.

Рассматриваемая сеть довольно адекватно справляется с переводом отдельных слов на древние языки, причем аргументирует свой выбор. Но осилит ли она целый художественный текст?

Для примера я заставил ее перевести на праиндоевропейский, являющийся далеким предком нашего языка, четверостишие в эпическом духе:

Облака плывут по небесам
В белых стаях мчатся души павших
Это — воинства былых веков
По земле их слава ходит в песнях

Читать далее

Jupyter-Ascending — новый способ работы с Jupyter Ноутбуками в Emacs

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.1K

Вы обожаете Emacs, но вам необходимо работать с Jupyter ноутбуками? Данная статья расскажет еще об одном способе, как их подружить. Заходите под кат =)

Читать далее

Внедрение ML кластера для масштабирования AI сервисов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.7K

Привет! С вами Олег, Рамиль и Андрей из Flocktory. Мы руководим машинным обучением и разработкой в компании, сейчас активно внедряем AI для лучшей персонализации. В прошлом году наши команды реализовали ML-сервисы, внедрили ML Feature Store и переработали жизненный цикл моделей (о чём мы подробно рассказывали на HighLoad++: https://highload.ru/moscow/2024/abstracts/12929). В этой статье поразмышляем над следующим шагом для среднего размера компании, которая внедряет AI – как масштабировать проекты машинного обучения. Обработка, анализ и обучение на данных влекут за собой применение ML систем, в том числе нейросетей. Это требует больших вычислительных ресурсов: сотни гигабайт ОЗУ, десятки ядер CPU, а также видеокарты и (или) специальные чипы для ускорения вычислений.

Рассмотрим основные варианты ресурсов, которые можно использовать, сложности, связанные с их эксплуатацией, целесообразность вложений и vendor lock. Но сначала поговорим о природе трудностей, возникающих при масштабировании.

Читать далее

Ближайшие события

Кого ИИ уже уволил, а кто только ждёт своей очереди? Как ИИ меняет рынок труда — разбор мифов и фактов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров38K

Нейросети («ИИ») больше не инструмент будущего — это активный участник рынка труда. От HR-отделов до бухгалтерии, от школ до юридических фирм — машины не только помогают, а кое-где заменяют. Эта статья — о том, какие профессии исчезают, а какие трансформируются, и что делать, чтобы остаться на плаву в эпоху алгоритмов.

И восстали машины...

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров20K

Однажды я устал расшифровывать аудио пачкой инструментов в духе «Балерино-Капучино и Бобрито-Бандито» и решил собрать свой пайплайн.

В статье расскажу, как я подключил ИИ к обработке голосовых записей буквально за вечер. Мне нужно было загружать запись голоса в нейросетку и на выходе получать выжимку с итогами встречи — саммари/фоллоу‑апами/«минутками». Я хотел от софта безопасности данных, локального запуска и минимума вложений (в идеале 0 затрат). Я системный аналитик, поэтому не был готов писать приложение целиком.

По моей инструкции вы сможете сделать подобный конвейер своими силами даже без навыков кодинга.

Читать далее

Как не переплатить за автоматизацию? Разбираем, когда стоит подключать ML

Время на прочтение11 мин
Количество просмотров4.4K

Часто автоматизация средствами ML ассоциируется с быстрым ростом эффективности бизнеса, но на практике оборачивается молниеносным увеличением затрат. Поэтому подход «Если делаешь что-то больше одного раза, автоматизируй это» выглядит слишком радикальным.

Как понять, действительно ли вам нужны ML-технологии или же ваши задачи можно закрыть простыми скриптами и правилами? Чтобы разобраться в этом вопросе, мы в Selectel исследовали успешные кейсы автоматизации в финансовом секторе, телекоме и IT-инфраструктуре, опираясь на экспертизу специалистов из T-Банк, PIX Robotics и Netcracker. Подробности под катом!
Читать дальше →

Чтобы беспилотники летели, куда надо… нужно научить тех, кто их создаёт и ими управляет

Время на прочтение4 мин
Количество просмотров1.6K

14 мая на ВДНХ стартовала 6-я Международная выставка цифровых технологий «ЦИФРОТЕХ» – базовое конгрессно-выставочное мероприятие в сфере развития цифровых решений по аналитике и консолидации данных, создания систем управленческого планирования, средств коммуникаций и управления корпоративными и городскими инфраструктурами, обеспечения информационной безопасности объектов КИИ и защиты информации.

Особое внимание было уделено вопросам подготовки специалистов по беспилотным авиационным системам.

Евгений Нежданов, президент консорциума 1Т, директор Центра компетенций «Цифровая экономика» РосНОУ, напомнил о существовании образовательного Консорциума, в который вошли три российских вуза – Московский государственный технический университет им. Н.И. Баумана, Московский энергетический институт (технический университет) и Российский новый университет. Целью его создания стало объединение усилий участников для реализация научных, образовательных и технологических проектов в области адаптивных систем управления.

- За три года мы обучили более 15000 детей, дали новые профессии нескольким тысячам преподавателей вузов, - рассказал Евгений Нежданов. - За счёт государства курсы повышения квалификации и переподготовки прошли более 5000 человек по всей стране. И если у вас есть дети и внуки, прошу обратить особое внимание на летний курс по искусственному интеллекту «Код будущего» для детей. Это очень интересно и полезно!

Сегодня государство выделяет огромные средства на решение актуальных проблем, связанных с развитием современных технологий. На мероприятии было озвучено, чего главные бюджетные средства, которые в принципе можно получить для для бесплатного или почти бесплатного обучения специалистов по БПЛА, находятся в четырёх проектах. Во-первых, это Федеральный проект «Кадры для беспилотных авиационных систем», который является частью национального проекта «Беспилотные авиационные системы» и реализуется под руководством Минобрнауки России. Во-вторых, это Национальный проект «Демография», который реализуется под руководством Минтруда России. В-третьих - Федеральный проект «Код будущего», который предполагает бесплатное обучение языкам программирования, искусственному интеллекту и робототехнике школьников 8–11 классов и студентов колледжей, и реализуется Минцифры России. Наконец, в-четвёртых, это федеральный проект «Код будущего. Искусственный интеллект», также реализуется Минцифры России. Помимо этого, есть большое количестве субъектовых субсидий, для обучения специалистов в регионах.

Читать далее

Галлюцинации LLM. А если посмотреть с точки зрения детского психолога?

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров1.1K

Эпиграф: Галлюцинация одного человека — это творчество другого человека и наоборот.

Я думаю, многие пользователи LLM так или иначе сталкивались с проблемой «галлюцинации LLM» и испытывали разочарование и досаду. Я тоже сталкивался, и не раз.

Но у меня есть объяснение этому феномену, которое позволяет мне избегать самой проблемы как таковой.
Вернее, я изменил отношение к этой проблеме, предположив ее возможные причины, и научился избегать условий ее появления.

Можно сказать по-другому, выражаясь научным языком, это когнитивные искажения «неосознанная ложь» (конфабуляция), а также «мотивационное рассуждение» (motivated reasoning): когда «хочу» побеждает «могу» и здравый смысл в том числе.

Я предлагаю посмотреть на этот феномен с психологической точки зрения, найти аналогии с человеческими свойствами мозга, которые давно и хорошо изучаются и анализируются.

Читать далее

SQL-линтер на Rust, HTML-минификатор для .NET и эмулятор DOS в браузере: кто получил гранты Yandex Open Source

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.8K

В конце октября мы анонсировали продление программы грантов от Yandex Open Source для поддержки проектов независимых разработчиков. Пришло время подвести итоги и рассказать о победителях.

За прошедшие месяцы мы изучили 120 проектов в трёх категориях: обработка и хранение данных, машинное обучение и разработка. Кстати, одну из заявок мы получили 15 марта в 23:59 — в последнюю минуту подачи. Этот проект тоже есть среди победителей.

Так мы выбрали 12 проектов, которые показались нам самыми интересными, полезными и перспективными. Мы попросили победителей рассказать про свои проекты чуть подробнее. Кто знает, возможно, в этой статье вы найдёте для себя новые инструменты, которые будут полезны в вашем проекте.

Читать далее

OpenAI представила Codex — агента по разработке программного обеспечения внутри ChatGPT. Обзор ИИ-инструмента

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров10K

OpenAI продолжает делать ChatGPT полезным для разработчиков.

Несколько дней назад они добавили поддержку подключения репозиториев на GitHub для глубокого исследования и возможности задавать вопросы на основе собственного кода.

Сегодня компания запустила предварительную исследовательскую версию Codex в ChatGPT, своего самого способного ИИ-агента для программирования. Он может писать код, исправлять ошибки, запускать тесты и одновременно управлять несколькими задачами по программированию, и все это - в безопасной облачной среде.

Давайте разберемся в деталях анонса Codex.

Читать далее

Вклад авторов