Как стать автором
Поиск
Написать публикацию
Обновить
751.72

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

State Space Models. Mamba

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров9.2K

Ни для кого не секрет, что доминирующей на данный момент архитектурой в области Deep Learning являются трансформеры. Они произвели настоящий фурор и стали основой для самых известных LLM. На данный момент они используются почти во всех фундаментальных моделях, от тех, что с открытым исходным кодом, таких как Mistral, до закрытых, таких как ChatGPT. Однако, трансформеры не лишены некоторых недостатков. Сегодня мы разберём архитектуру под названием Mamba, которая претендует на то, чтобы стать соперником трансформеров и решить их уязвимости.

Читать далее

Kandinsky 4.0 — новая модель генерации видео

Уровень сложностиСложный
Время на прочтение28 мин
Количество просмотров25K

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video. В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. 

С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

Читать далее

Llama 3.1 и «Гарри Поттер»: сколько текста действительно запоминает ИИ?

Время на прочтение5 мин
Количество просмотров6.4K

Может ли искусственный интеллект запомнить целую книгу? А если да, что это значит для авторов, издателей и самих разработчиков ИИ? Недавнее исследование от ученых из Стэнфорда, Корнелла и Университета Западной Виргинии показало, что языковая модель Llama 3.1 может дословно воспроизвести до 42% текста «Гарри Поттера и Философского камня». Это заставляет усомниться в механизмах ограничения памяти ИИ и поднимает вопросы о защите авторских прав. Дальше — как раз об этом.

Читать далее

Бизнесу не нужно внедрять ИИ. Рассказываю, как ИИ-хайп ослепил российские компании

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров18K

На связи Владимир Макеев, СЕО Surf. Я активно слежу за развитием ИИ и сам тестирую разные решения для ускорения разработки. И вот, что заметил: вокруг сотни государственных инициатив и прорывных кейсов внедрения ИИ. Есть даже национальная стратегия, которая подразумевает, что уже через 5 лет компании в 95% отраслей должны внедрить ИИ.

Компании думают, что затеряются в веках, если срочно не прикрутят нейросети. А после внедрения ИИ-решений презентуют невероятные бизнес-результаты. Рассказываю, почему всё работает не так, как нам хотелось бы.

Читать дальше

Клон ChatGPT в 3000 байтах на C, основанный на GPT-2

Время на прочтение13 мин
Количество просмотров9.8K

Эта программа представляет собой свободную от зависимостей реализацию GPT-2. Она загружает матрицу весов и файл BPE из оригинальных файлов TensorFlow, токенизирует вывод при помощи простого энкодера, работающего по принципу частотного кодирования, реализует базовый пакет для линейной алгебры, в котором заключены математические операции над матрицами, определяет архитектуру трансформера, выполняет инференс трансформера, а затем очищает вывод от токенов при помощи BPE-декодера. Всё это — примерно в 3000 байт на C.

Код достаточно эффективно оптимизирован — настолько, что малый GPT-2 на любой современной машине выдаёт отклик всего за несколько секунд. Чтобы этого добиться, я реализовал KV-кэширование и применил эффективный алгоритм перемножения матриц, а также добавил опциональный OMP-параллелизм.

Взяв это за основу, можно создать некий аналог Chat GPT — при условии, что вас не слишком волнует качество вывода (объективно говоря, вывод получается просто ужасный… но решение работает). Здесь есть некоторые глюки (особенно с обработкой символов в кодировке UTF-8), а для эксплуатации модели размером XL с широким контекстным окном может потребоваться ~100 ГБ оперативной памяти. Но, если вы просто набираете текст в кодировке ASCII при помощи малого GPT2, то такая модель должна нормально работать примерно везде.

Я выложил весь код на GitHub, поэтому можете свободно брать его там и экспериментировать с ним.

Читать далее

Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре

Время на прочтение4 мин
Количество просмотров47K

В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.

Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.

Узнать об условиях и призах

Заменяем хабраюзеров ИИ-агентами. Гайд по browser-use

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров17K

TLDR: видео с результатом в конце статьи

Библиотека browser-use невероятно стрельнула практически в день релиза, на текущий момент это около 16 тысяч звезд на Гитхабе, и сотни восторженных отзывов на Reddit, в Твиттере, и так далее. Команду, создавшую browser-use даже приняли в YC. У неё революционная точность по сравнению с другими "ИИ агентами использующий браузер" (89% против Runner H с 67%).

Я очень удивился, что на Хабре всё ещё нет статьи с описание того, что это, и как это использовать. Сегодня мы это исправим: мы сделаем ИИ, который будет читать статьи на Хабре, и писать комментарии о том, почему продукт, описанный в статье, никому не нужен.

Добро пожаловать в мир ИИ-агентов!

Смарт-функции в Алисе: как LLM помогает понять, чего хочет пользователь

Время на прочтение41 мин
Количество просмотров7.9K

Так уж вышло, что раз в несколько лет мы переписываем сервис, отвечающий за диалоговое взаимодействие в Алисе. В прошлый раз мы распиливали монолит на микросервисы, переходили от концепции интента к концепции сценария и улучшали качество классификации. Этот рефакторинг позволил нам научиться горизонтально масштабироваться, ускорил выпуск фичей и дал возможность существенно улучшить качество работы диалогового движка. На этой инфраструктуре мы жили 5 лет.

Совсем недавно мы начали новый виток развития Алисы: мы хотим поместить в самое сердце (точнее, в самый мозг) нашего диалогового движка большую языковую модель. В этом году мы уже добавили в Алису возможность отвечать с помощью LLM на любые вопросы, а теперь взялись за то, чтобы Алиса стала более универсальной и могла выполнять любые задачи пользователя.

Например, пользователь может сказать: «Алиса, выключи телевизор, когда закончится этот матч». До появления смарт‑функций Алиса ответила бы, что «этого пока не умеет», так как подобной задаче её не обучали. Теперь нейросеть сама разложит запрос на два действия — посмотрит, сколько осталось до конца, и поставит таймер выключения на это время. Или если в запросе будут разного типа задачи, например одна про контент, а другая — про звук, Алиса тоже разложит их на понятные для нее части и выполнит: «Алиса, включи первый фильм на громкости 20».

Дальше я расскажу, как мы это собираемся делать.

Читать далее

Подключаем AI к LibreOffice: плагин localwriter

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров8.3K

Прошло всего несколько лет с момента взрыва популярности нейросетей, и уже практически невозможно найти профессию, связанную с работой за компьютером, которая не использовала бы AI для ускорения работы или улучшения её качества. Эта революция повлияла на всех, включая самых маленьких детей. Но, наигравшись с надиктовыванием указаний телефону и написанием запросов в браузере, хочется большего. И мы начинаем искать способы внедрить AI в программы, в которых работаем ежедневно. Программисты дают указания для написания кода через GitHub Copilot прямо из родной среды программирования. Появились плагины для MS Office, которые позволяют подключить AI. Но есть некоторые нюансы. Основная проблема этих плагинов не в том, что они стоят денег, а в том, что они отправляют почти все данные, с которыми вы работаете, на серверы провайдеров AI-услуг. По условиям использования провайдеры AI-сервисов открыто заявляют «Не отправляйте нам приватные данные, мы будем делать с ними, что захотим, включая передачу третьим лицам». И это полностью закрывает путь к использованию подобных сервисов там, где данные хоть сколько-нибудь чувствительны к утечке.
Как запустить локально AI-модель и установить плагин в LibreOffice для работы с нейросетью

Google снизил энергопотребление AI-запросов в 33 раза: что это значит для будущего ИИ

Время на прочтение5 мин
Количество просмотров4.9K

Искусственный интеллект давно вышел за рамки научной фантастики и стал частью нашей жизни — от поисковых систем до чат-ботов и голосовых помощников. Но у этого удобства есть немалая цена: для генерации ответа ИИ расходует значительные вычислительные ресурсы и энергию.

Правда, здесь разработчики современных языковых моделей тоже продвинулись. Недавно Google сообщил о впечатляющем результате: всего за год энергопотребление одного AI-запроса удалось снизить в 33 раза. Это не просто техническое достижение, а сигнал для всей индустрии, который может изменить подход к разработке и использованию ИИ. Давайте разберем, каким образом Google этого добился, какие технологии помогли и как это повлияет на будущее искусственного интеллекта.

Читать далее

Эксперимент: может ли AI реально помочь с рефакторингом легаси-кода на Python

Время на прочтение11 мин
Количество просмотров4.1K

Показываем на практике, как с помощью ChatGPT можно за несколько минут преобразить реально существующие фрагменты легаси-кода на Python.

Читать далее

Интерфейсы без экрана: как разговаривают голосовые ассистенты, когда никто не слышит

Время на прочтение8 мин
Количество просмотров3.3K

А что если ваш голосовой ассистент никогда не замолкает? Даже когда экран темный, а в комнате мертвая тишина, он ведет свою тайную беседу. Не с вами, а с тысячами серверов. О чем? О вас. В этой статье я предлагаю разобрать механизмы этого фонового «общения»: что именно передается в тишине и как это работает. Детали, как всегда, под катом.
Читать дальше →

Блокбастер на коленке с НЛО, коровами и Ван Даммом. Тестируем нейросети для видео

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров5.8K

Привет! Я Антон — инженер по информационной безопасности в Selectel. В рабочих процессах часто наступает момент, когда видео очень нужно, но времени, ресурсов или навыков для его создания нет. Например, хочется оживить презентацию коротким видеодайджестом или воссоздать историческое событие по архивным фото.

Хорошая новость: теперь и эту задачу можно поручить нейросетям. В тексте разберем, какие генеративные модели помогают превращать текст или картинку в полноценное видео, а также какие платформы агрегируют эти модели, предлагая удобные инструменты для работы. Посмотрим, насколько они хороши и какие артефакты можно встретить.
Читать дальше →

Ближайшие события

DeepSeek — новый ChatGPT, Qwen — новый DeepSeek? Проверяем модели в разработке, иллюстрациях и готовке

Время на прочтение11 мин
Количество просмотров23K

Казалось бы, мир еще не успел оправиться от новостей о китайской нейросети, которая догнала ChatGPT и обвалила фондовый рынок. Но вот уже DeepSeek не справляется с потоком пользователей, а техногигант Alibaba презентовал обновленную модель — Qwen 2.5 Max. При этом решения из Китая не только бесплатны и с открытым кодом, но и кратно дешевле в разработке. С другой стороны, иной подход может сказаться на цензуре и «трудностях перевода» по сравнению с западными моделями.

Меня зовут Антон, я инженер по информационной безопасности в Selectel. В тексте сравню СhatGPT с двумя китайскими собратьями — Qwen и DeepSeek. Оценим их по нескольким критериям: логика, генерация изображений и исправного работоспособного кода. Добро пожаловать под кат!
Читать дальше →

VLM в Нейро: как мы создавали мультимодальную нейросеть для поиска по картинкам

Время на прочтение11 мин
Количество просмотров18K

Сегодня у Поиска большое обновление. Например, ответы Нейро теперь будут появляться сразу в поисковых результатах — для тех запросов, где это полезно и экономит время. Но в рамках этой статьи нас интересует другая часть обновления: Нейро поможет найти ответы в Поиске по картинкам и в Умной камере — с помощью новой мультимодальной модели Яндекса. Пользователь может не только узнать, что изображено на картинке, но и задать вопрос по каждой её детали. Например, гуляя по музею, можно сфотографировать натюрморт голландского живописца и спросить, что символизирует тот или иной предмет на картине.

Меня зовут Роман Исаченко, я работаю в команде компьютерного зрения Яндекса. В этой статье я расскажу, что такое визуально‑текстовые мультимодальные модели (Visual Language Models или VLM), как у нас в Яндексе организован процесс их обучения и какая у них архитектура. Вы узнаете, как Нейро работал с картинками и текстами раньше, и что изменилось с появлением VLM.

Читать далее

Следи за собой. Риски общения с ИИ

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров8.6K

Вопрос: сведет ли ИИ вас с ума? Хорошая новость — скорее всего нет.

За последние пять лет ИИ прошел путь от интересных экспериментов избранных инженеров и ученых, до фактически универсального помощника в каждом доме и офисе. 

Но появился и всерьез обсуждается незаявленный побочный эффект — психокогнитивная зависимость.

Эту статью я написал на основе личного опыта и опыта общения с увлеченными пользователями ИИ. Большая часть указанных рисков подтверждается научными исследованиями.

Читать далее

MLечный путь 2025 — знания, опыт, коммьюнити. Как это было?

Время на прочтение12 мин
Количество просмотров4.3K

Привет, Хабр! 23 апреля мы провели в Петербурге митап для ML-специалистов. Спикеры обсудили запуск LLM в продакшен, оптимизацию GPU-инференса, а также Edge-решения для медицины и агросектора. Минимум теории — больше кейсов от Selectel, Cloud.ru, Celsus и Русагро.

Как подобрать инфраструктуру под LLM? Как контейнеризировать GPU в многоарендных средах? Как запускать ML на комбайне или медицинском поезде без интернета? На эти вопросы ответили в четырех докладах на MLлечном пути.

А еще мы организовали питч-сессию для стартапов. Пять проектов на стадии pre-MVP боролись за призовой фонд в 100 000 бонусов. Победителей выбирали сами зрители. В тексте рассказываем, как все было.
Читать дальше →

Насколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки

Время на прочтение7 мин
Количество просмотров8K

Когда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.
Читать дальше →

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Время на прочтение9 мин
Количество просмотров8.9K

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»).

Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.
Читать дальше →

Фундаментальная математика — теория всего в IT и не только. Теория типов и формализация в Coq

Время на прочтение38 мин
Количество просмотров15K

У нас есть 3 "теории всего" - научная картина мира (все сводится к законам физики), информатика (все сводится к битам) и фундамент математики (все сводится к логике). Именно фундамент математики представляет особый интерес, так как он является фундаментом для двух других фундаментов и имеет глубокий философский смысл. Последние 2 года я сильно им увлекся и проделал довольно большую работу по углубленному изучению теории типов (Calculus of Constructions), и готов поделиться результатами, а также рассказать о девяти направлениях, где можно применить это на практике. Очень многое получилось лучше, чем я планировал. Изначально перспективы были не очень понятными, и поэтому я не рассказывал друзьям и коллегам про мою работу в этом направлении и называл это «Секретный Проект». Но теперь, когда многое прояснилось и получилось, можно поделиться успехом. Собственно, в этой статье я расскажу вам не только про сам фундамент математики, а еще его связь с ежедневной работой программиста, а также с Computer Science/Data Science и AI/ML. Я вам нарисую большую и красивую картину, на которой все понятно и логически следует из маленького набора правил выведений типов (11 штук) и аксиом теории множеств (9 штук).

У нас есть 3 фундамента математики — теория множеств (удобна для человека), теория типов (удобна для компьютера) и теория категорий (не знаю, зачем она вообще нужна). Они примерно одинаковой мощности и одну можно выразить внутри другой. Особый интерс представляет именно теория типов, тк ее довольно легко можно запрограммировать внутри компьютера и использовать как строгий фундамент для других теорий, который не дает совершить ошибку и проверяет каждое ваше действие.

Читать далее

Вклад авторов