Машинное обучение *

Основа искусственного интеллекта

Машинное обучение * Управление разработкой * Искусственный интеллектБудущее здесь

Китайский ИИ-проект DeepSeek возглавил топ по скачиванию в США.

OpenAI с проектом ChatGPT была основана 10 лет назад, имеет 4500 сотрудников и привлекла $6,6 млрд капитала. Китайская DeepSeek была основана менее 2 лет назад, имеет 200 сотрудников и была разработана менее чем за $10 млн. Но они начали конкурировать.

DeepSeek выпустила версию DeepSeek‑V3, LLM с открытым кодом, который соответствует производительности ведущих американских моделей, но требует гораздо меньше затрат на обучение. Модель имеет 685 млрд параметров, а в основе её архитектуры лежит подход Mixture of Experts (MoE) с 256 «экспертами», из которых восемь активируются для каждого токена.

В тестах производительности DeepSeek‑V3 превосходит Llama 3.1 и другие модели с открытым кодом. DeepSeek‑V3 соответствует или даже превосходит Chat GPT-4o, уступая лишь Claude 3.5 Sonnet от Anthropic.

В DeepSeek сообщили о расходах в размере $5,6 млн на обучение своей нейросети по сравнению с предполагаемыми $500 млн, потраченными на обучение Llama-3.1.

Бенчмарки подтверждают, что Deepseek недалека от решений OpenAI, но всего за 3% от стоимости разработки. Стоимость собственного API DeepSeek составляет всего $0,55/$2,19 за вход/выход — значительно дешевле.

denis-19

25 янв в 08:3711K

Машинное обучение * Управление разработкой * Управление продуктом * Искусственный интеллектФинансы в IT

Китайские разработчики из DeepSeek пошли проторенным путём и сделали свой ИИ-проект, внимательно изучив ошибки других. В результате стоимость продукта Deepseek оказалась на 97% ниже, чем раздутые американские проекты с большими затратами на обучение.

Бенчмарки подтверждают, что Deepseek недалека от решений OpenAI, но всего за 3% от стоимости разработки.

Стоимость собственного API DeepSeek составляет всего $0,55/$2,19 за вход/выход — значительно дешевле.

Эксперты считают, что китайская DeepSeek может представлять угрозу для фондовых рынков США, компания создала модель искусственного интеллекта по чрезвычайно низкой цене и без доступа к передовым чипам, что ставит под вопрос необходимость сотен миллиардов капиталовложений в эту отрасль.

В декабре DeepSeek представила новую языковую модель DeepSeek‑V3, которая продемонстрировала впечатляющие результаты в работе с кодом. Модель имеет 685 млрд параметров, а в основе её архитектуры лежит подход Mixture of Experts (MoE) с 256 «экспертами», из которых восемь активируются для каждого токена.

По данным Deepseek, V3 демонстрирует производительность, сопоставимую с ведущими проприетарными моделями, такими как GPT-4o и Claude-3.5-Sonnet, во многих тестах, при этом предлагая лучшее соотношение цены и производительности на рынке.

Также DeepSeek выпустила открытую версию модели рассуждений DeepSeek‑R1, которая, по её утверждению, работает наравне с o1 от OpenAI в определённых тестах. Это уже подтвердили независимые бенчмарки.

Dataist

24 янв в 15:5411K

Машинное обучение * Искусственный интеллект

Как на практике работает Operator - автономный агент от OpenAI и перспективы GUI-агентов

OpenAI представила Оператора — это автономный агент, способный действовать от вашего имени в браузере. Он «видит» страницы (через скриншоты), умеет нажимать кнопки и прокручивать ленту, а в случае надобности просит пользователя ввести логины и пароли вручную. Пока сервис доступен лишь пользователям ChatGPT Pro в США и стоит 200 $/мес. В будущем OpenAI обещает внедрить его и в другие тарифы ChatGPT.

Основная идея Оператора — экономия времени и упрощение рутины. Гипотетически Оператор может: оформлять покупки на сайтах (Instacart, DoorDash, Uber, StubHub и пр.), сравнивать цены, бронировать отели и билеты, заполнять формы и даже генерировать мемы.

В теории это напоминает «виртуального стажера» в браузере, которого вы инструктируете (например: «закажи пиццу», «забронируй поездку в Париж», «собери список блогеров»), а дальше Оператор выполняет задачу почти без вмешательства человека.

Так один ИИ-энтузиаст одним из первых протестировал Оператора. Он решил поручить ему собирать список финансовых блогеров на YouTube и искать их контакты в LinkedIn — в теории рутинная, но наглядная задача.

Как выяснилось, Оператор живо открывает страницы и пытается сам формировать табличку, но довольно быстро начинает «залипать»: вместо поиска через YouTube сам агент почему-то полез в Bing, а затем «запутался»; возникли серьезные «галлюцинации» — выдуманные контактные данные и мнимые ссылки на LinkedIn. По словам тестировщика, это «хуже, чем ранние GPT-3»; скорость оставляет желать лучшего. Каждая прокрутка, клик и ввод текста занимали 1–2 секунды — «как смотреть на очень медленную печать бабушкой».

Итог — Оператор так и не сделал качественный список за 20 минут и успел выдумать кучу несуществующих e-mail-ов. Сейчас Оператор похож на неопытного стажера, которого «стоило бы уволить». Однако разработка такого рода агента — это все еще перспективная демонстрация, способная в недалеком будущем автоматизировать скучные действия в браузере.

Что у конкурентов? Anthropic внедрила похожую технологию «computer use» в обновлённом Claude 3.5 Sonnet, который тоже пытается «тыкать мышкой» и «видеть» интерфейс. Но пока он сталкивается со схожими проблемами — не всегда корректно распознает элементы экранов, путается в сложных сайтах и часто требует участия человека.

ByteDance (материнская компания TikTok) пошла ещё дальше, представив UI-TARS — агента, работающего и на ПК, и в мобильных приложениях. По внутренним бенчмаркам он уже опережает GPT-4 и Claude по точности распознавания GUI. UI-TARS может запускать IDE, устанавливать плагины, покупать авиабилеты и так далее. При этом, как утверждают разработчики, работает быстрее и точнее — но пока это всё на стадии исследовательских публикаций.

Несмотря на все трудности, уже сейчас видно, в каком направлении движется индустрия: от простого чат-бота к полноценному ИИ-сотруднику. Технология очень молода, и разработчики лишь учатся эффективной и безопасной интеграции.

Оператор пока точно не отнимет вашу работу, но потенциал у подобных систем огромен — когда они «повзрослеют» и научатся действовать надежно, уйдет куча рутины вроде заполнения форм и ручного копирования данных из одного места в другое.

Как по мне, сейчас самое лучшее время учиться применять ИИ в своем бизнесе, аугментируя сотрудников. Автоматизация человеческой деятельности пока еще остается заветной целью, но уже сейчас можно отдать рутину ИИ и направить свой, человеческий интеллект в нужное русло. Сегодня ИИ скорее нас дополняет, чем заменяет, но, возможно, это временное явление, и он обучится автоматизации на наших данных.

Доверите ли вы свои данные и, по сути, свою «цифровую идентичность» агенту, который будет действовать от вашего лица?

Если вам интересна тема ИИ, подписывайтесь на мой телеграм-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес и запуску ИИ-стартапов, объясняю как работают все эти ИИ-чудеса и рассуждаю о будущем индустрии.

denis-19

24 янв в 03:588K

Машинное обучение * Искусственный интеллектБудущее здесьУрбанизм

Пользователь провёл забавный эксперимент и спросил у ChatGPT как бы он устроил некое абстрактное государство с доходом 1 трнл долларов в год.

Промты:

представь, что ты руководитель государства. Сейчас не важно какого. Расскажи какое максимально эффективное устройство общества ты бы сделал в этом государстве и подробно распиши как твои решения связаны с повышением эффективности;
нужны более конкретные решения. Давай представим, что твой бюджет в год 1 трлн долларов, но тебя окружают государства, которые хотят тебя завоевать.

Что получилось в итоге отображено на этой картинке.

Что забавно:

не уточнялось морское это государство или нет, но чат‑бот по умолчанию выбрал морское (упор на авианосцы и флот);
больше всего ИИ вложил в расходы на оборону (400 млрд);
ИИ создал нечто под названием цифровой концлагерь, где каждый твой шаг оценивается и складывается в социальный рейтинг;
при этом в модель явно заложена зелёная энергетика;
при этом заметен упор на внутреннюю политику, а не на внешнюю. Грубо говоря счастливый народ — крепкое государство.

-1

denis-19

23 янв в 11:476.7K

Машинное обучение * Искусственный интеллектЗдоровьеБудущее здесь

Пользователь Reddit потратил пять лет жизни и более $100 тыс. на врачей, чтобы ему поставили правильный диагноз; в итоге он дал GPT‑O1 Pro проанализировать свои медицинские записи и симптомы — ИИ предположил, что это аксиальный спондилоартрит — редкое аутоиммунное заболевание; врач подтвердил верность поставленного диагноза.

SantrY

22 янв в 09:005.4K

Машинное обучение * Научно-популярноеИскусственный интеллект

Искусственный интеллект в образовании 🎓🤖

Дело Бартоша Цехановского живет. Время интерактивных учебников уже близко: студенты Университета Калгари разработали «Дополненную физику» — инструмент, который преобразует статические физические диаграммы из учебников в интерактивные симуляции. Под капотом модель Segment Anything, выделяющая разные детали изображений и LLM, например, Gemini. Языковая модель, видимо, отвечает за интерпретацию и "логику" происходящего.

Интерактивные иллюстрации, боты-репетиторы и наставники - эти разработки напоминают интерактивный букварь из Алмазного века Нила Стивенсона, и ставят серьезные вопросы о том, как будет выглядеть образование в ближайшем будущем.

dTech исследователь Энди Матущак в эссе Exorcising us of the Primer пытается ответить на этот вопрос на примере того самого букваря. Он рассказывает о том, чего мы хотим от обучения, как создавать сценарии, которые поощряют обучение и мышление, и как можно использовать технологии, чтобы вызвать любопытство… В дискуссию включается нейробиолог и игровой дизайнер Адриан Хон. "Возможно нужно не универсальное решение, а специализированные обучающие инструменты?" - предлагает он.

Я же хочу зафиксировать момент. Поразительно, что ученые обсуждают этот фантастический роман в прикладном ключе.

Нынешнее состояние системы образования представляется удручающим, поэтому хочется понять, как приближение сингулярности изменит ситуацию. К счастью, появляются первые оценки применения LLM в преподавании.

Учащиеся, которые были случайным образом отобраны для участия в программе, значительно превзошли своих сверстников, не участвовавших в ней, по всем направлениям, включая английский язык, что являлось главной целью программы. Эти результаты убедительно доказывают, что генеративный ИИ при продуманном внедрении и поддержке учителей может эффективно выполнять роль виртуального репетитора.

From chalkboards to chatbots: Transforming learning in Nigeria, one prompt at a time.

Стивенсон предполагал, что каждый получит доступ к продвинутому виртуальному репетитору с высокой степенью персонализации, который сделает обучение более легким и продуктивным. Возможно, мы на правильном пути. Исследователи утверждают, что их ученики достигли результатов, эквивалентных двум годам обучения, всего за шесть недель.

Пока не появится больше данных, отношусь к результатам с долей скепсиса, но отмечу: речь идет о совместной работе ученика и учителя с LLM, а не о полной замене педагогов. Это подтверждает общее наблюдение – нынешний ИИ эффективнее всего работает в связке с человеческим интеллектом. Тут невольно вспоминается уже "Культура" Иэна Бэнкса.

Ищите больше интересного в телеграм.

ledevik

20 янв в 11:456.5K

Блог компании КриптонитТерминология ITМашинное обучение * Искусственный интеллект

Попросили вашу умную колонку включить музыку, а она вместо этого вызвала такси? Похоже на атаку типа «подмена распознавания»!

Не секрет, что системы ИИ уязвимы. И один из вариантов их аудита — активное тестирование, которое подразумевает поиск уязвимостей.

Специалист отдела перспективных исследований ИТ-компании «Криптонит» Алексей Протопопов провёл эксперимент: он написал свой алгоритм, который мог бы сгенерировать атаку на систему распознавания речи.

В случае успешной атаки нарушается транскрибирование фраз и выполняются совершенно другие команды. Например, говорите: «Колонка, включи музыку», а она вместо этого набирает номер. Триггером атаки может послужить и какая-то мелодия, которая будет распознаваться как команда.

Это разновидность атаки типа «подмена распознавания», но существуют и другие. Например, атака подмены личности. Они могут быть направлены на то, чтобы система ИИ (та же «Алиса» или Siri) распознавала атакующего как владельца.

Эффективные атаки выполняются «по воздуху», то есть — не требуют подключения к атакуемой системе. Достаточно, чтобы она услышала звук. Суть атаки в том, чтобы передать ей такой набор звуков, который исказил бы транскрипцию.

На практике атака усложняется фоновыми шумами, эхом и тем простым фактом, что все микрофоны и динамики обладают разными характеристиками.

Алексей с коллегами симулировали свыше 700 разных конфигураций и создали итерационный алгоритм, который выполняет атаку на ИИ незаметно для человека, используя психоакустические особенности восприятия звука.

Этот доклад был на V встрече экспертного сообщества по криптографии и большим данным, которую организовал «Криптонит» при поддержке Музея криптографии. Дискуссия была посвящена теме аудита безопасности систем ИИ.

Смотрите запись встречи
📺 на Rutube
📺 в VK видео

VSAI

18 янв в 20:4510K

Интерфейсы * Машинное обучение * Робототехника

Эмулякр (Emulacrum)

Уважаемые коллеги!

Работая над методологией проектирования систем искусственного интеллекта DHAIE (Design Human Artificial Intelligence Engineering and Enhancement), я столкнулся с необходимостью описать часто встречающееся явление в современных ИИ-системах. Речь идет о решениях, которые создают видимость сложного поведения, но по сути являются лишь поверхностной имитацией.
Для описания этого феномена я предлагаю ввести новый термин "эмулякр" (emulacrum), объединяющий концепции эмулятора и симулякра. Особенно актуален этот термин в контексте попыток реализации в ИИ таких сложных явлений, как эмоции, сознание или интуиция.

Эмулякр - программное или архитектурное решение в системах искусственного интеллекта, создающее поверхностное подобие определённого поведения или свойства (например, эмоций, сознания, интуиции) без интеграции соответствующих механизмов в базовую архитектуру системы.

Ключевые характеристики:

Имитирует наблюдаемые проявления целевого свойства, но не воспроизводит его внутренние механизмы
Основывается на предопределённых паттернах и правилах, а не на эмерджентном поведении системы
Ограничен рамками заложенной модели и не способен к подлинному развитию имитируемого свойства
Может быть полезен для улучшения взаимодействия с пользователем, но представляет собой тупиковое решение с точки зрения развития ИИ

Применение:

Термин используется в методологии Дизайн Хьюмен Артификал Интеленженс Инженеринг энд Енхансмент (DHAIE) для выявления и классификации решений, требующих фундаментального пересмотра при создании более продвинутых систем искусственного интеллекта.

Буду признателен за ваши мысли и комментарии по поводу предложенного термина. Считаете ли вы его полезным для профессионального сообщества? Какие аспекты определения можно было бы уточнить или расширить?

yadro_team

15 янв в 08:477.1K

Блог компании YADROПрограммирование * Машинное обучение * Искусственный интеллект

Как разработать микроархитектуру нейросетевого ускорителя

Для создания микроархитектуры важно рассмотреть принципы работы вычислительного ядра и управляющего устройства.

Ядро фактически является вычислителем взвешенной суммы. Основная особенность заключается в наличии очередей входов и весов, которые подаются на умножители. Результаты с умножителей суммируются между собой и добавляются к текущему значению счетчика.

Реализация блока активации — более сложная задача, так как она предполагает вычисление тригонометрических формул, делений на переменные значения и других подобных операций. Но поступим проще — добавим таблицу значений (LUT, lookup table), которая позволяет посчитать примерное значение функции в заданной точке.

Статья Михаила Степанова, инженера-стажера из группы функциональной верификации YADRO, поможет вам понять, с чего начать погружение в тему ускорения нейросетей. Экспериментировать можно самостоятельно — ссылки на исходники простой нейросети на C++ и реализованную модель ускорителя на SystemC вы найдете в тексте.

ledevik

9 янв в 09:357.3K

Блог компании КриптонитМашинное обучение * Искусственный интеллект

Ищем ML-модели!

Чтобы найти ML-модель, большинство отправляется на площадку Hugging Face, которую называют «Гитхабом для ML», но теперь и на самом GitHub анонсирована экосистема для работы с моделями машинного обучения.

Вскоре там будут представлены Llama 3.1, GPT-4o, Phi 3, Mistral Large 2 и другие популярные модели, а также датасеты, фреймворки и прочие вспомогательные инструменты.

Обещается, что их можно будет бесплатно тестировать прямо на «игровой площадке» GitHub в интерактивной среде. При этом Microsoft клятвенно заверяет, что «никакие ваши запросы или выходные данные не будут передаваться поставщикам моделей и не будут использоваться для их обучения». Сейчас запущена публичная бета-версия, в которой можно принять участие.

Одновременно в восточных регионах набирает популярность своя ML-ориентированная платформа — Gitee AI от китайской компании Open Source China. В ней пока слабовато с документацией (и она вся на китайском!), но Gitee AI может быть полезна, если вам нужно создать продукт для азиатского рынка, или сделать оптимизацию под китайские чипы (процессоры Лунсинь, ИИ-ускорители Huawei и Moore Threads).

Exosphere

3 янв в 10:0411K

HabrПрограммирование * Машинное обучение *

У узкопрофильных, технических статей на Хабре нередко интересная судьба: их активно добавляют в закладки, мало просматривают на момент выхода и обращаются к ним позже (ну или не обращаются, потому что закладки бывают слишком долгим ящиком). Мы поработали за вас и выбрали 10 полезных туториалов из 2024 года, которые добавили в избранное более 50 раз, но просмотрели менее 3000. И кажется, это серьёзные технические статьи, которые можно почитать для работы или учёбы, разобраться, забрать себе толковые идеи.

А что интересного лежит у вас в закладках и часто ли вы к ним обращаетесь?

+24

yadro_team

26 дек 2024 в 14:157.8K

Блог компании YADROКомпиляторы * Машинное обучение * Искусственный интеллект

Ускоряем глубокие нейросети с тензорными компиляторами

Если вы хотели узнать, чем компиляторы общего назначения отличаются от тензорных, но боялись спросить — эта статья для вас. Если кратко, то компиляторы общего назначения нужны для разработки программ, которые могут выполняться на любом компьютере. Они обеспечивают баланс между производительностью и универсальностью и подходят для самых разных целей.

Тензорные компиляторы решают специализированные задачи в области машинного обучения. Они ориентированы на ускорение работы нейросетей. Такие компиляторы используют преимущества параллельных вычислений и возможности специализированных аппаратных платформ, таких как графические ускорители, нейросетевые и тензорные процессоры.

Из статьи вы узнаете:

чем компилятор общего назначения отличается от тензорного,
специфика тензорных компиляторов и как они устроены,
каким специалистам нужны и где применяются,
где изучить построение и использование тензорных компиляторов для ускорения глубоких нейросетей,
обзор фронтенд-ориентированных инструментов: Glow, XLA, OpenVINO, Apache TVM.

Если вы хотите больше узнать про построение и использование тензорных компиляторов для ускорения вывода глубоких нейронных сетей, то рекомендуем для самостоятельного изучения бесплатный курс от сотрудников института ИТММ ННГУ им. Н. И. Лобачевского. Ссылка на курс — в статье про тензорные компиляторы.

aliyax

26 дек 2024 в 12:496.7K

Блог компании DoubletappПрограммирование * Машинное обучение * Искусственный интеллект

Подборка статей про LLM, компьютерное зрение и машинное обучение

Doubletapp занимается машинным обучением уже 6 лет. В далеком 2018 году мы получили первый проект с нейросетью (смотрите первую статью подборки). Кейс оказался удачным, после него посыпались другие заказы, так мы год за годом наращивали экспертизу в обучении языковых моделей, интеграции LLM и RAG, которая может пригодиться вам, наши читатели. Поэтому делимся статьями, написанными нашими ML-специалистами:

👉 Прости нас, Джон Коннор, или Как мы научили нейросеть точечно распознавать звуки выстрелов

👉 Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

👉 Как общаться с базой знаний на естественном языке с помощью LLM и объективно оценить работу полученной системы

👉 Neural Network Optimization: океан в капле

👉 Руки на руль: Bus Factor следит за тобой

👉 Тренды ИИ-2025

denis-19

24 дек 2024 в 02:128.1K

Машинное обучение * Учебный процесс в ITОблачные сервисы * Искусственный интеллект

Вышел официальный гайд по промптам для ChatGPT от OpenAI в сотрудничестве с руководителем отдела решений в ИИ Колином Джарвисом.

Оказывается, что стандартные варианты промптинга только ухудшают ответы ChatGPT o1. Этот бесплатный курс обязателен для получения максимально продуктивных ответов. Обучающий модуль улучшает понимание модификации запросов, выполнения планов, генерации кода и рассуждений с помощью ИИ.

denis-19

20 дек 2024 в 17:4511K

Машинное обучение * Учебный процесс в ITУправление персоналом * Карьера в IT-индустрииИскусственный интеллект

IT-компания Perplexity запустила бесплатное обучение по ИИ для студентов. Записаться можно на сайте проекта до 28 декабря — лучшим ученикам подарят поездку в офис в Сан-Франциско.

yadro_team

19 дек 2024 в 12:337.5K

Блог компании YADROОбработка изображений * Машинное обучение * Искусственный интеллектПланшеты

Трудно найти в темной комнате документ, особенно если его там нет

Представим, что нам нужно сделать нормальное фото документа, но положить листик как в сканере — более-менее ровно, в фокусе, под достаточным и равномерным светом — мы не можем. Поможет ли здесь ИИ? Конечно, если мы научим его решать некоторые вопросы, например:

Есть ли вообще документ на фото?
А это лист А4 или микроволновка?
Если есть, где его границы?
Если границы кривые, как их выпрямить?
А это документ или тень от документа?

Команда YADRO прошла этот квест, начав с простых CV-алгоритмов. По пути собрали свою нейросеть, а также инструмент для создания подходящих датасетов на основе модификации ControlNet для Stable Diffusion. В результате планшет Kvadra_T научился определять документы в реальном времени — прямо в приложении камеры.

Все подробности развития проекта, включая схемы реализации и подробные параметры обучения, — в статье Владислава, CV Engineer YADRO.

Editor_cloud_ru

18 дек 2024 в 13:117.3K

Блог компании Cloud.ruХранение данных * Машинное обучение * Научно-популярноеСуперкомпьютеры

Проверьте точность ваших вычислений 🧮

Привет, Хабр! Мы продолжаем рубрику для тех, кто хочет поразмять мозги. На этот раз предлагаем вам решить задачу посложнее:

Как нам поведал Дуглас Адамс в «Путеводитель для путешествующих автостопом по галактике», «сверхразумная раса существ создала компьютер Думатель (Deep Thought) — второй по производительности за всё существование времени и вселенной, — чтобы найти окончательный ответ на величайший вопрос жизни, вселенной и всего такого. После семи с половиной миллионов лет вычислений Думатель выдал ответ: «Сорок два».
Оцените накопленное количество ошибок вычислений ответа «Сорок два» под воздействием космической радиации при следующих условиях:
Сверхразумная раса – Земляне;
Думатель находится на орбите Плутона;
размер Думателя 1 * 1 * 1 км;
Думатель сделан из водяного льда;
Каждая молекула является вычислительной ячейкой, которая может поменять свое состояние.
Каждая частица галактического излучения, попавшая в Думатель, приводит к изменению состояния вычислительной ячейки (одной ошибке) с вероятностью 100%.

Варианты ответов оставляйте в комментариях 👇 В пятницу Павел Бузин (@pbuzin) — эксперт Cloud.ru по AI и машинному обучению, раскроет правильный ответ под этим постом.

И оставляйте реакции — как вам в целом такой формат, хотите еще задач в будущем?

Вам может быть интересно:

denis-19

18 дек 2024 в 07:215.9K

Машинное обучение * ТранспортУрбанизм

Cистема автономного управления беспилотного такси Waymo не справилась с круговым перекрёстком и «закружила» по нему автомобиль в циклическом режиме. Машина продолжительное время ездила по кольцу.

В Waymo сообщили, что пассажиров на тот момент в машине не было. Разработчики уже внесли необходимые программные исправления. Но почему система так странно повела себя, в компании не объяснили.

yadro_team

17 дек 2024 в 12:047.9K

Блог компании YADROC++ * Разработка мобильных приложений * Android * Машинное обучение *

Пишем приложение для поиска объектов на С++ (а не на Python)

Результат работы приложения по поиску объектов на С++

Приложения по поиску объектов, написанные на С++, работают ничуть не хуже привычных вариантов на Python. На это есть несколько причин:

Программы на С++ получаются более быстрыми и компактными. Инженерам доступно больше вычислительных ресурсов, так как современные компиляторы оптимизируют программу в соответствии с архитектурой целевого процессора.
C++ не использует дополнительный сборщик мусора для управления памятью — это существенно влияет на производительность программы.
Размер программы также можно уменьшить, поскольку C++ не использует дополнительную виртуальную машину и компилируется непосредственно в машинный код.

Это хороший выбор для мобильных устройств с ограниченным объемом ресурсов, например, телефонов или маломощных плат, которые используются в робототехнике или видеоаналитике.

Если хотите написать такое приложение, изучите материалы инженера YADRO и ML-энтузиаста Кирилла Колодяжного. Он подробно описал, как реализовать программу на С++ с применением библиотек компьютерного зрения.

Подготовительная часть →

Практическая часть →

abyakovenko

16 дек 2024 в 16:3311K

Машинное обучение *

Авторы недавно нашумевшей на NeurIPS статьи Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction предложили новый способ авторегрессионной генерации изображений, выдающий результаты конкурирующие с диффузионными моделями. В архитектуре этой модели нельзя не заметить схожесть с обратными сверточными сетями, где каждый последующий слой из нейронов генерирует изображение все большего и большего масштаба. Аналогия эта показалась мне настолько интересной, что я подыскал примеры того, как архитектуры с attention в своей основе повторяют шаги эволюции классических нейронных сетей и полушуточный пример того как эта аналогия может натолкнуть на новые идеи.

Если присмотреться к механизмам внимания и остаточных связей, на которых строится вся архитектура трансформеров, то можно представить как каждый из них является аналогией взаимодействия нейронов в классической нейронной сети. Так, нейроны превращаются в токены, матрица весов превращается в обмен информацию через внимание, а сама по себе архитектура нейронной сети может быть описана маской матрицы внимания, описывающую направленный граф перемещения информации. И, если приглядеться, практически все архитектурные трюки обычных нейронных сетей уже так или иначе применяются в связке с трансформерами.

Vision Transformers выглядят один в один как самый наивный метод применения полносвязных нейронных сетей для классификации изображений. На входе каждый токен-нейрон получает информацию об одном патче, а следующие слои являются на основе обмена информацией между всеми токенами предыдущего слоя.

Идеи бутылочного горлышка автоэнкодеров используются для того, чтоб эффективно сжимать большой объем информации. К примеру, LongFormer и BigBird используют разреженные матрицы внимания с целью обучить нейронную сеть суммаризировать информацию и уменьшить стоимость обработки длинных текстов.

Ограничения нейронных сетей, позволяющие обмен информацией только для находящихся рядом нейронов, отражены в оптимизациях трансформеров для изображений и видео через ограничение возможных взаимодействий токенов в сети на взаимодействия только в вертикальных, горизонтальных или временных столбцах в пределах одного слоя.

Уже упомянутый авторегрессионный метод генерации изображений удивительно схож с обратными сверточными сетями.

Тут надо отметить еще два случая, когда связь есть, но аналогия не совсем корректна.

Вышедшая не так давно статья Tokenformer так и вовсе предлагает заменить два слоя полносвязной сети одним слоем attention. И хвастает, что эта архитектура позволяет решить проблему затухающих градиентов без применения batch/layer нормализации.
Многие методы CoT (цепочек размышлений) используемые в больших языковых моделях для рассуждений ветвятся, опираясь на одно и то же начало фразы, но не являются аналогами какой-то нейронной сети.

Как упражнение для себя, я попытался подыскать задачу, которая бы решалась по возможности самым разреженным графом - бинарным деревом или остовным графом. И, как ни удивительно, найти подобную игрушечную задачу довольно легко. Остовный граф является естественной структурой при построении иерархической кластеризации. Для кривых приближенных ломаными, довольно просто представить процесс последовательного упрощения через объединение двух соседних отрезков в один до тех пор, пока вся кривая не выродится в отрезок. Для поиска интересных кривых можно вдохновиться статьей 2014 года, использовавшей рекуррентные нейронные сети для генерации в том числе рукописного текста. Оригинальный датасет уже недоступен, но ему есть адекватная замена. И так, немного модифицировав nanogpt и поломав голову над позиционным кодированием, за выходные можно собрать генератор рукописного текста на основе трансформера!

1 2 ...

20 21

23 24 ...

34 35

Машинное обучение *

Ближайшие события

Вклад авторов