Articles / Bookmarks / Profile of Sdima1357 / Habr

Дмитрий Самсонов @Sdima1357

image processing

ProfileArticles9PostsNewsComments2K

anikengur Mar 19 at 00:54

Пишем свой Transformer

12 min

8.4K

Machine learning*Mathematics*Artificial Intelligence

Захотелось более детально разобраться и попробовать самостоятельно написать Transformer на PyTorch, а результатом поделиться здесь. Надеюсь, так же как и мне, это поможет ответить на какие-то вопросы в данной архитектуре.

+20

Kual Mar 15 at 07:00

Практическое руководство по выбору между ChatGPT, Claude, Gemini, Grok и Perplexity

Easy

6 min

68K

The future is hereArtificial IntelligenceContent-marketing*Product Management*Research and forecasts in IT*

Review

Translation

Какой модели доверить свои задачи в 2025 году? От редактирования текста и кодинга до анализа видео с контекстным окном в 2+ миллиона слов — узнайте, какая модель решит именно ваши задачи и стоит ли платить за две подписки одновременно.

+15

sea256 Mar 14 at 13:49

Развертывание виртуальной машины Windows 10 на Ubuntu с доступом через noVNC

Easy

5 min

6.4K

GitHub*Virtualization*

Tutorial

В данной статье описывается пошаговая методика развертывания виртуальной машины (ВМ) с установленной операционной системой Windows 10 на сервере с операционной системой Ubuntu. Решение предполагает установку всех необходимых компонентов, настройку виртуализации с помощью QEMU/KVM, а также организацию удалённого доступа к ВМ посредством noVNC.

Подробнее

+12

Nina-Konovalova Mar 7 at 07:35

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Hard

4 min

880

AIRI corporate blogAlgorithms*Artificial IntelligenceMachine learning*Working with 3D-graphics*

Case

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам.

Не так давно мы получили приятную новость: нашу статью по семантическое выравнивание при генерации 3D‑моделей приняли на ICLR. В ней мы нашли способ, как построить выровненную генерацию 3D‑объектов, используя гайданс предобученной диффузионной модели, чтобы сделать редактирование или гибридизацию более надёжными. В этой статье хотелось бы кратко пересказать суть нашей работы.

SergeyNovak Mar 5 at 09:01

Подключаем AI к LibreOffice: плагин localwriter

Easy

7 min

7.8K

RUVDS.com corporate blogOpen source*Artificial IntelligenceContent-marketing*Machine learning*

Tutorial

Прошло всего несколько лет с момента взрыва популярности нейросетей, и уже практически невозможно найти профессию, связанную с работой за компьютером, которая не использовала бы AI для ускорения работы или улучшения её качества. Эта революция повлияла на всех, включая самых маленьких детей. Но, наигравшись с надиктовыванием указаний телефону и написанием запросов в браузере, хочется большего. И мы начинаем искать способы внедрить AI в программы, в которых работаем ежедневно. Программисты дают указания для написания кода через GitHub Copilot прямо из родной среды программирования. Появились плагины для MS Office, которые позволяют подключить AI. Но есть некоторые нюансы. Основная проблема этих плагинов не в том, что они стоят денег, а в том, что они отправляют почти все данные, с которыми вы работаете, на серверы провайдеров AI-услуг. По условиям использования провайдеры AI-сервисов открыто заявляют «Не отправляйте нам приватные данные, мы будем делать с ними, что захотим, включая передачу третьим лицам». И это полностью закрывает путь к использованию подобных сервисов там, где данные хоть сколько-нибудь чувствительны к утечке.

Как запустить локально AI-модель и установить плагин в LibreOffice для работы с нейросетью

+51

NastasiaY Feb 27 at 08:59

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

Medium

13 min

Сбер corporate blogArtificial IntelligenceMachine learning*Image processing*

Review

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком

В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём составляющие модели и её архитектуру, а также углубимся в процесс обучения.

+20

bobastia Feb 23 at 09:15

Выжимаем максимум из моделей Whisper на Apple Silicon

Easy

6 min

7.6K

Machine learning*Python*

From sandbox

Недавно захотел вспомнить молодость и пересмотреть отличные лекции по машинному обучению из университета. Смотреть, конечно же, стало скучно уже на 5 минуте, и мне пришла в голову отличная идея. Что если перевести все лекции в текст и просто нажимать ~~Ctrl~~ Cmd+F про то, что мне интересно? Загуглил, какие есть варианты, есть огромная куча API от заграничных и российских разработчиков, есть удобные UI для локального развертывания, но это все не то. API - скучно (да и вдруг потом на этих лекциях модели будут тренировать), UI не поддерживают Apple Silicon, и все гоняют на процессоре. Хочется что-то, чтобы и видеокарту использовало, и работало быстро, и чтобы можно было восхититься высокой скоростью моего M1 (спойлер — не восхититься).

whynothacked Mar 2 at 20:22

Свёрточные нейронные сети: от основ до современных технологий

Medium

6 min

8.5K

Machine learning*Artificial IntelligencePython*

Tutorial

Исследуем свёрточные нейронные сети (CNN): полный гид
От основ нейронных сетей до кода: узнайте, как CNN обрабатывают изображения. Включает:

Основы: нейроны, слои, обучение.

Компоненты CNN: свёртка, пулинг, полносвязные слои.

Архитектуры: LeNet, AlexNet, VGG, GoogleNet, ResNet.

Практический пример на TensorFlow.

Сравнение с Vision Transformers. Идеально для новичков и экспертов

+11

KissedByF1re Feb 26 at 20:47

Погружение в мир диффузионных моделей — путеводитель для новичков

Easy

26 min

4.4K

Raft corporate blogPython*Machine learning*Artificial Intelligence

From sandbox

Диффузионные модели перевернули мир генеративного искусственного интеллекта, вытеснив GAN'ы и вариационные автоэнкодеры. Но как они работают? Чем отличаются друг от друга? И как научиться их использовать?

Эта статья — путеводитель для тех, кто хочет разобраться в диффузионных моделях с нуля. В ней вы найдете три подхода к изучению — теория, практика и продвинутая практика.

+26

Flampanzer Feb 27 at 08:04

Генератор картинок от разработчиков DeepSeek. Тест-драйв новой нейросети

7 min

28K

Selectel corporate blogIT-companiesThe future is hereArtificial IntelligenceMachine learning*

Всего месяц назад команда DeepSeek выпустила в открытый доступ новую мультимодальную модель для генерации картинок — Janus-Pro-7B. Разработчики заверяют, что она умеет генерировать изображения, почти неотличимые от настоящих, отлично работает в локальном режиме, бесплатна и превосходит западных конкурентов в ряде задач.

Но действительно ли Janus-Pro-7B так хорош? Под катом разворачиваем модель в облаке, тестируем ее в деле и сравниваем результаты с другими генераторами изображений.

Читать дальше →

+46

sanek_sanek Feb 27 at 11:48

Самые быстрые алгоритмы распределенного и асинхронного обучения (с точки зрения теории)

Hard

9 min

4.8K

AIRI corporate blogMachine learning*Artificial IntelligenceAlgorithms*Mathematics*

Review

Всем привет! Меня зовут Александр Тюрин, я руководитель группы «Методы оптимизации в машинном обучении» в AIRI и старший преподаватель Сколтеха. Мы с коллегами занимается оптимизацией распределённого обучения — это довольно актуальная проблема, учитывая, что современные модели обучаются на многих тысячах GPU.

За последние 2 года нам удалось сделать несколько открытий в асинхронных методах оптимизации, которые мы изложили в 5 статьях [1–5] на NeurIPS и ICLR. В этой статье я расскажу, в чём заключаются особенности распределённого обучения и что нового привнесли в него мы с точки зрения теории.

+10

erbanovanastasia Sep 27 2024 at 13:10

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов

Medium

6 min

17K

Selectel corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*IT-companies

Привет, Хабр! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.

Читать дальше →

+38

TheSeCure Feb 20 at 14:51

Большой обзор больших языковых моделей

9 min

13K

Газинформсервис corporate blogArtificial IntelligenceNatural Language Processing*Machine learning*

Review

LLM, или большая языковая модель, это нейронная сеть с крайне большим количеством изменяемых параметров, которая позволяет решать задачи по обработке и генерации текста. Чаще всего реализована в виде диалогового агента, с которым можно общаться в разговорной форме. Но это только определение, причём одно из. В статье — больше о понятиях LLM, из чего она состоит, а также возможность немного попрактиковаться.

+11

vlad_bik Apr 15 2024 at 07:16

Использовать LLM в оффлайне — LocalAI, Ollama, Flowise

Easy

5 min

41K

Abnormal programming*Open source*Visual programming*

Tutorial

Привет, Хабр.

В этой статье о том, как без написания кода поставить себе локально и использовать LLM без подключения к сети. Для меня это удобный способ использования в самолёте или in the middle of nowhere. Заранее выгрузив себе нужные файлы, можно делать анализ бесед саппорта с клиентами, или получить саммарайз отзывов из стора на приложение, или оценить резюме/тестовое задание кандидата...

maxim_tsar Feb 19 at 07:00

Как Томас Эдисон говорящих кукол продавал

5 min

3.9K

Газпромбанк corporate blogPopular science

Так выглядел бизнес-план

Однажды Томас Эдисон изобрел фонограф — устройство, которое могло записывать и воспроизводить звук. Потом с его помощью стали диктовать письма, писать аудиокниги для слепых, делать музыкальные шкатулки и так далее. А ещё — говорящих кукол.

Говорящие куклы стали одной из самых неудачных идей.

В теории всё выглядело отлично: миниатюрный фонограф, записанные женские голоса, стишки и песенки.

В реальности же получились игрушки, которые либо ломались, либо пугали, либо одновременно и ломались, и пугали.

Всех, включая самого Эдисона.

Читать дальше →

+42

ru_vds Feb 17 at 13:01

Могут ли LLM писать более качественный код, если их об этом просто попросить?

Medium

19 min

35K

RUVDS.com corporate blogProgramming*Debugging*Client optimization*Artificial Intelligence

Review

Translation

В ноябре 2023 года, когда OpenAI добавила в ChatGPT возможность генерации изображений DALL-E 3 через веб-интерфейс ChatGPT, на короткое время возник мем: пользователи отправляли LLM базовое изображение и несколько раз просили «сделать его более X», где X могло быть чем угодно.

Примеры

Обычный парень становится всё более «бро».

Санта становится всё более «серьёзным».

Тренд быстро сошёл на нет, потому что все эти изображения были очень похожими и скучными; к тому же они необъяснимым образом все сводились к чему-то космическому, вне зависимости от исходного изображения и промта. Тем не менее, этот тренд достаточно любопытен с научной точки зрения тем, что столь бессмысленный и нечёткий промт каким-то образом влияет на конечное изображение, и что это изменение очевидно для пользователя.

А что будет, если я попробую похожий способ с кодом? Сгенерированный LLM код вряд ли будет мусорным (хоть это и возможно), поскольку он следует строгим правилам, и в отличие, например, от изображений, его качество можно измерить объективнее.

Если код в самом деле можно улучшить, просто при помощи интерактивного промтинга, попросив LLM «написать код получше» (хоть это и очень глупо), то это приведёт к огромному росту продуктивности. А если это так, то что произойдёт, если таких итераций с кодом будет слишком много? Каким станет эквивалент «космического» кода? Есть только один способ это выяснить!

Читать дальше →

+91

heinrich_wirth Feb 20 2024 at 12:01

Классификация облака точек с ограниченными данными: воксели и сиамские сети

Medium

8 min

3.7K

Python*Machine learning*Artificial Intelligence

Case

После первого поста на Хабре моя карьера сделала неожиданный поворот, и я оказался перед непростой задачей классификации, которая потребовала от меня изучения новых для себя архитектур и подходов. В этой статье я поделюсь опытом решения задачи классификации облака точек, имея лишь 10 примеров для каждого класса. Мы поговорим о том, как преобразование данных в воксельное представление и использование сиамских нейронных сетей с 3D свертками помогло достичь отличных результатов.

SergeyNovak Jan 28 at 13:01

Сборка проектов Си и Си++: от простого к сложному. Часть I. Библиотеки

Medium

12 min

25K

RUVDS.com corporate blogProgramming*IT Infrastructure*C++*C*

Tutorial

Каждый раз, в течение многих лет, собирая пилотную версию мизерного проекта или простой утилиты, мне кажется, что уж в этот раз точно обойдусь обычным скриптом для сборки, и никакие сборщики проекта мне не понадобятся. Но суровая реальность приводит меня в чувство уже в течение первых нескольких минут работы. Сначала оказывается, что до невозможности простая программка нуждается в JSON-парсере, HTTP-запросах CURL и прочих библиотеках. А по мере возбуждения хотелок эти все зависимости нарастают как снежный ком. И все мечты быстро скомпилировать страничку кода встречают на каждом шаге всё новые и новые проблемы.

Вот сегодня и расскажу о том, какие бывают способы борьбы с зависимостями и сборки проекта из множества файлов на Си++. Заодно те, кто не любят Си++, смогут порадоваться «прелестям» этого процесса. И хоть тема очень важная для программистов, но я обратил внимание, что даже многолетний опыт не гарантирует понимания этих процессов. Но сразу предупреждаю — история длинная даже с учетом всех попыток не убегать на смежные темы.

Читать дальше →

+71

meowk1r1_wikilinux Feb 7 at 07:15

Как через orange pi YouTube смотреть или как сделать vpn box и покрыть весь дом vpn(прокси VLESS) на уровне сети

Medium

6 min

41K

Open source*

From sandbox

Наши реалии довольно суровы, сейчас даже стало сложно не то что зайти на какой нибудь chatGPT, но и посмотреть любимый ютюбчик. Если на пк и телефонах мы еще можем использовать VPN, то вот как обстоят дела с приставками, smartTV/android TV? Если на многих телеках иногда поддержка приложений заканчивается быстро, что уж тут говорить о ВПН или прокси, туда их вообще фиг пихнешь.

Дома у каждого из вас скорее всего есть проводной интернет, а значит роутер тоже есть. Для роутеров ведь тоже существует линукс, причем свободный и гибкий - это OpenWRT. В рамках данного гайда/проекта, я расскажу, как можно обеспечить в своем доме качественное интернет покрытие, используя ARM железяки и linux. Но нет, речь пойдет не о перепрошивке роутера, ибо это дело может во первых окирпичить ваш роутер, ну а во вторых - у многих из вас дома роутеры "бытового класса", как и у меня, которые просто нет смысла даже шить. ибо 64 мегабайта дискового пространства хватить конечно можно, но это будет впритык, а нам хотелось бы управлять всей системой через WEB-UI.

P.S. Конечно есть Keenetic и его фишки, но я таким добром не обладаю и рассказать на примере кинетик роутеров это не могу.

Данный гайд подойдет только на OrangePI zero или OrangePI zero 3, на версию 2 я не нашел прошивки, если у вас получится ее найти - все шаги будут аналогичны. Но так же использовать мощную плату под это дело будет скорее менее рационально, если вы конечно не собираетесь крутить на ней дополнительно докер, или же какой то веб хост. На 3й версии прошивка существует как снапшот(в активной разработке), поэтому проще прилечь к стабильной стороне ядра и выбрать чисто зеро-версию.

+20

SmartEngines Feb 3 at 15:05

BM YOLO: что, если вам не нужно умножать, чтобы распознавать?

Medium

4 min

Smart Engines corporate blogArtificial IntelligenceMachine learning*Mathematics*

Современные технологии глубокого обучения проникают в самые разные области нашей жизни — от автономных автомобилей до систем видеонаблюдения. Однако высокая вычислительная сложность традиционных нейронных сетей остается серьёзным препятствием на пути к их широкому применению на мобильных устройствах и встраиваемых системах.

Группа исследователей из Smart Engines представила на международной конференции ICMV 2023 инновационное решение — биполярную морфологическую нейронную сеть YOLO (Bipolar Morphological YOLO, BM YOLO), которая сочетает в себе энергоэффективные вычислительные подходы и проверенную временем архитектуру YOLO для детектирования объектов.

+13

1 2

4 5 ...

23 24