Статьи / Закладки / Профиль Sdima1357 / Хабр

Как стать автором

Дмитрий Самсонов @Sdima1357

image processing

ПрофильСтатьи9ПостыНовостиКомментарии2K

antonkryloff 7 мая в 10:16

Дообучение моделей на своих данных — просто и эффективно

4 мин

3.1K

Искусственный интеллектМашинное обучение*Data Engineering*Big Data*Программирование*

Обзор

В мире ИИ сложился миф, что для эффективной работы с языковыми моделями нужны огромные вычислительные мощности и команда дорогих специалистов. Но правда в том, что сегодня даже небольшая компания или отдельный разработчик могут создавать умные решения, адаптированные под свои нужды.

Читать далее

+4

vladipirogov 3 мая в 23:04

Обработка аудио на ESP32

Средний

15 мин

10K

Программирование микроконтроллеров*C*DIY или Сделай самМашинное обучение*

Туториал

В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.
При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.

Читать далее

+32

vsradkevich 2 мая в 12:23

Геометрия ландшафта потерь и «понимание» нейросети

Сложный

17 мин

884

Машинное обучение*Искусственный интеллектМатематика*Исследования и прогнозы в IT*

Аналитика

Когда нейросеть обучается, ее функция потерь образует сложный ландшафт в пространстве параметров – с вершинами (области высокой ошибки) и долинами (области низкой ошибки). Свойства этого ландшафта – его кривизна, форма минимальных долин, спектр матрицы Гессе и пр. – могут многое рассказать о том, насколько модель усвоила закономерности данных. Идея состоит в том, что не все минимумы одинаковы: одни могут быть «плоскими» (широкими и неглубокими), другие «острыми» (узкими и крутыми). Считается, что геометрия такого минимума связана с тем, как хорошо модель обобщает знания за пределы обучающих примеров и насколько «осмысленно» (семантически обоснованно) она их усвоила. В данном обзоре мы рассмотрим, как характеристики ландшафта потерь служат индикаторами обобщающей способности, интерпретируемости, адаптивности модели и ее чувствительности к семантике данных, а также какие количественные метрики предложены для измерения этих свойств.

Читать далее

+7

OyminiRole1776 29 апр в 20:39

15 команд Git, которые покрывают 90% повседневной работы разработчика

Средний

9 мин

55K

Git*GitHub*IT-стандарты*Habr

Обзор

Git стал стандартом де-факто в мире разработки программного обеспечения. Это мощная система контроля версий, которая позволяет командам эффективно сотрудничать, отслеживать изменения и управлять кодовой базой. Новичку Git может показаться сложным из-за обилия команд и концепций. Однако правда в том, что для выполнения 90% повседневных задач достаточно уверенно владеть небольшим набором ключевых команд.

Читать далее

+96

Mik42 15 апр в 13:09

Три икса: новый уровень работы с большими свертками в PyTorch для обучения моделей

Средний

13 мин

2.2K

Блог компании YADROМашинное обучение*C++*

Привет, Хабр! Продолжим разговор про свертки в ML-обучении на C++. Мы уже обсудили, какие есть подходы к реализации сверток, — ссылку на первую часть ищите в конце статьи.

Теперь поговорим, как в одном моем проекте нужно было расширить функциональность PyTorch для работы со свертками размерностью больше трех, а потом использовать их в обучении моделей. Сначала рассмотрим, какие ограничения на выбор алгоритма накладывает возможность обучения моделей, а затем изучим два подхода к реализации свертки и адаптируем их к нашей задаче.

Читать далее

+21

noobaitranslator 13 апр в 21:02

Google инструкция по промпт инжинирингу или как правильно писать запросы (краткий перевод)

Простой

8 мин

30K

Natural Language Processing*

Из песочницы

Перевод

Гугл выпустили простую и понятную инструкцию, как настраивать модель, как создавать промпты, что влияет на результат, и небольшие лайфхаки. Оригинал.

Дальше будет небольшая выжимка и перевод с помощью ChatGPT.

Промпт-инжиниринг — это навык создания эффективных входных данных (запросов), чтобы направлять эти мощные модели ИИ к генерации конкретных, точных и полезных результатов, которые вам нужны.

Что такое Промпт-инжиниринг?

Большая Языковая Модель(БЯМ) работает, предсказывая наиболее вероятную последовательность слов (или «токенов»), следующую за вашим вводом. Когда вы пишете запрос, вы, по сути, задаете начальную точку и направление для этого процесса предсказания. Промпт-инжиниринг включает в себя:

Читать далее

+24

Alexander_Chesalov 11 апр в 06:17

Stable Diffusion WebUI Forge: Шаг 2. Установка модели FLUX.1

Простой

5 мин

2.6K

Искусственный интеллектБудущее здесьГрафические оболочки*Дизайн игр*Дизайн

Туториал

После установки системы Stable Diffusion WebUI Forge, которая обеспечит нам удобный интерфейс и работу с большим числом различных функций и параметров, нам теперь необходимо скачать файл нужной нам версии модели FLUX.1, которая бы быстро и качественно работала на нашем компьютере.

Напомню вам, что есть три основные версии модели, созданные разработчиками Black Forest Lab:

Читать далее

+1

Aleron75 10 апр в 00:20

SmolAgents: или как заставить LLM работать на тебя за 30 минут

4 мин

9.3K

Блог компании Data Feeling SchoolИскусственный интеллектМашинное обучение*

Представьте, что вы — настоящий папа Карло, который хочет оживить своего робота, но не простого, а на основе больших языковых моделей (LLM). Ваш робот будет не только разговаривать, но и использовать специальные инструменты, которые помогут ему взаимодействовать с сайтами, кодом и даже выполнять ваши повседневные задачи.

Простыми словами, агент — это комбинация модели искусственного интеллекта (LLM) и инструментов, которые вы ему предоставляете для выполнения конкретных задач.

Привет, чемпионы! В этой статье расскажу, как создать своего собственного AI-агента, который сможет помогать вам в различных задачах, и покажу это на конкретных примерах.

Читать далее

+18

Astranome 9 апр в 17:24

Пополнение среди ультрабюджетных девбордов: FPGA — «отладка» за 201 р

Средний

4 мин

12K

FPGA*Производство и разработка электроники*Компьютерное железоDIY или Сделай сам

Туториал

Пополнение среди ультрабюджетных девбордов: FPGA - "отладка" за 201 р.

Самая дешёвая "оценочная плата" с ПЛИС Xilinx Spartan-6 на AliExpress обойдётся в ровно 3000р. На Авито и майнерских "Купи-Продайках" - в 10 раз дешевле. С более "жирным камнем". Никакого подвоха, всё честно.

Читать далее

+70

alizar 7 апр в 12:01

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Средний

9 мин

6.8K

Блог компании RUVDS.comБиографии гиковИскусственный интеллектИстория ITМашинное обучение*

Обзор

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»).

Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

Читать дальше →

+46

dmitrifriend 29 мар в 08:00

Топ-9 бесплатных китайских нейросетей в 2025 году

Средний

12 мин

16K

Блог компании BotHubИскусственный интеллектМашинное обучение*IT-компанииБудущее здесь

Обзор

Tencent, Alibaba, DeepSeek AI, Kuaishou — эти компании выпускают модели одну за другой, заставляя западных конкурентов почесать головы. Китайские ИИ‑продукты сегодня покрывают всё: от создания объёмных научных статей до генерации мемных видеороликов, которые легко взорвут соцсети. Эти технологии уже привлекли внимание профессионалов, но их потенциал доступен и обычным пользователям.

Куда бежать, если вам срочно нужно оживить персонажа, создать фотосессию из одного‑единственного портрета или сделать прикольную гифку для поздравления? Hunyuan‑T1 с гибридным трансформером, Qwen-2.5 с миллионным контекстным окном, Talkie, который обошёл по популярности Character.ai, и Kling, монтирующий видео из нескольких картинок, — обо всём этом в статье!

Читать далее

+16

sad__sabrina 2 апр в 21:59

AutoEncoders and hidden states Analysis

Средний

10 мин

688

Машинное обучение*Data Mining*

Туториал

Привет, друзья!

Я продолжаю цикл статей по туториалам, посвященным области explainable AI. Так, уже были разобраны метод Logit Lens на примере ViT, зондирование gpt2, CAM на примере Yolo NAS — всё можно найти по статьям в профиле. В этом же туториале мы разберем идею применения автокодировщиков для анализа и извлечения признаков из скрытых состояний модели.

Читать далее

+2

gmtd 1 апр в 06:06

Распознавание рукописного текста некоторыми бесплатными LLM

Простой

3 мин

3.2K

Искусственный интеллектОбработка изображений*Мессенджеры*

Пришло время добавить в телеграм-бота для распознавания текста на фото Argus распознавание рукописного текста. Бот бесплатный, значит и LLM должна быть бесплатной. Из требований доступности были выбраны представленные на OpenRouter модели, всего image -> text нашлось 18 штук.

Ниже эксперименты со всеми.

Читать далее

+1

tripolskypetr 21 мар в 19:56

Cohere Command — революция, которую мы пропустили

Простой

3 мин

14K

TypeScript*JavaScript*Python*Искусственный интеллектМашинное обучение*

Туториал

🔪 Карусель триальных токенов под ребро облачному LLM провайдеру

Облачный LLM провайдер Cohere предоставляет бесплатно 20 запросов в минуту без проверки кредитной карты. Я просто не смог отказаться от задумки сделать веселую карусель.

Читать далее

+14

anikengur 19 мар в 03:54

Пишем свой Transformer

12 мин

7K

Машинное обучение*Математика*Искусственный интеллект

Захотелось более детально разобраться и попробовать самостоятельно написать Transformer на PyTorch, а результатом поделиться здесь. Надеюсь, так же как и мне, это поможет ответить на какие-то вопросы в данной архитектуре.

Читать далее

+20

Kual 15 мар в 10:00

Практическое руководство по выбору между ChatGPT, Claude, Gemini, Grok и Perplexity

Простой

6 мин

57K

Будущее здесьИскусственный интеллектКонтент и копирайтинг*Управление продуктом*Исследования и прогнозы в IT*

Обзор

Перевод

Какой модели доверить свои задачи в 2025 году? От редактирования текста и кодинга до анализа видео с контекстным окном в 2+ миллиона слов — узнайте, какая модель решит именно ваши задачи и стоит ли платить за две подписки одновременно.

Читать далее

+15

sea256 14 мар в 16:49

Развертывание виртуальной машины Windows 10 на Ubuntu с доступом через noVNC

Простой

5 мин

5.6K

GitHub*Виртуализация*

Туториал

В данной статье описывается пошаговая методика развертывания виртуальной машины (ВМ) с установленной операционной системой Windows 10 на сервере с операционной системой Ubuntu. Решение предполагает установку всех необходимых компонентов, настройку виртуализации с помощью QEMU/KVM, а также организацию удалённого доступа к ВМ посредством noVNC.

Подробнее

+12

Nina-Konovalova 7 мар в 10:35

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Сложный

4 мин

823

Блог компании AIRIРабота с 3D-графикой*Алгоритмы*Искусственный интеллектМашинное обучение*

Кейс

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам.

Не так давно мы получили приятную новость: нашу статью по семантическое выравнивание при генерации 3D‑моделей приняли на ICLR. В ней мы нашли способ, как построить выровненную генерацию 3D‑объектов, используя гайданс предобученной диффузионной модели, чтобы сделать редактирование или гибридизацию более надёжными. В этой статье хотелось бы кратко пересказать суть нашей работы.

Читать далее

+6

SergeyNovak 5 мар в 12:01

Подключаем AI к LibreOffice: плагин localwriter

Простой

7 мин

7.4K

Блог компании RUVDS.comКонтент и копирайтинг*Искусственный интеллектOpen source*Машинное обучение*

Туториал

Прошло всего несколько лет с момента взрыва популярности нейросетей, и уже практически невозможно найти профессию, связанную с работой за компьютером, которая не использовала бы AI для ускорения работы или улучшения её качества. Эта революция повлияла на всех, включая самых маленьких детей. Но, наигравшись с надиктовыванием указаний телефону и написанием запросов в браузере, хочется большего. И мы начинаем искать способы внедрить AI в программы, в которых работаем ежедневно. Программисты дают указания для написания кода через GitHub Copilot прямо из родной среды программирования. Появились плагины для MS Office, которые позволяют подключить AI. Но есть некоторые нюансы. Основная проблема этих плагинов не в том, что они стоят денег, а в том, что они отправляют почти все данные, с которыми вы работаете, на серверы провайдеров AI-услуг. По условиям использования провайдеры AI-сервисов открыто заявляют «Не отправляйте нам приватные данные, мы будем делать с ними, что захотим, включая передачу третьим лицам». И это полностью закрывает путь к использованию подобных сервисов там, где данные хоть сколько-нибудь чувствительны к утечке.

Как запустить локально AI-модель и установить плагин в LibreOffice для работы с нейросетью

+51

NastasiaY 27 фев в 11:59

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

Средний

13 мин

1.9K

Блог компании СберИскусственный интеллектМашинное обучение*Обработка изображений*

Обзор

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком

В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём составляющие модели и её архитектуру, а также углубимся в процесс обучения.

Читать далее

+20

1

2 3 ...