Как стать автором
Обновить
76
0
Дмитрий Самсонов @Sdima1357

image processing

Отправить сообщение

Дообучение моделей на своих данных — просто и эффективно

Время на прочтение4 мин
Количество просмотров3.1K

В мире ИИ сложился миф, что для эффективной работы с языковыми моделями нужны огромные вычислительные мощности и команда дорогих специалистов. Но правда в том, что сегодня даже небольшая компания или отдельный разработчик могут создавать умные решения, адаптированные под свои нужды.

Читать далее

Обработка аудио на ESP32

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров10K

В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.
При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.

Читать далее

Геометрия ландшафта потерь и «понимание» нейросети

Уровень сложностиСложный
Время на прочтение17 мин
Количество просмотров884

Когда нейросеть обучается, ее функция потерь образует сложный ландшафт в пространстве параметров – с вершинами (области высокой ошибки) и долинами (области низкой ошибки). Свойства этого ландшафта – его кривизна, форма минимальных долин, спектр матрицы Гессе и пр. – могут многое рассказать о том, насколько модель усвоила закономерности данных. Идея состоит в том, что не все минимумы одинаковы: одни могут быть «плоскими» (широкими и неглубокими), другие «острыми» (узкими и крутыми). Считается, что геометрия такого минимума связана с тем, как хорошо модель обобщает знания за пределы обучающих примеров и насколько «осмысленно» (семантически обоснованно) она их усвоила. В данном обзоре мы рассмотрим, как характеристики ландшафта потерь служат индикаторами обобщающей способности, интерпретируемости, адаптивности модели и ее чувствительности к семантике данных, а также какие количественные метрики предложены для измерения этих свойств.

Читать далее

15 команд Git, которые покрывают 90% повседневной работы разработчика

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров55K

Git стал стандартом де-факто в мире разработки программного обеспечения. Это мощная система контроля версий, которая позволяет командам эффективно сотрудничать, отслеживать изменения и управлять кодовой базой. Новичку Git может показаться сложным из-за обилия команд и концепций. Однако правда в том, что для выполнения 90% повседневных задач достаточно уверенно владеть небольшим набором ключевых команд.

Читать далее

Три икса: новый уровень работы с большими свертками в PyTorch для обучения моделей

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.2K

Привет, Хабр! Продолжим разговор про свертки в ML-обучении на C++. Мы уже обсудили, какие есть подходы к реализации сверток, — ссылку на первую часть ищите в конце статьи. 

Теперь поговорим, как в одном моем проекте нужно было расширить функциональность PyTorch для работы со свертками размерностью больше трех, а потом использовать их в обучении моделей. Сначала рассмотрим, какие ограничения на выбор алгоритма накладывает возможность обучения моделей, а затем изучим два подхода к реализации свертки и адаптируем их к нашей задаче. 

Читать далее

Google инструкция по промпт инжинирингу или как правильно писать запросы (краткий перевод)

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров30K

Гугл выпустили простую и понятную инструкцию, как настраивать модель, как создавать промпты, что влияет на результат, и небольшие лайфхаки. Оригинал.

Дальше будет небольшая выжимка и перевод с помощью ChatGPT.

Промпт-инжиниринг — это навык создания эффективных входных данных (запросов), чтобы направлять эти мощные модели ИИ к генерации конкретных, точных и полезных результатов, которые вам нужны.

Что такое Промпт-инжиниринг?

Большая Языковая Модель(БЯМ) работает, предсказывая наиболее вероятную последовательность слов (или «токенов»), следующую за вашим вводом. Когда вы пишете запрос, вы, по сути, задаете начальную точку и направление для этого процесса предсказания. Промпт-инжиниринг включает в себя:

Читать далее

Stable Diffusion WebUI Forge: Шаг 2. Установка модели FLUX.1

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.6K

После установки системы Stable Diffusion WebUI Forge, которая обеспечит нам удобный интерфейс и работу с большим числом различных функций и параметров, нам теперь необходимо скачать файл нужной нам версии модели FLUX.1, которая бы быстро и качественно работала на нашем компьютере.

Напомню вам, что есть три основные версии модели, созданные разработчиками Black Forest Lab:

Читать далее

SmolAgents: или как заставить LLM работать на тебя за 30 минут

Время на прочтение4 мин
Количество просмотров9.3K

Представьте, что вы — настоящий папа Карло, который хочет оживить своего робота, но не простого, а на основе больших языковых моделей (LLM). Ваш робот будет не только разговаривать, но и использовать специальные инструменты, которые помогут ему взаимодействовать с сайтами, кодом и даже выполнять ваши повседневные задачи.

Простыми словами, агент — это комбинация модели искусственного интеллекта (LLM) и инструментов, которые вы ему предоставляете для выполнения конкретных задач.

Привет, чемпионы! В этой статье расскажу, как создать своего собственного AI-агента, который сможет помогать вам в различных задачах, и покажу это на конкретных примерах.

Читать далее

Пополнение среди ультрабюджетных девбордов: FPGA — «отладка» за 201 р

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров12K

Пополнение среди ультрабюджетных девбордов: FPGA - "отладка" за 201 р.

Самая дешёвая "оценочная плата" с ПЛИС Xilinx Spartan-6 на AliExpress обойдётся в ровно 3000р. На Авито и майнерских "Купи-Продайках" - в 10 раз дешевле. С более "жирным камнем". Никакого подвоха, всё честно.

Читать далее

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.8K

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»).

Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.
Читать дальше →

Топ-9 бесплатных китайских нейросетей в 2025 году

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров16K

Tencent, Alibaba, DeepSeek AI, Kuaishou — эти компании выпускают модели одну за другой, заставляя западных конкурентов почесать головы. Китайские ИИ‑продукты сегодня покрывают всё: от создания объёмных научных статей до генерации мемных видеороликов, которые легко взорвут соцсети. Эти технологии уже привлекли внимание профессионалов, но их потенциал доступен и обычным пользователям.

Куда бежать, если вам срочно нужно оживить персонажа, создать фотосессию из одного‑единственного портрета или сделать прикольную гифку для поздравления? Hunyuan‑T1 с гибридным трансформером, Qwen-2.5 с миллионным контекстным окном, Talkie, который обошёл по популярности Character.ai, и Kling, монтирующий видео из нескольких картинок, — обо всём этом в статье!

Читать далее

AutoEncoders and hidden states Analysis

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров688

Привет, друзья!

Я продолжаю цикл статей по туториалам, посвященным области explainable AI. Так, уже были разобраны метод Logit Lens на примере ViT, зондирование gpt2, CAM на примере Yolo NAS — всё можно найти по статьям в профиле. В этом же туториале мы разберем идею применения автокодировщиков для анализа и извлечения признаков из скрытых состояний модели.

Читать далее

Распознавание рукописного текста некоторыми бесплатными LLM

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.2K

Пришло время добавить в телеграм-бота для распознавания текста на фото Argus распознавание рукописного текста. Бот бесплатный, значит и LLM должна быть бесплатной. Из требований доступности были выбраны представленные на OpenRouter модели, всего image -> text нашлось 18 штук.

Ниже эксперименты со всеми.

Читать далее

Cohere Command — революция, которую мы пропустили

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров14K

🔪 Карусель триальных токенов под ребро облачному LLM провайдеру

Облачный LLM провайдер Cohere предоставляет бесплатно 20 запросов в минуту без проверки кредитной карты. Я просто не смог отказаться от задумки сделать веселую карусель.

Читать далее

Пишем свой Transformer

Время на прочтение12 мин
Количество просмотров7K

Захотелось более детально разобраться и попробовать самостоятельно написать Transformer на PyTorch, а результатом поделиться здесь. Надеюсь, так же как и мне, это поможет ответить на какие-то вопросы в данной архитектуре.

Читать далее

Практическое руководство по выбору между ChatGPT, Claude, Gemini, Grok и Perplexity

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров57K

Какой модели доверить свои задачи в 2025 году? От редактирования текста и кодинга до анализа видео с контекстным окном в 2+ миллиона слов — узнайте, какая модель решит именно ваши задачи и стоит ли платить за две подписки одновременно.

Читать далее

Развертывание виртуальной машины Windows 10 на Ubuntu с доступом через noVNC

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.6K

В данной статье описывается пошаговая методика развертывания виртуальной машины (ВМ) с установленной операционной системой Windows 10 на сервере с операционной системой Ubuntu. Решение предполагает установку всех необходимых компонентов, настройку виртуализации с помощью QEMU/KVM, а также организацию удалённого доступа к ВМ посредством noVNC.

Подробнее

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров823

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам.

Не так давно мы получили приятную новость: нашу статью по семантическое выравнивание при генерации 3D‑моделей приняли на ICLR. В ней мы нашли способ, как построить выровненную генерацию 3D‑объектов, используя гайданс предобученной диффузионной модели, чтобы сделать редактирование или гибридизацию более надёжными. В этой статье хотелось бы кратко пересказать суть нашей работы.

Читать далее

Подключаем AI к LibreOffice: плагин localwriter

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.4K

Прошло всего несколько лет с момента взрыва популярности нейросетей, и уже практически невозможно найти профессию, связанную с работой за компьютером, которая не использовала бы AI для ускорения работы или улучшения её качества. Эта революция повлияла на всех, включая самых маленьких детей. Но, наигравшись с надиктовыванием указаний телефону и написанием запросов в браузере, хочется большего. И мы начинаем искать способы внедрить AI в программы, в которых работаем ежедневно. Программисты дают указания для написания кода через GitHub Copilot прямо из родной среды программирования. Появились плагины для MS Office, которые позволяют подключить AI. Но есть некоторые нюансы. Основная проблема этих плагинов не в том, что они стоят денег, а в том, что они отправляют почти все данные, с которыми вы работаете, на серверы провайдеров AI-услуг. По условиям использования провайдеры AI-сервисов открыто заявляют «Не отправляйте нам приватные данные, мы будем делать с ними, что захотим, включая передачу третьим лицам». И это полностью закрывает путь к использованию подобных сервисов там, где данные хоть сколько-нибудь чувствительны к утечке.
Как запустить локально AI-модель и установить плагин в LibreOffice для работы с нейросетью

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.9K

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком

В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём  составляющие модели и её архитектуру, а также углубимся в процесс обучения.

Читать далее
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Хацафон, Израиль
Дата рождения
Зарегистрирован
Активность