Articles / Bookmarks / Profile of imageman / Habr

How to become an author

Vladimir @imageman

User

ProfileArticlesPostsNewsComments272

Stepan_Burmistrov Jun 19 2024 at 10:23

Работа с YOLOV8. Детекция, сегментация, трекинг объектов, а также подготовка собственного датасета и обучение

Medium

26 min

41K

Python*Programming*Artificial Intelligence

Tutorial

Если вам кажется, что начать работу с нейросетями - это сложно, то этот материал для вас!

В статье подробно, с примерами кода, разберем основные функции базовой модели YOLOV8 - детекция, сегментация, трекинг объектов, а также создание собственного датасета и дообучение нейросети для работы с собственными объектами!

Читать далее

+19

NeyroEntuziast Jan 24 at 09:54

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

Medium

6 min

274K

Artificial IntelligenceThe future is here

Tutorial

Translation

Многие говорят о DeepSeek R-1 - новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI.

В настоящее время DeepSeek можно использовать бесплатно, что является отличной новостью для пользователей, но вызывает некоторые вопросы. Как при таком резком росте числа пользователей они справляются с затратами на сервера?

Ведь эксплуатационные расходы на оборудование не могут быть дешевыми, верно?

Единственный логичный ответ здесь - данные. Данные - это жизненная сила ИИ-моделей. Вероятно, они собирают данные о пользователях, чтобы использовать их в своей модели квантовой торговли или для другой формы монетизации.

Поэтому, если вы беспокоитесь о конфиденциальности данных, но при этом хотите использовать R1, не предоставляя свои данные, лучший способ - запустить модель локально.

Читать далее

+139

mayo889 Dec 27 2024 at 09:16

Temporal Fusion Transformer: улучшение прогнозирования в ритейле с минимальными затратами

24 min

5.4K

X5 Tech corporate blogMachine learning*Python*Big Data*IT-companies

Tutorial

Всем привет! Меня зовут Дмитрий Поляков, я работаю аналитиком данных в команде ad-hoc аналитики X5 Tech. В этой статье мы хотели бы рассмотреть задачу прогнозирования, которая является чрезвычайно важной задачей в ритейле.

Мы детально рассмотрим основные преимущества и архитектурные особенности модели Temporal Fusion Transformer (TFT), наш подход к использованию этой модели в задаче прогнозирования спроса, и как нам удалось увеличить точность прогнозов в среднем на 7%, затратив при этом минимальные усилия.

Также эта статья будет полезна и тем, кто хочет глубже понять принципы работы TFT, изучить её применение в библиотеке Darts и решить задачу прогнозирования для множества многомерных временных рядов.

Читать далее

+6

Ioanna Jan 3 at 12:28

Ключевание стоковых изображений с помощью Batch API от OpenAI

Medium

12 min

2.2K

Artificial IntelligencePython*

Tutorial

Атрибутирование изображений – обязательный этап их подготовки для продажи на фотостоках. У каждой работы (фотографии или иллюстрации) должно быть название, описание, ключевые слова, и все это на английском.

С ключеванием неплохо справляется ChatGPT. Но пересылать ему картинки по отдельности, а потом копировать атрибуты вручную – слишком долго. Давайте автоматизируем этот процесс.

Читать далее

+6

AlexeyLugovoy Jul 2 2024 at 14:14

У вас новый ремонт? Лучше! Рисунок нового ремонта. Как мы из Stable Diffusion сделали дизайнера интерьеров

Medium

19 min

15K

Самолет corporate blogMachine learning*Graphic design*Artificial Intelligence

Case

Сейчас технологии машинного обучения и нейронных сетей находят широкое применение в различных сферах, не исключая дизайн и ремонт помещений. Одной из таких технологий является методы генеративных нейросетей, которые позволяют преобразовывать изображения, сохраняя основные элементы оригинала, но добавляя новые детали и стилистические изменения. Меня зовут Алексей Луговой, я работаю с Computer Vision в Самолете и уже обзорно рассказывал на Хабре, как мы применяем искусственный интеллект в строительстве. Сегодня же углубимся в задачу по созданию генеративной сети для создания проекта ремонта. Рассмотрю процесс использования диффузионных моделей с различными дополнениями на примере не самой обычной задачи — преобразования интерьера комнаты, начав с оригинального изображения голых стен и завершая итоговой генерацией в фирменном дизайнерском стиле.

Читать далее

+30

limpwinter May 24 2024 at 08:16

Опыт дистилляции моделей распознавания речи

Medium

6 min

1.6K

Machine learning*Sound

Небольшая история про наш опыт дистилляции моделей для распознавания речи. Как у нас получилось уменьшить модель в 160 раз и не проиграть по качеству.

Читать далее

+9

Simple_Sardelya Jul 8 2024 at 14:15

Видеоаналитика: Разбор VideoMAE, ViViT и TimeSFormer

Medium

10 min

1.9K

Machine learning*Artificial Intelligence

Review

Каждый инженер, работающий в области компьютерного зрения, сталкивается с задачами детекции, сегментации и "сто бед - YOLO ответ". Однако приходит момент, когда на горизонте появляется новая сложная задача - анализ и классификация видео. Одни предпочитают обходить её стороной, другие пытаются решать её с помощью традиционных методов, но мы пойдем чуть дальше и научимся решать с помощью трансформеров. В целях ознакомления рассмоотрим наиболее популярные и эффективные подходы.

Читать далее

+1

DAN_SEA May 16 2024 at 13:00

Неожиданные применения 3D-печати

Medium

11 min

21K

RUVDS.com corporate blog3D printersDIYBusiness Models*Start-up development

Review

Картинка Freepik

В последнее время всё больше и больше распространяются фотополимерные принтеры, делая реальным то, что вчера ещё было в области фантастики.

В связи с этим посмотрим, какие интересные возможности такой принтер может дать, и изучим несколько необычных (нет, фигурок под раскраску не будет:-) ).

Читать дальше →

+54

evg_dc May 12 2024 at 09:35

Llama 3.1-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

Easy

2 min

44K

Tutorial

Да, всего 20 строк кода и бот:

1) по качеству ответов будет соизмерим с ChatGPT-4o;
2) будет отвечать очень быстро т.к. подключим мы его через Groq который в среднем в 10 раз быстрее других аналогичных сервисов;
3) будет поддерживать диалог и запоминать последние сообщения.

Читать далее

+39

aufklarer May 11 2024 at 08:39

Архитектура Stable Diffusion: Face ID, Lighting

Medium

7 min

5.6K

Image processing*Artificial Intelligence

Review

Это перевод моей статьи на medium.com.

Год назад я провёл краткий обзор по теме переноса стиля. Пару месяцев назад я решил вернуться к этому вопросу и исследовать прогресс за последний год. За это время случилось много значимых изменений: архитектура open-source модели Stable Diffusion стала, лидирующей среди моделей для задач генерации изображений. Особенно её модификация SDXL [1]. Hugging Face превратился в лидирующую платформу для запуска модели Stable Diffusion с помощью библиотеки diffusers [2].

Читать далее

+21

slivka_83 Oct 12 2023 at 08:22

Введение в библиотеку Diffusers и диффузионные модели

Easy

16 min

15K

Python*Data Mining*Big Data*Machine learning*Artificial Intelligence

Tutorial

✏️ Technotext 2023

Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.

Всегда хотели стать художником, но у вас лапки? :) Тогда Diffusers этот то, что вам нужно!

В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

+11

allseeteam Feb 26 2024 at 10:30

СoverLetterEnchancer: упрощаем поиск работы с FastAPI и YandexGPT

Easy

15 min

4.4K

Python*Yandex API*Artificial IntelligenceLifehacks for geeks

Case

Салют! Меня зовут Григорий, я главный по спецпроектам в AllSee. Если вы когда‑нибудь серьёзно подходили к вопросу поиска работы, то вам определённо приходилось муторно писать сопроводительные письма под каждую вакансию. В данной статье я расскажу, как автоматизировать составление максимально релевантного для вакансии сопроводительного письма с учётом вашего резюме.

Читать далее

0

ferluht Dec 10 2023 at 10:48

Как обучить нейросеть рисовать в стиле любого художника

Medium

4 min

23K

Image processing*Artificial IntelligenceThe future is here

Tutorial

Прошло 3 года с момента когда я обучал StyleGAN на панельках и мне стало интересно что там сейчас с генерацией картинок. А там - ого - можно дообучить целый stable diffusion на любом стиле любого художника! Как? А вот щас расскажу

Читать далее

+27

NewTechAudit Dec 27 2023 at 07:16

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

Medium

9 min

3K

Сбер corporate blogInformation Security*Machine learning*

Case

✏️ Technotext 2023

Привет, Хабр! На связи участница профессионального сообщества NTA Корсакова Елена.

Поиск аномалий в корпусе текстов является нетривиальной задачей, особенно если размечен набор данных только с аномальными текстами. При этом различия могут не бросаются в глаза — все тексты написаны на одном языке, да и стиль текстов схож: например, заявки, ошибочно попавшие не в ту очередь, нетипичные события в логах или письма от мошенников. В посте расскажу о решении данной задачи — одноклассовой классификация текстов, с помощью расхождения Кульбака—Лейблера.

Читать далее

+25

simonzolin May 23 2022 at 13:52

Работаем с Аудио через Командную Строку на Linux и Windows

12 min

17K

Tutorial

Если ты тоже, как и я, любишь возиться с аудио файликами, слушать, записывать, конвертировать и т.д., то эта статья для тебя. Здесь я расскажу, как можно легко выполнять различные действия с аудио из командной строки, причём делать это одинаково удобно и эффективно и на Линуксах, и на Винде. Для этого мы будем использовать программу fmedia. Она кросс-платформенная и портативная, быстрая и не требует ничего лишнего - в общем, в самый раз для тех людей, кто одержим идеей разумной минималистичности и экономии ресурсов.

В чём в принципе бонус интерфейса командной строки перед графическим?

* Во-первых, все процессы легко автоматизируются. Мы можем создать скриптик, который одним махом сконвертирует все аудио файлы в директории, или выведет список всех мета тэгов, или выполнит любую другую задачу с большим количеством файлов.

* Во-вторых, любую команду можно исполнять на удалённой машине, подключённой по SSH, например.

* К тому же, такие программы, как правило, гораздо менее требовательны к ресурсам компьютера, а это очень важно когда у нас есть только лишь старенький ноутбук. Или когда мы слушаем музыку на ноуте, работающем на батарее, и требуется продлить его время работы. Например, я на своём ноуте с Федорой могу хоть целый день слушать музыку на батарее через fmedia - реально надолго хватает заряда, главное - погасить экран.

* Нет никаких ограничений на максимальное количество файлов в активном плейлисте. Можно играть плэйлист с тысячей трэков, можно с миллионом - на скорость работы это никак не влияет.

Читать далее

+5

ru_vds Sep 6 2023 at 13:00

S3-FIFO: новый эффективный алгоритм вытеснения из кэша на основе очередей FIFO

Medium

18 min

9.3K

RUVDS.com corporate blogAlgorithms*Server optimization*Data storage*

Analytics

Translation

В этой статье я расскажу о простом и масштабируемом (Simple, Scalable) алгоритме вытеснения данных из кэша на основе трёх статических (Static) очередей FIFO (S3-FIFO). После проверки на 6594 трассировках кэшей 14 компаний мы показали, что S3-FIFO имеет меньшую частоту промахов, чем 12 лучших алгоритмов, разработанных в прошлые десятилетия. Более того, эффективность S3-FIFO устойчива — он имеет наименьший средний показатель промахов для 10 из 14 датасетов. Использование очередей FIFO позволяет S3-FIFO достичь хорошей масштабируемости с пропускной способностью в шесть раз больше по сравнению с оптимизированным LRU в cachelib на 16 потоках.

Мы пришли к выводу, что доступ к большинству объектов в смещённых нагрузках кэша выполняется только за короткий промежуток времени, поэтому критически важно быстро вытеснять их из кэша. А главная особенность S3-FIFO — это небольшая очередь FIFO, отфильтровывающая большинство объектов, не давая им попасть в основной кэш.

Иллюстрация работы S3-FIFO (с использованием порогового значения перехода из маленького в основной кэш, равного 1)

Читать дальше →

+69

Takagi Sep 7 2023 at 09:11

Как (быстро) сделать русский локальный ChatGPT

Medium

7 min

48K

Programming*Machine learning*Artificial IntelligenceNatural Language Processing*

Retrospective

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

Читать далее

+88

TSSV Nov 6 2019 at 09:09

Алгоритм нечеткого поиска TextRadar. Основные подходы (ч. 1)

5 min

9K

В отличие от нечеткого сравнения строк, когда обе сравниваемые строки равнозначны, в задаче нечеткого поиска выделяются строка поиска и строка данных, а определить необходимо не степень похожести двух строк, а степень присутствия строки поиска в строке данных.

Постановка задачи

Даны строка данных и строка поиска как произвольные наборы символов, состоящие из слов – групп символов, разделенных пробелами.

Требуется найти в строке данных наиболее близкий к строке поиска по составу и взаимному расположения символов набор фрагментов.

Для оценки качества результата поиска вычислить коэффициент релевантности, значение которого должно лежать в диапазоне от 0 до 1, где 0 должен соответствовать полному отсутствию символов строки поиска в строке данных, а 1 – наличию строки поиска в строке данных в неискаженном виде.

Поиск должен осуществляться путем посимвольного анализа исходных строк, с учетом взаимного расположения символов и слов в строках, но без учета синтаксиса и морфологии языка.

Описание алгоритма

Поиск осуществляется в несколько этапов.

Построение матрицы совпадений

Матрица совпадений (M) представляет собой двумерную матрицу, количество столбцов которой соответствует длине строки данных, а количество строк – длине строки поиска. Элементы матрицы совпадений принимают значения 0 или 1 в зависимости от того, совпадают или нет соответствующие символы строк за исключением пробелов (разделителей слов).
Матрица совпадений для строки данных «ABCD EF» и строки поиска «ABC» имеет вид:

Читать дальше →

+19

UprightMan Jul 10 2023 at 08:00

Опенсорс-библиотеки для Python: 40+ вариантов, как упростить жизнь начинающего дата-сайентиста

Easy

22 min

15K

FirstVDS corporate blogProgramming*Python*Open source*

Для Python существует более 137 тысяч библиотек с открытым исходным кодом, автоматизирующих работу в разных областях — от отдельных рутинных рабочих процессов в компаниях до создания сложных многофункциональных приложений. Одна из самых популярных областей применения «змеиного языка» — наука о данных, а также задачи, связанные с искусственным интеллектом и машинным обучением.

В этой обширной «шпаргалке» для начинающих AI/ML специалистов мы собрали опенсорсные библиотеки Python, сгруппированные по областям практического применения. Этот список с кратким описанием функций каждого инструмента будет полезен всем, кто постоянно работает с «Питоном» и ищет эффективные инструменты для решения возникающих задач.

Читать далее

+11

gofixyourself Jun 2 2023 at 08:06

Ускоряем процесс разметки с помощью интерактивной сегментации

Medium

14 min

7.6K

SberDevices corporate blogImage processing*Machine learning*Artificial Intelligence

Review

Всем привет! Сегодня поговорим про задачу интерактивной сегментации на основе кликов (click-based) и как она может ускорить процесс разметки данных для различных типов сегментации. Сегментационные модели применяются в распознавании событий и объектов в видео (Video Understanding), анализе медицинских снимков и в управлении беспилотных автомобилей, а также с их помощью реализована замена фона в приложениях для видеозвонков, бьютификация и автоматическая ретушь фотографий. SberDevices тоже активно разрабатывают свои решения для семантической сегментации – недавно мы рассказывали про задачу замены фона и бьютификацию в нашей статье, в которой представили новый большой opensource датасет для Portrait Segmentation и Face Parsing вместе с набором предобученных моделей.

Читать далее

+13

1