Статьи / Закладки / Профиль FenixFly / Хабр

Как стать автором

Евгений Васильев @FenixFly

Преподаватель-исследователь

Профиль Публикации 12Комментарии 164Закладки 46

Ermak_Marina 12 июн в 11:26

Временные ряды и ARIMA: Как предсказывать будущее без хрустального шара

Простой

4 мин

6K

Из песочницы

Что такое временной ряд, модель ARIMA и как к ней подбирать параметры.

Простым словами, временной ряд — это просто последовательность событий, которая как-то зависит от времени. Мы для начала будем считать, что ряд самый простецкий и нас просто есть скачущие туда-сюда точки, которые распределены по временной шкале.

Читать далее

+9

SmartEngines 31 мая в 10:58

“Семь раз отмерь, один раз сшей” или совмещение 3D изображений в компьютерной томографии

Простой

4 мин

657

Обработка изображений*Блог компании Smart EnginesData Engineering*

Привет, Хабр!

Мудрая пословица гласит: «Семь раз отмерь, один – отрежь». Эта пословица применима и к томографии, так как в случае проведения томографических экспериментов при классическом подходе для каждого объекта составляется сначала план измерений, а потом уже выполняются сами измерения. Если объект протяженный или помещается в поле вида детектора впритык, то часто принимается решение сделать два измерения: верхней части объекта и нижней. В этом случае в программе обработки данных томографических измерений необходима дополнительная функциональность, а именно, совмещение и сшивка трехмерных изображений. О том, как мы добавили такую функциональность в Smart Tomo Engine, наш продукт для томографической реконструкции и анализа, мы расскажем в сегодняшней статье.

Читать далее

+5

NewTechAudit 15 ноя 2023 в 09:39

Использование Insightface для быстрого поиска и сравнения лиц на изображениях

Средний

9 мин

5.3K

Python*Машинное обучение*Искусственный интеллект

Кейс

Привет, Хабр!

С вами Вадим Дарморезов, участник профессионального сообщества NTA.

Сегодня рассмотрю кейс поиска изображений-«близнецов», которые были размещены в pdf-файлах, насчитывающих десятки, а порой и сотни страниц.

В проектах, связанных с распознаванием лиц своеобразными «флагманами» являются библиотеки dlib/face‑recognition и свёрточные нейронные сети. При этом на просторах русскоязычного интернета довольно мало статей о библиотеке insightface. Именно о ее использовании хотелось бы поговорить более подробно. Всем, кому это интересно, добро пожаловать по кат.

Искать "близнецов"

+3

dkurt 27 окт 2022 в 15:00

Нейросети на RISC-V с Movidius Neural Compute Stick

6 мин

5K

Open source*Обработка изображений*Машинное обучение*Блог компании YADROПроцессоры

Туториал

RISC-V — перспективная открытая архитектура, не требующая royalty от производителей железа на её основе. Нужно отметить, что интерес к архитектуре RISC-V растёт намного быстрее, чем закрепляется её спецификация и идёт процесс принятия новых фич комитетом, а также дальнейшая реализация в железе и софте. Например, сейчас сложно найти предложение по CPU и совместимое с ним Linux ядро с поддержкой векторизации, хотя RVV 0.7.1 уже существует, и RVV 1.0 вот-вот его заменит. В нашем эксперименте трудоемкие вычисления перекладываются на внешнее устройство, поэтому сгодится и самый простой центральный процессор.

В этой статье вы найдете подробные инструкции по использованию библиотек OpenVINO и OpenCV на RISC-V для запуска нейронных сетей с использованием акселератора. Цель материала — продемонстрировать гибкость решений на примере использования RISC-V CPU в качестве хоста для работы с нейросетевым ускорителем Intel Movidius Neural Compute Stick 2 (NCS2). Большая часть статьи состоит из инструкций по сборке под RISC-V. Конечно, это не самый творческий процесс, но мы верим, что со временем все они спрячутся под процессами CI/CD, как когда-то было с ARM-экосистемой.

Читать далее

+19

m1rko 30 мая 2019 в 20:40

RISC-V с нуля

18 мин

56K

Open source*Assembler*Отладка*Процессоры

Перевод

В этой статье мы исследуем различные низкоуровневые концепции (компиляция и компоновка, примитивные среды выполнения, ассемблер и многое другое) через призму архитектуры RISC-V и её экосистемы. Я сам веб-разработчик, на работе ничем таким не занимаюсь, но мне это очень интересно, отсюда и родилась статья! Присоединяйтесь ко мне в этом беспорядочном путешествии в глубины низкоуровневого хаоса.

Сначала немного обсудим RISC-V и важность этой архитектуры, настроим цепочку инструментов RISC-V и запустим простую программу C на эмулированном оборудовании RISC-V.

Читать дальше →

+41

marker_media 2 мар 2023 в 14:32

Как сделать своего “Марка”? Обучение

Средний

8 мин

10K

Искусственный интеллектNatural Language Processing*

Туториал

Привет! Ты уже знаешь, как генерировать новости с помощью Марка. Теперь расскажем, как же так получилось, что мы обучили языковую модель генерации новостей. Пришло время узнать, как можно файнтюнить большие генеративные модели под свои задачи.

Читать далее

+4

cointegrated 5 июн 2022 в 22:18

Рейтинг русскоязычных энкодеров предложений

9 мин

24K

Python*Семантика*Машинное обучение*Natural Language Processing*

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее

+26

devzona 9 фев 2022 в 14:38

Присматриваемся к одноплатникам на RISC-V, обзор модуля Sipeed Lichee RV на процессоре Allwinner D1

20 мин

25K

Open source*Блог компании Timeweb CloudПроизводство и разработка электроники*Компьютерное железоDIY или Сделай сам

Туториал

Sipeed Lichee RV

Одноплатные компьютеры на RISC-V процессоре сравнительно новое веяние. Поднебесная активно работает над снижением зависимости от западных информационных систем и технологий, именно поэтому новая открытая архитектура RISC-V одна из ключевых ставок Китая. Для продвижения в массы китайский чипмейкер Allwinner на базе ядра Alibaba/T-Head Xuantie C906 RISC-V разработал процессор Allwinner D1 и упрощенную модификацию Allwinner D1s. На сегодня разработано несколько одноплатников на RISC-V процессоре, и в первенство по массовости вырвалась компания Sipeed с модульным компьютером Система-на-Модуле Lichee RV с 512 Мб ОЗУ всего за $16.90, работающим на Linux. Разработчик может спроектировать несущую плату для данного модуля, добавив необходимые периферийные устройства и разъемы. В результате получится решение максимально подготовленное для себя. Данный модуль предназначен для создания интеллектуальных информационных систем, терминалов, роботов, и т.д. В первой части рассмотрим архитектуру процессора, возможности модуля, дистрибутивы, программное обеспечение. Во второй части детально рассмотрим порты и интерфейсы для программирования, напишем программы на Python и C#.

Читать дальше →

+24

ph_piter 18 ноя 2022 в 16:46

Учимся создавать пакеты Python

8 мин

42K

Python*Программирование*Блог компании Издательский дом «Питер»

Перевод

Почему важно уметь создавать пакеты Python?
• Пакеты легко устанавливаются (pip install demo).
• Пакеты упрощают разработку (Команда pip install -e устанавливает ваш пакет и следит за тем, чтобы он сам обновлялся в ходе всего процесса разработки).
• Пакеты легко запускать и тестировать (from demo.main import say_hello, а затем тестируем функцию).
• Пакеты легко версионировать, при этом вы не рискуете нарушить работу кода, зависящего от этого пакета (pip install demo==1.0.3).

Читать дальше →

+24

dimanosov007 4 окт 2022 в 14:40

Обучение YOLOv4 в Google Colab

11 мин

9.9K

Python*Data Mining*Машинное обучение*Искусственный интеллект

Из песочницы

Перевод

Этот учебник поможет вам легко создать yolov4 в облаке с включенным графическим процессором, чтобы вы могли выполнять обнаружение объектов за миллисекунды!

Читать далее

+4

NewTechAudit 15 авг 2022 в 07:42

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

7 мин

14K

Python*Data Mining*Natural Language Processing*

Туториал

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделение документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода - Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

Читать далее

+1

piero 22 июл 2022 в 14:01

Еще один подход к аугментации табличных данных

12 мин

4.6K

Алгоритмы*Машинное обучение*Искусственный интеллектБлог компании Цифра

Известно множество практик борьбы с выбросами во входных данных – применяются как статистические методы, так и ML/DL-подходы. Каждый специалист по анализу данных использует их в процессе предобработки данных. Однако часто при этом отсеиваются исключительно ценные замеры, которые на самом деле выбросами не являются, а представляют собой редко встречающиеся состояния измеряемого объекта или процесса.

"А стоит ли возиться с этими "редкими" состояниями?", – спросит нас любознательный читатель. "Да", – уверенно ответим мы и далее приведем один простой и показательный пример, а сразу за ним расскажем, как извлечь пользу из этих редких состояний. Конкретнее – мы предложим подход для генерации дополнительных измерений в задачах восстановления регрессии временного ряда.

Под "мы" здесь и далее имеются в виду я – Семён Косяченко – и мои коллеги Александр Подвойский и Александр Калиниченко. Вместе мы разрабатываем решения на основе ML для нефтегазовой отрасли в компании "Цифровая индустриальная платформа" (совместное предприятие ГК "Цифра" и "Газпром нефть").

Читать далее

+3

databorodata 18 июл 2022 в 15:54

Мультиклассовая классификация текста. Дисбаланс тренировочных данных и их генерация. Особенности взвешивания TF-IDF

10 мин

7.4K

Машинное обучение*Natural Language Processing*

В этой статье я хочу разобрать отдельный сегмент предобработки данных, а именно показать, насколько балансировка тренировочных данных может качественно повлиять на конечный результат, а также чуть глубже погрузиться в суть работы механизма взвешивания слов TF-IDF

Читать далее

+3

databorodata 16 июл 2022 в 16:55

Работа над неразмеченными данными с QGIS и opentripmap на практике

8 мин

2.6K

Maps API*API*Big Data*Визуализация данных*Data Engineering*

В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.

Задача

По исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабировать и автоматизировать алгоритм решения на любой регион Российской Федерации, избегая ручную работу.

Читать далее

+5

karmapol1ce 16 июл 2022 в 21:30

Как один мужик карту города рисовал

3 мин

13K

Maps API*Геоинформационные сервисы*Визуализация данных*

Из песочницы

Всем привет!  

Сегодня поговорим о визуализации геоданных с помощью GeoPandas и Kepler.gl. Хотел бы рассказать, как я за пару дней построил вот такую карту, где высота полигонов регулировалась этажностью здания, а цвет - годом постройки.

Читать далее

+58

sweetlhare 13 июл 2022 в 15:45

Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва

11 мин

3K

ХакатоныМашинное обучение*Искусственный интеллект

Туториал

Привет, Хабр!

Это одна из трех статей, в которых я (автор канала Зайцем по ХаХатонам) рассказываю о задачах Всеросийского чемпионата Цифрового Прорыва, объясняю базовые решения (baseline) и даю советы, которые помогут подняться выше по рейтингу. В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.

Спойлер: в конце статьи есть советы для улучшения базового решения.

Читать далее

+2

BotkinAI 8 июн 2022 в 15:00

Как обучить нейросеть, если разметка данных стоит как самолет

6 мин

9.3K

Big Data*Машинное обучение*Искусственный интеллектТелемедицина

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно.

Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.

В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…

Читать далее

+9

Metimol 21 мая 2022 в 12:22

Самообучаемый чат-бот python, который умеет искать ответы в Wikipedia

5 мин

45K

Из песочницы

Написание телеграмм бота, обучающегося при общении с Вами и умеющим искать ответы на Ваши вопросы в Википедии.

Читать далее

+16

novoselov_am 3 мая 2022 в 15:45

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

47 мин

18K

Машинное обучение*Искусственный интеллектData Engineering*

Из песочницы

Перевод

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

Читать далее

+20

NewTechAudit 12 апр 2022 в 06:00

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

4 мин

3.8K

Python*Программирование*Машинное обучение*Natural Language Processing*

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

Читать далее

+4

1