Pull to refresh
9
0
Евгений Васильев @FenixFly

Преподаватель-исследователь

Send message

Нейросети на RISC-V с Movidius Neural Compute Stick

Reading time6 min
Views4.8K

RISC-V — перспективная открытая архитектура, не требующая royalty от производителей железа на её основе. Нужно отметить, что интерес к архитектуре RISC-V растёт намного быстрее, чем закрепляется её спецификация и идёт процесс принятия новых фич комитетом, а также дальнейшая реализация в железе и софте. Например, сейчас сложно найти предложение по CPU и совместимое с ним Linux ядро с поддержкой векторизации, хотя RVV 0.7.1 уже существует, и RVV 1.0 вот-вот его заменит. В нашем эксперименте трудоемкие вычисления перекладываются на внешнее устройство, поэтому сгодится и самый простой центральный процессор.

В этой статье вы найдете подробные инструкции по использованию библиотек OpenVINO и OpenCV на RISC-V для запуска нейронных сетей с использованием акселератора. Цель материала — продемонстрировать гибкость решений на примере использования RISC-V CPU в качестве хоста для работы с нейросетевым ускорителем Intel Movidius Neural Compute Stick 2 (NCS2). Большая часть статьи состоит из инструкций по сборке под RISC-V. Конечно, это не самый творческий процесс, но мы верим, что со временем все они спрячутся под процессами CI/CD, как когда-то было с ARM-экосистемой.

Читать далее
Total votes 19: ↑19 and ↓0+19
Comments2

RISC-V с нуля

Reading time18 min
Views55K
В этой статье мы исследуем различные низкоуровневые концепции (компиляция и компоновка, примитивные среды выполнения, ассемблер и многое другое) через призму архитектуры RISC-V и её экосистемы. Я сам веб-разработчик, на работе ничем таким не занимаюсь, но мне это очень интересно, отсюда и родилась статья! Присоединяйтесь ко мне в этом беспорядочном путешествии в глубины низкоуровневого хаоса.

Сначала немного обсудим RISC-V и важность этой архитектуры, настроим цепочку инструментов RISC-V и запустим простую программу C на эмулированном оборудовании RISC-V.
Читать дальше →
Total votes 41: ↑41 and ↓0+41
Comments20

Как сделать своего “Марка”? Обучение

Level of difficultyMedium
Reading time8 min
Views9.6K

Привет! Ты уже знаешь, как генерировать новости с помощью Марка. Теперь расскажем, как же так получилось, что мы обучили языковую модель генерации новостей. Пришло время узнать, как можно файнтюнить большие генеративные модели под свои задачи.

Читать далее
Total votes 8: ↑6 and ↓2+4
Comments4

Рейтинг русскоязычных энкодеров предложений

Reading time9 min
Views21K

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее
Total votes 26: ↑26 and ↓0+26
Comments19

Присматриваемся к одноплатникам на RISC-V, обзор модуля Sipeed Lichee RV на процессоре Allwinner D1

Reading time20 min
Views24K
Sipeed Lichee RV

Одноплатные компьютеры на RISC-V процессоре сравнительно новое веяние. Поднебесная активно работает над снижением зависимости от западных информационных систем и технологий, именно поэтому новая открытая архитектура RISC-V одна из ключевых ставок Китая. Для продвижения в массы китайский чипмейкер Allwinner на базе ядра Alibaba/T-Head Xuantie C906 RISC-V разработал процессор Allwinner D1 и упрощенную модификацию Allwinner D1s. На сегодня разработано несколько одноплатников на RISC-V процессоре, и в первенство по массовости вырвалась компания Sipeed с модульным компьютером Система-на-Модуле Lichee RV с 512 Мб ОЗУ всего за $16.90, работающим на Linux. Разработчик может спроектировать несущую плату для данного модуля, добавив необходимые периферийные устройства и разъемы. В результате получится решение максимально подготовленное для себя. Данный модуль предназначен для создания интеллектуальных информационных систем, терминалов, роботов, и т.д. В первой части рассмотрим архитектуру процессора, возможности модуля, дистрибутивы, программное обеспечение. Во второй части детально рассмотрим порты и интерфейсы для программирования, напишем программы на Python и C#.
Читать дальше →
Total votes 32: ↑28 and ↓4+24
Comments37

Учимся создавать пакеты Python

Reading time8 min
Views39K
imageПочему важно уметь создавать пакеты Python?
• Пакеты легко устанавливаются (pip install demo).
• Пакеты упрощают разработку (Команда pip install -e устанавливает ваш пакет и следит за тем, чтобы он сам обновлялся в ходе всего процесса разработки).
• Пакеты легко запускать и тестировать (from demo.main import say_hello, а затем тестируем функцию).
• Пакеты легко версионировать, при этом вы не рискуете нарушить работу кода, зависящего от этого пакета (pip install demo==1.0.3).
Читать дальше →
Total votes 28: ↑26 and ↓2+24
Comments14

Обучение YOLOv4 в Google Colab

Reading time11 min
Views9K

Этот учебник поможет вам легко создать yolov4 в облаке с включенным графическим процессором, чтобы вы могли выполнять обнаружение объектов за миллисекунды!

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments2

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

Reading time7 min
Views12K

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделение документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода - Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

Читать далее
Total votes 1: ↑1 and ↓0+1
Comments10

Еще один подход к аугментации табличных данных

Reading time12 min
Views4.3K

Известно множество практик борьбы с выбросами во входных данных – применяются  как статистические методы, так и ML/DL-подходы. Каждый специалист по анализу данных использует их в процессе предобработки данных. Однако часто при этом отсеиваются исключительно ценные замеры, которые на самом деле выбросами не являются, а представляют собой редко встречающиеся состояния измеряемого объекта или процесса.

 "А стоит ли возиться с этими "редкими" состояниями?", – спросит нас любознательный читатель. "Да", – уверенно ответим мы и далее приведем один простой и показательный пример, а сразу за ним расскажем, как извлечь пользу из этих редких состояний. Конкретнее – мы предложим подход для генерации дополнительных измерений в задачах восстановления регрессии временного ряда.

Под "мы" здесь и далее имеются в виду я – Семён Косяченко – и мои коллеги Александр Подвойский и Александр Калиниченко. Вместе мы разрабатываем решения на основе ML для нефтегазовой отрасли в компании "Цифровая индустриальная платформа" (совместное предприятие ГК "Цифра" и "Газпром нефть").

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments3

Мультиклассовая классификация текста. Дисбаланс тренировочных данных и их генерация. Особенности взвешивания TF-IDF

Reading time10 min
Views6.8K

В этой статье я хочу разобрать отдельный сегмент предобработки данных, а именно показать, насколько балансировка тренировочных данных может качественно повлиять на конечный результат, а также чуть глубже погрузиться в суть работы механизма взвешивания слов TF-IDF

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments7

Работа над неразмеченными данными с QGIS и opentripmap на практике

Reading time8 min
Views2.5K

В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.

Задача

По исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабировать и автоматизировать алгоритм решения на любой регион Российской Федерации, избегая ручную работу.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments5

Как один мужик карту города рисовал

Reading time3 min
Views13K

Всем привет!



Сегодня поговорим о визуализации геоданных с помощью GeoPandas и Kepler.gl. Хотел бы рассказать, как я за пару дней построил вот такую карту, где высота полигонов регулировалась этажностью здания, а цвет - годом постройки.

Читать далее
Total votes 64: ↑61 and ↓3+58
Comments7

Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва

Reading time11 min
Views3K

Привет, Хабр!

Это одна из трех статей, в которых я (автор канала Зайцем по ХаХатонам) рассказываю о задачах Всеросийского чемпионата Цифрового Прорыва, объясняю базовые решения (baseline) и даю советы, которые помогут подняться выше по рейтингу. В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.

Спойлер: в конце статьи есть советы для улучшения базового решения.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments0

Как обучить нейросеть, если разметка данных стоит как самолет

Reading time6 min
Views9K

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно. 

Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.

В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments8

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

Reading time47 min
Views17K

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

Читать далее
Total votes 20: ↑20 and ↓0+20
Comments3

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

Reading time4 min
Views3.5K

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments0

Как выбрать правильный тип палитры для шкалы

Reading time6 min
Views4.1K

Цвет — мощное средство визуализации данных, его неумеренное или неправильное применение губит всю работу и сбивает с толку, поэтому цвет следует подбирать тщательно, не забывая об особенностях восприятия.

О типах палитр цветов и о том, как выбрать правильную палитру, рассказываем к старту курса по анализу данных.

Читать далее
Total votes 6: ↑5 and ↓1+4
Comments2

Путеводитель по основным трендам 2021 года в области обработки естественного языка и не только

Reading time24 min
Views6K

Когда-то давно люди много путешествовали, посещали новые города и страны, им удавалось насладиться культурой других народов, пообщаться с ними на языке жестов. Исследовать новый для себя город можно по-разному. Например, бесцельно гулять по его улицам, впитывая атмосферу, состоящую из множества разных мелочей. И это отличный способ, если времени на осмотр много и точно знаешь, что рано или поздно еще вернешься. В противном случае полезно оптимизировать визит, используя путеводители, карты достопримечательностей и статьи других путешественников. 

Число исследований в области машинного обучения с каждым годом растет. Конечно, приятно было бы прогуляться по каждой статье или ветке исследований отдельно, но времени на это просто может не хватить, а «посетить» 2021 год еще раз, увы, не удастся. Следовательно, необходимо также искать «путеводители» - статьи, подсвечивающие некоторые тренды, понимание которых важно для будущих направлений исследований. В начале года одна из таких статей «гуляла»  по различным каналам и чатам. Мне захотелось перевести ее на русский и поделиться с вами. Далее приведу перевод этой статьи с моими комментариями.

Читать далее
Total votes 40: ↑39 and ↓1+38
Comments0

Разбор задачи Титаник на Kaggle (Baseline)

Reading time6 min
Views18K

В статье я покажу как искать зависимости и проверять гипотезы. Мы познакомимся с данными и реализуем предсказание на основе одной логики=)

Читать далее
Total votes 9: ↑8 and ↓1+7
Comments3

Information

Rating
Does not participate
Location
Нижний Новгород, Нижегородская обл., Россия
Registered
Activity