Как стать автором
Обновить
9
0
Евгений Васильев @FenixFly

Преподаватель-исследователь

Отправить сообщение

Нейросети на RISC-V с Movidius Neural Compute Stick

Время на прочтение6 мин
Количество просмотров4.8K

RISC-V — перспективная открытая архитектура, не требующая royalty от производителей железа на её основе. Нужно отметить, что интерес к архитектуре RISC-V растёт намного быстрее, чем закрепляется её спецификация и идёт процесс принятия новых фич комитетом, а также дальнейшая реализация в железе и софте. Например, сейчас сложно найти предложение по CPU и совместимое с ним Linux ядро с поддержкой векторизации, хотя RVV 0.7.1 уже существует, и RVV 1.0 вот-вот его заменит. В нашем эксперименте трудоемкие вычисления перекладываются на внешнее устройство, поэтому сгодится и самый простой центральный процессор.

В этой статье вы найдете подробные инструкции по использованию библиотек OpenVINO и OpenCV на RISC-V для запуска нейронных сетей с использованием акселератора. Цель материала — продемонстрировать гибкость решений на примере использования RISC-V CPU в качестве хоста для работы с нейросетевым ускорителем Intel Movidius Neural Compute Stick 2 (NCS2). Большая часть статьи состоит из инструкций по сборке под RISC-V. Конечно, это не самый творческий процесс, но мы верим, что со временем все они спрячутся под процессами CI/CD, как когда-то было с ARM-экосистемой.

Читать далее
Всего голосов 19: ↑19 и ↓0+19
Комментарии2

RISC-V с нуля

Время на прочтение18 мин
Количество просмотров55K
В этой статье мы исследуем различные низкоуровневые концепции (компиляция и компоновка, примитивные среды выполнения, ассемблер и многое другое) через призму архитектуры RISC-V и её экосистемы. Я сам веб-разработчик, на работе ничем таким не занимаюсь, но мне это очень интересно, отсюда и родилась статья! Присоединяйтесь ко мне в этом беспорядочном путешествии в глубины низкоуровневого хаоса.

Сначала немного обсудим RISC-V и важность этой архитектуры, настроим цепочку инструментов RISC-V и запустим простую программу C на эмулированном оборудовании RISC-V.
Читать дальше →
Всего голосов 41: ↑41 и ↓0+41
Комментарии20

Как сделать своего “Марка”? Обучение

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров9.6K

Привет! Ты уже знаешь, как генерировать новости с помощью Марка. Теперь расскажем, как же так получилось, что мы обучили языковую модель генерации новостей. Пришло время узнать, как можно файнтюнить большие генеративные модели под свои задачи.

Читать далее
Всего голосов 8: ↑6 и ↓2+4
Комментарии4

Рейтинг русскоязычных энкодеров предложений

Время на прочтение9 мин
Количество просмотров21K

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее
Всего голосов 26: ↑26 и ↓0+26
Комментарии19

Присматриваемся к одноплатникам на RISC-V, обзор модуля Sipeed Lichee RV на процессоре Allwinner D1

Время на прочтение20 мин
Количество просмотров24K
Sipeed Lichee RV

Одноплатные компьютеры на RISC-V процессоре сравнительно новое веяние. Поднебесная активно работает над снижением зависимости от западных информационных систем и технологий, именно поэтому новая открытая архитектура RISC-V одна из ключевых ставок Китая. Для продвижения в массы китайский чипмейкер Allwinner на базе ядра Alibaba/T-Head Xuantie C906 RISC-V разработал процессор Allwinner D1 и упрощенную модификацию Allwinner D1s. На сегодня разработано несколько одноплатников на RISC-V процессоре, и в первенство по массовости вырвалась компания Sipeed с модульным компьютером Система-на-Модуле Lichee RV с 512 Мб ОЗУ всего за $16.90, работающим на Linux. Разработчик может спроектировать несущую плату для данного модуля, добавив необходимые периферийные устройства и разъемы. В результате получится решение максимально подготовленное для себя. Данный модуль предназначен для создания интеллектуальных информационных систем, терминалов, роботов, и т.д. В первой части рассмотрим архитектуру процессора, возможности модуля, дистрибутивы, программное обеспечение. Во второй части детально рассмотрим порты и интерфейсы для программирования, напишем программы на Python и C#.
Читать дальше →
Всего голосов 32: ↑28 и ↓4+24
Комментарии37

Учимся создавать пакеты Python

Время на прочтение8 мин
Количество просмотров39K
imageПочему важно уметь создавать пакеты Python?
• Пакеты легко устанавливаются (pip install demo).
• Пакеты упрощают разработку (Команда pip install -e устанавливает ваш пакет и следит за тем, чтобы он сам обновлялся в ходе всего процесса разработки).
• Пакеты легко запускать и тестировать (from demo.main import say_hello, а затем тестируем функцию).
• Пакеты легко версионировать, при этом вы не рискуете нарушить работу кода, зависящего от этого пакета (pip install demo==1.0.3).
Читать дальше →
Всего голосов 28: ↑26 и ↓2+24
Комментарии14

Обучение YOLOv4 в Google Colab

Время на прочтение11 мин
Количество просмотров9K

Этот учебник поможет вам легко создать yolov4 в облаке с включенным графическим процессором, чтобы вы могли выполнять обнаружение объектов за миллисекунды!

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Fine-Tune модели основанной на трансформерах (Rubert) для классификации текстов

Время на прочтение7 мин
Количество просмотров12K

Задача классификации текста уже давно является устоявшейся во многих компаниях. Она используется для определения настроения клиентов, разделение документов на заранее известные темы, детекции фейковых новостей и т.д. Сегодня я представлю state of the art подход для решения задачи бинарной классификации, а именно детекция сообщений, в которой присутствует жалоба на сотрудника.

А также сравню по точности два подхода - Fine-Tune Bert и получение предобученных эмбеддингов и их классификация с использованием полносвязной нейронной сети.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии10

Еще один подход к аугментации табличных данных

Время на прочтение12 мин
Количество просмотров4.3K

Известно множество практик борьбы с выбросами во входных данных – применяются  как статистические методы, так и ML/DL-подходы. Каждый специалист по анализу данных использует их в процессе предобработки данных. Однако часто при этом отсеиваются исключительно ценные замеры, которые на самом деле выбросами не являются, а представляют собой редко встречающиеся состояния измеряемого объекта или процесса.

 "А стоит ли возиться с этими "редкими" состояниями?", – спросит нас любознательный читатель. "Да", – уверенно ответим мы и далее приведем один простой и показательный пример, а сразу за ним расскажем, как извлечь пользу из этих редких состояний. Конкретнее – мы предложим подход для генерации дополнительных измерений в задачах восстановления регрессии временного ряда.

Под "мы" здесь и далее имеются в виду я – Семён Косяченко – и мои коллеги Александр Подвойский и Александр Калиниченко. Вместе мы разрабатываем решения на основе ML для нефтегазовой отрасли в компании "Цифровая индустриальная платформа" (совместное предприятие ГК "Цифра" и "Газпром нефть").

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Мультиклассовая классификация текста. Дисбаланс тренировочных данных и их генерация. Особенности взвешивания TF-IDF

Время на прочтение10 мин
Количество просмотров6.9K

В этой статье я хочу разобрать отдельный сегмент предобработки данных, а именно показать, насколько балансировка тренировочных данных может качественно повлиять на конечный результат, а также чуть глубже погрузиться в суть работы механизма взвешивания слов TF-IDF

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии7

Работа над неразмеченными данными с QGIS и opentripmap на практике

Время на прочтение8 мин
Количество просмотров2.5K

В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.

Задача

По исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабировать и автоматизировать алгоритм решения на любой регион Российской Федерации, избегая ручную работу.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии5

Как один мужик карту города рисовал

Время на прочтение3 мин
Количество просмотров13K

Всем привет!



Сегодня поговорим о визуализации геоданных с помощью GeoPandas и Kepler.gl. Хотел бы рассказать, как я за пару дней построил вот такую карту, где высота полигонов регулировалась этажностью здания, а цвет - годом постройки.

Читать далее
Всего голосов 64: ↑61 и ↓3+58
Комментарии7

Разбор базового решения для задачи определения железнодорожной колеи и подвижного состава с Цифрового Прорыва

Время на прочтение11 мин
Количество просмотров3K

Привет, Хабр!

Это одна из трех статей, в которых я (автор канала Зайцем по ХаХатонам) рассказываю о задачах Всеросийского чемпионата Цифрового Прорыва, объясняю базовые решения (baseline) и даю советы, которые помогут подняться выше по рейтингу. В данной статье будет рассмотрен кейс от НИИАС-РЖД, в котором необходимо разработать алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге.

Спойлер: в конце статьи есть советы для улучшения базового решения.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Как обучить нейросеть, если разметка данных стоит как самолет

Время на прочтение6 мин
Количество просмотров9K

Искусственный интеллект все чаще используется в медицинских целях, в частности для анализа медицинских изображений. Процесс создания качественной и эффективной нейросети долгий и дорогой. Более того, данных для обучения зачастую недостаточно. 

Именно по этим причинам мы решили исследовать различные подходы, которые могли бы помочь сократить число необходимых аннотированных данных для получения модели того же качества. Это может позволить не только сократить время и расходы на аннотацию, но и ускорить цикл поставки новых моделей.

В результате нашего исследования, мы нашли лучший подход, который помог сохранить точность работы алгоритма при использовании лишь 20% разметки.
Магия - нет, расскажем подробнее…

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии8

Самообучаемый чат-бот python, который умеет искать ответы в Wikipedia

Время на прочтение5 мин
Количество просмотров44K

Написание телеграмм бота, обучающегося при общении с Вами и умеющим искать ответы на Ваши вопросы в Википедии.

Читать далее
Всего голосов 24: ↑20 и ↓4+16
Комментарии8

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

Время на прочтение47 мин
Количество просмотров17K

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

Читать далее
Всего голосов 20: ↑20 и ↓0+20
Комментарии3

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

Время на прочтение4 мин
Количество просмотров3.5K

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Как выбрать правильный тип палитры для шкалы

Время на прочтение6 мин
Количество просмотров4.1K

Цвет — мощное средство визуализации данных, его неумеренное или неправильное применение губит всю работу и сбивает с толку, поэтому цвет следует подбирать тщательно, не забывая об особенностях восприятия.

О типах палитр цветов и о том, как выбрать правильную палитру, рассказываем к старту курса по анализу данных.

Читать далее
Всего голосов 6: ↑5 и ↓1+4
Комментарии2

Путеводитель по основным трендам 2021 года в области обработки естественного языка и не только

Время на прочтение24 мин
Количество просмотров6K

Когда-то давно люди много путешествовали, посещали новые города и страны, им удавалось насладиться культурой других народов, пообщаться с ними на языке жестов. Исследовать новый для себя город можно по-разному. Например, бесцельно гулять по его улицам, впитывая атмосферу, состоящую из множества разных мелочей. И это отличный способ, если времени на осмотр много и точно знаешь, что рано или поздно еще вернешься. В противном случае полезно оптимизировать визит, используя путеводители, карты достопримечательностей и статьи других путешественников. 

Число исследований в области машинного обучения с каждым годом растет. Конечно, приятно было бы прогуляться по каждой статье или ветке исследований отдельно, но времени на это просто может не хватить, а «посетить» 2021 год еще раз, увы, не удастся. Следовательно, необходимо также искать «путеводители» - статьи, подсвечивающие некоторые тренды, понимание которых важно для будущих направлений исследований. В начале года одна из таких статей «гуляла»  по различным каналам и чатам. Мне захотелось перевести ее на русский и поделиться с вами. Далее приведу перевод этой статьи с моими комментариями.

Читать далее
Всего голосов 40: ↑39 и ↓1+38
Комментарии0

Разбор задачи Титаник на Kaggle (Baseline)

Время на прочтение6 мин
Количество просмотров18K

В статье я покажу как искать зависимости и проверять гипотезы. Мы познакомимся с данными и реализуем предсказание на основе одной логики=)

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии3

Информация

В рейтинге
Не участвует
Откуда
Нижний Новгород, Нижегородская обл., Россия
Зарегистрирован
Активность