Как стать автором
Обновить
99
Карма
0
Рейтинг
Вячеслав @nanoslavic

Инженер

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Python *Data Mining *Машинное обучение *Искусственный интеллект Natural Language Processing *
🔥 Технотекст 2020
Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

Всего голосов 57: ↑55 и ↓2 +53
Просмотры 59K
Комментарии 25

15 книг по машинному обучению для начинающих

Python *Программирование *Data Mining *Big Data *Искусственный интеллект
Сделал подборку книг по Machine Learning для тех, кто хочет разобраться, что да как.
Добавляйте в закладки и делитесь с коллегами!

Книги по машинному обучению на русском


1. «Математические основы машинного обучения и прогнозирования» Владимир Вьюгин.

О чем

Сначала изучите азы статистической теории машинного обучения, игр с предсказаниями и прогнозирования с применением экспертной стратегии. Их основы прекрасно объясняет автор книги, доктор физико-математических наук Владимир Вьюгин. Пособие рассчитано на студентов и аспирантов и в доступной форме излагает математические основы, необходимые для дальнейшей работы с машинным обучением.

2. «Верховный алгоритм» Педро Домингос.

О чем

Книга, благодаря которой даже ничего не смыслящие в математике и статистике люди поймут, что такое алгоритмы машинного обучения и каково их применение в жизни. Профессор Педро Домингос рассказывает о пяти основных школах Machine Learning и о том, как они используют идеи из различных областей научного знания — нейробиологии, физики, статистики, биологии, — чтобы помогать людям решать сложные задачи и упрощать рутину с помощью алгоритмов.
Читать дальше →
Всего голосов 34: ↑33 и ↓1 +32
Просмотры 117K
Комментарии 23

Serial, UART и Android, как связь с микроконтроллерами

Eclipse *
Из песочницы
image

Наши испытуемые:


Планшет на Android 4.1.1 “DNS AirTab M101w” и следующие устройства:
1. Плата Tiva C Series TM4C123G LaunchPad
2. Плата Stellaris LaunchPad EK-LM4F120XL
3. Плата Arduino MEGA 2560
4. Плата MSP430 LaunchPad, M430G2553

И сейчас мы будем по очерёдности подключать все эти платы через USB OTG к планшету и пытаться установить с ними связь не прибегая к root доступу.
Читать дальше →
Всего голосов 15: ↑12 и ↓3 +9
Просмотры 13K
Комментарии 2

Изучаем календарь

Программирование *C++ *Математика *
Туториал
Эта статья получилась из вопроса, который я сам себе задал вчера.
«Существует ли год, в котором ни один месяц не начинается в понедельник?»
На первый взгляд — да. Год может начинаться с любого дня недели, месяцы тоже каждый раз начинаются в разные дни недели. Вариантов множество, скорее всего, найдётся и не один такой год.

Так я подумал в первую минуту после того, как задался вопросом. Это следовало бы доказать. Перебрать все года, например. Простой и быстрый способ, но не интересный. Доказать математически было намного более заманчивой идеей, но как к этому подступиться я совершенно не понимал. Поэтому просто начал выписывать продолжительность каждого месяца на бумагу.

Тут стоит оговорить, что речь дальше пойдёт про григорианский календарь, по которому мы живём с 1918 года. Однако часть рассуждений будет верна и для юлианского.
Так как же на самом деле?
Всего голосов 31: ↑31 и ↓0 +31
Просмотры 34K
Комментарии 46

Как мы создали систему оповещения о ядерной угрозе, или как я обучил нейросеть на заголовках Хабра

Python *Data Mining *Математика *Машинное обучение *

Заголовок статьи может показаться странным и это неспроста — он прекрасен именно тем, что написал его не я, а LSTM-нейросеть (а точнее его часть перед "или").



(схема LSTM взята из Understanding LSTM Networks)


И сегодня мы разберёмся, как можно генерировать заголовки статей Хабра (и в принципе сам текст можно генерировать этой же нейро-архитектурой). Весь код доступен для запуска онлайн в notebooks от Гугла. Данные, как всегда, открыты на github.


А вот здесь можно запустить уже обученную модель на GPU от Гугла (бесплатно и без смс) и собственно погенерить заголовки.

Читать дальше →
Всего голосов 46: ↑44 и ↓2 +42
Просмотры 9.5K
Комментарии 16

Разработчики «свободного железа», заработавшие больше $1 млн

Open source *
Рынок открытого аппаратного обеспечения (OSHW) только встаёт на ноги: обкатываются экспериментальные бизнес-модели, ищутся наиболее эффективные способы заработать деньги. Уже появились первые фирмы и сообщества разработчиков, которые смогли заработать на создании и продаже открытого «железа» более миллиона долларов. Таких в мире всего полтора десятка, но в этой области ожидается настоящий бум: по прогнозу Adafruit Industries (презентация, PDF), рынок «свободного железа» к 2015 году вырастет аж до $1 млрд.
Читать дальше →
Всего голосов 85: ↑82 и ↓3 +79
Просмотры 5.4K
Комментарии 62

Где взять аудиосемплы для ваших проектов: подборка из девяти тематических ресурсов

Блог компании Аудиомания Работа с видео *Разработка мобильных приложений *Разработка игр *Звук
В прошлый раз мы делали подборку ресурсов с полноценными музыкальными композициями для приложений, игр или видео. Сегодня рассказываем о площадках с библиотеками коротких звуков и семплов, распространяемых в основном по лицензиям класса Creative Commons.

Читать дальше →
Всего голосов 31: ↑30 и ↓1 +29
Просмотры 26K
Комментарии 5

Музыка для ваших проектов: 12 тематических ресурсов с треками по лицензии Creative Commons

Блог компании Аудиомания Разработка мобильных приложений *Разработка игр *Дизайн игр *Звук
Подборка пригодится разработчикам, дизайнерам, видеорежиссерам и контент-мейкерам, которые ищут музыку для своих проектов — приложений, игр или видеороликов.

Представленные ниже площадки предлагают скачать полноценные композиции. О ресурсах, на которых можно найти отдельные звуки и семплы, мы расскажем в следующий раз.

Всего голосов 57: ↑56 и ↓1 +55
Просмотры 96K
Комментарии 9

Соскучились по КПК?

Программирование микроконтроллеров *Прототипирование *Гаджеты 3D-принтеры DIY или Сделай сам
Туториал
Перевод
Сделайте его сами!



Устройство выполнено на микроконтроллере STM32F4 и работает под управлением специально разработанной для него ОС. Приложения для неё можно писать на скриптовом языке и помещать на карту памяти. В режиме ожидания зарядки хватает примерно на пять дней, при включённом дисплее с яркостью подсветки в 60% — более чем на шесть часов.

В ПО применены сторонние наработки под лицензией MIT, готовый результат выложен под ней же. Если вы всё ещё не уверены, что вам нужен такой гаджет, поменяйте своё мнение на противоположное, воспользовавшись симулятором (требует WebAssembly, у переводчика заработало):



Да, а ещё у него нет даже намёка на безрамочность.
Читать дальше →
Всего голосов 66: ↑65 и ↓1 +64
Просмотры 32K
Комментарии 71

Печатная плата заменяет два линейных двигателя

Производство и разработка электроники *DIY или Сделай сам Лайфхаки для гиков
Туториал
Перевод


Предлагаемая конструкция показывает, насколько безграничны возможности двух довольно старых изобретений — печатной катушки и линейного двигателя. Одна плата заменяет сразу два таких двигателя. Положите на неё магнит, и он будет перемещаться в двумерном пространстве. Положите несколько — они будут перемещаться синхронно. Новую электронику разрабатывать не придётся, подойдут существующие драйвера шаговых двигателей.
Читать дальше →
Всего голосов 114: ↑114 и ↓0 +114
Просмотры 45K
Комментарии 101

Ретро игровая приставка своими руками

Программирование микроконтроллеров *Схемотехника *Компьютерное железо DIY или Сделай сам Игры и игровые консоли

image


Этот пост является введением в мой проект "самодельной" консольной видеоприставки сделаной с нуля. Я вдохновлялся как ретро консолями так и современными образцами, но у меня получилась своя собственная архитектура. Мои друзья постоянно мне говорили, что я должен рассказать о своём проекте, а не делать всё исключительно "для себя", так что вот я публикую этот пост.

Всего голосов 89: ↑84 и ↓5 +79
Просмотры 43K
Комментарии 43

256 строчек голого C++: пишем трассировщик лучей с нуля за несколько часов

Программирование *C++ *Работа с 3D-графикой *Разработка игр *Математика *
Туториал
Публикую очередную главу из моего курса лекций по компьютерной графике (вот тут можно читать оригинал на русском, хотя английская версия новее). На сей раз тема разговора — отрисовка сцен при помощи трассировки лучей. Как обычно, я стараюсь избегать сторонних библиотек, так как это заставляет студентов заглянуть под капот.

Подобных проектов в интернете уже море, но практически все они показывают законченные программы, в которых разобраться крайне непросто. Вот, например, очень известная программа рендеринга, влезающая на визитку. Очень впечатляющий результат, однако разобраться в этом коде очень непросто. Моей целью является не показать как я могу, а детально рассказать, как подобное воспроизвести. Более того, мне кажется, что конкретно эта лекция полезна даже не столь как учебный материал по комьпютерной графике, но скорее как пособие по программированию. Я последовательно покажу, как прийти к конечному результату, начиная с самого нуля: как разложить сложную задачу на элементарно решаемые этапы.

Внимание: просто рассматривать мой код, равно как и просто читать эту статью с чашкой чая в руке, смысла не имеет. Эта статья рассчитана на то, что вы возьмётесь за клавиатуру и напишете ваш собственный движок. Он наверняка будет лучше моего. Ну или просто смените язык программирования!

Итак, сегодня я покажу, как отрисовывать подобные картинки:


Читать дальше →
Всего голосов 241: ↑241 и ↓0 +241
Просмотры 130K
Комментарии 124

Загрузчик с шифрованием для STM32

Программирование микроконтроллеров *
Из песочницы
В данной статье хотел бы написать о своем опыте создания загрузчика для STM32 с шифрованием прошивки. Я являюсь индивидуальным разработчиком, поэтому нижеприведенный код может не соответствовать каким-либо корпоративным стандартам

В процессе работы ставились следующие задачи:

  • Обеспечить обновление прошивки пользователем устройства с SD-карты.
  • Обеспечить контроль целостности прошивки и исключить запись некорректной прошивки в память контроллера.
  • Обеспечить шифрование прошивки для исключения клонирования устройства.

Код писался в Keil uVision с использованием библиотек stdperiph, fatFS и tinyAES. Подопытным микроконтроллером был STM32F103VET6, но код может быть легко адаптирован под другой контроллер STM. Контроль целостности обеспечивается алгоритмом CRC32, контрольная сумма расположена в последних 4 байтах файла с прошивкой.

В статье не описано создание проекта, подключение библиотек, инициализация периферии и прочие тривиальные этапы.
Читать дальше →
Всего голосов 36: ↑33 и ↓3 +30
Просмотры 25K
Комментарии 52

SIP телефон на STM32F7-Discovery

Блог компании Embox Системное программирование *Asterisk *Разработка систем связи *Программирование микроконтроллеров *
Всем привет.

Некоторое время назад мы писали о том как нам удалось запустить SIP телефон на STM32F4-Discovery c 1 Мб ROM и 192 Кб RAM) на базе Embox. Тут надо сказать, что та версия была минимальной и соединяла два телефона напрямую без сервера и с передачей голоса лишь в одну сторону. Поэтому мы решили запустить более полноценный телефон со звонком через сервер, передачей голоса в обе стороны, но при этом уложиться в как можно меньший размер памяти.

Всего голосов 38: ↑36 и ↓2 +34
Просмотры 12K
Комментарии 9

SIP телефон из stm32f4-discovery

Блог компании Embox Системное программирование *Asterisk *Разработка систем связи *
Всем привет.
В этой статье я расскажу, как мы делали sip-телефон на базе stm32f4-discovery с помощью своей встраиваемой ОС Embox. Характеристики stm32f4-discovery (144MHz, 192Kb RAM, 1Mb ROM) могут вызывать сомнения о возможности такой реализации. Нам самим было интересно, получится ли? В качестве ответа можно посмотреть видео, а в самой статье — технические подробности.



Читать дальше →
Всего голосов 42: ↑42 и ↓0 +42
Просмотры 27K
Комментарии 8

Как превратить «столетний» usb-хаб в «умный» управляемый и сэкономить при этом 300$

Настройка Linux *Гаджеты Старое железо Периферия DIY или Сделай сам

Как-то давно понадобился мне хаб, желательно с большим количеством портов и c достаточно удобной формой, пригодной для встраивания вместо флоппи-дисковода в отсек 3,5''. Беглый просмотр барахолки подкинул модель D-link DUB-H7, да еще и в комбинации «2 по цене 1». Внешний осмотр ничего особенного не дал, хаб как хаб, сделан добротно, капитальный «принтерный» USB AM-BM на оборотной стороне и 3 А блок питания. Как всегда первым делом разобрал, порадовался малому количеству пустых мест вместо элементов вкупе с качественной пайкой и успокоился. Правда на всякий случай зашел в интернет посмотреть, а что это за хаб и есть ли интересные проекты с его участием. Проектов не оказалось, отзывы пользователей 50/50, в общем, никакой динамики. Хаб на протяжении 5-7 лет довольно сносно работал и выполнял свою задачу, потом плавно переместился в коробку для электронного хлама и вполне возможно сгинул бы в итоге вместе с безызвестными переходниками, адаптерами и т. п. Но произошло у меня в жизни событие, которое заставило-таки меня покопаться в мешках со старым барахлом, найти этот, как оказалось уникальный D-link, и стряхнув пыль извлечь его на божий свет. Если интересно послушать зачем — добро пожаловать под cut.


миг-миг-миг
Читать дальше →
Всего голосов 57: ↑55 и ↓2 +53
Просмотры 71K
Комментарии 34

Больше всех пахала лошадь, но председателем колхоза так и не стала

Блог компании ONETRAK Разработка под iOS *Разработка мобильных приложений *Разработка под Android *


В последнее время в мобильном сообществе часто можно услышать про Flutter, React Native. Мне стало интересно понять профит от этих штук. И насколько они реально изменят жизнь при разработке приложений. В итоге было создано 4 (одинаковых с точки зрения выполняемых функции) приложения: нативное Android, нативное iOS, Flutter, React Native. В этой статье я описал то, что вынес из своего опыта и как реализуются схожие элементы приложений в рассматриваемых решениях.
Читать дальше →
Всего голосов 63: ↑60 и ↓3 +57
Просмотры 45K
Комментарии 50

Передача данных через анимированные QR на Gomobile и GopherJS

Go *

В данной статье я хочу рассказать о небольшом и забавном проекте выходного дня по передаче файлов через анимированные QR коды. Проект написан на Go, с использованием Gomobile и Gopherjs – последний для веб-приложения для автоматического замера скорости передачи данных. Если вам интересна идея передачи данных через визуальные коды, разработка веб-приложений не на JS или настоящая кроссплатформенность Go — велкам под кат.


txqr demo

Читать дальше →
Всего голосов 128: ↑124 и ↓4 +120
Просмотры 31K
Комментарии 92

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность