Как стать автором
Обновить
1
0
kyookineko @kyookineko

Пользователь

Отправить сообщение

Мы сделали наш публичный синтез речи еще лучше

Время на прочтение11 мин
Количество просмотров19K

6cc6e0011d4d26aeded6f052080b1890


Обновление — забыл ссылку на репозиторий и на колаб с примерами.


Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.


Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.


Если коротко:


  • Мы сделали наш вокодер в 4 раза быстрее;
  • Мы сделали пакетирование моделей более удобным;
  • Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
  • Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
  • Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
  • Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
  • Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;
Всего голосов 63: ↑63 и ↓0+63
Комментарии37

Zigbee роутер с WiFi или прокачиваем модуль управления Триколор GS SMH-ZW-I1

Время на прочтение10 мин
Количество просмотров35K

Увлечение Умным домом постепенно захватывает все больше и больше людей, ведь на рынке появляются разнообразные решения, отличающиеся не только ценой, экосистемой и используемыми протоколами, но и возможностью интеграции в Opensource системы УД, такие как HomeAssistant, OpenHAB и так далее и тому подобное.

А те устройства, что не умеют или не хотят интегрироваться никуда кроме родной экосистемы, многочисленные энтузиасты шевелят палочкой дорабатывают с помощью паяльника, программатора и инопланетных технологий полученных из Ноосферы, и все равно интегрируют!

Предлагаю вам, уважаемые читатели Хабра, обратить внимание на модуль управления умным домом Триколор под кодовым названием GS SMH-ZW-I1, и сделать на его основе что нибуть полезное, необычное и практичное.

"Почему именно модуль управления GS SMH-ZW-I1 от компании Триколор?" - спросите вы, и будете правы. Причин, как оказалось, вполне достаточно. Тем, кому стало интересно, прошу проследовать под кат.

Читать далее
Всего голосов 25: ↑25 и ↓0+25
Комментарии27

Как спарсить любой сайт?

Время на прочтение6 мин
Количество просмотров200K

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.

Узнать как
Всего голосов 64: ↑55 и ↓9+60
Комментарии89

Записки архитектора. Чек-лист

Время на прочтение11 мин
Количество просмотров16K

- Составь, пожалуйста, руководство по тому, как делать архитектуру.

С такой просьбой ко мне однажды обратились менеджеры по разработке софта в компании, где я работаю или работал (не хочу раскрывать время и место). И надо сказать, что сначала эта просьба меня здорово озадачила. На тему архитектуры софта написано много книг, и не самых тонких. Мне предлагается написать еще одну? Чем она будет отличаться от существующих? И зачем вообще им это?

Что касается "зачем", то здесь все было понятно. Цель у менеджеров была благая. Проектов в компании обычно больше, чем могут осилить штатные архитекторы. Идея была в том, чтобы архитектуру для небольших проектов делали либо сами менеджеры по разработке, либо старшие разработчики, а архитектор только проверял, направлял и помогал где нужно.

Цель хорошая, запрос хороший. Оставалось только понять, как оказать им конструктивную помощь, а не отправить читать книжки или не засесть писать свою.

В итоге, родилось что-то вроде чек-листа с пояснениями. Список того, что обязательно должно присутствовать в законченной архитектуре проекта. После появления такого чек-листа любой менеджер или старший разработчик, собравшийся самостоятельно поработать над архитектурой, открывал чек-лист, читал, шёл ко мне - задавал вопросы, затем работал над архитектурой, периодически возвращался ко мне посоветоваться, а когда у него все было готово, мы с ним садились и проводили финальный анализ.

Собственно, этот список я здесь и публикую.

Далее...
Всего голосов 22: ↑21 и ↓1+30
Комментарии10

Авто-генерация конфигурационных файлов телефонов Cisco

Время на прочтение6 мин
Количество просмотров11K
Для компаний, использующих телефоны Cisco в среде Asterisk, существует проблема хранения десятков или сотен конфигурационных файлов для каждого телефона. На волне необходимости обновления 30 телефонов (частично по прошивкам, частично по настройкам) я решил предложить технологию автоматической генерации конфигурационных файлов.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии16

Транспортный агент MS Exchange для защиты от вирусов и нежелательной почты

Время на прочтение4 мин
Количество просмотров5.7K

Exchange довольно мощный и популярный почтовый сервер в мире энтерпрайза. Против угроз малварей и фишинга он имеет как встроенные механизмы защиты, так и возможность использования сторонних продуктов. Но в реальности этих возможностей не всегда достаточно для отлова всех вредоносных писем: малвари проходят пользователям до того, как попадут в антивирусные базы, а URL-адреса в репутационные списки, поэтому мы разработали инструмент, помогающий бороться с различными угрозами, приходящими к нам по почте.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии6

Трансляция h264 видео без перекодирования и задержки

Время на прочтение10 мин
Количество просмотров47K
Не секрет, что при управлении летательными аппаратами часто используется передача видео с самого аппарата на землю. Обычно такую возможность предоставляют производители самих БПЛА. Однако что же делать, если дрон собран своими руками?

Перед нами и нашими швейцарскими партнёрами из компании Helvetis встала задача транслировать видео в режиме реального времени с web-камеры с маломощного embedded-устройства на дроне по WiFi на Windows-планшет. В идеале бы нам хотелось:

  • задержку < 0.3с;
  • низкую загрузку CPU на embedded-системе (меньше 10% на одно ядро);
  • разрешение хотя бы 480p (лучше 720p).

Казалось бы, что может пойти не так?


Читать дальше →
Всего голосов 40: ↑40 и ↓0+40
Комментарии37

Применение предобученной модели VGG16 для рекомендаций на основе изображений товаров

Время на прочтение9 мин
Количество просмотров10K

Сегодня я хочу рассказать вам о своем опыте использования нейронной сети для поиска похожих товаров для рекомендательной системы интернет-магазина. Говорить буду в основном о технических вещах. Написать эту статью на Хабре решил потому, что когда только начинал делать этот проект, то на Хабре нашел одно подходящее решение, но как оказалось, оно уже было устаревшим и пришлось его модифицировать. А поэтому решил обновить материал для тех, у кого будет потребность в аналогичном решении.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии9

Оценка важности «фичей» для нелинейных моделей

Время на прочтение4 мин
Количество просмотров5.5K

Задачи, которые сегодня решает машинное обучение, зачастую являются комплексными и включают в себя большое количество признаков (фичей). Из-за сложности и многообразия исходных данных применение простых моделей машинного обучения часто не позволяет достигнуть необходимых результатов, поэтому в реальных бизнес-кейсах применяют сложные, нелинейные модели. У таких моделей есть существенный недостаток: из-за их сложности практически невозможно увидеть логику, по которой модель присвоила именно этот класс операции по счету. Особенно большое значение интерпретируемость модели играет, когда результаты ее работы необходимо представить заказчику — он скорее всего захочет узнать, на основе каких критериев принимаются решения для его бизнеса.

В стандартных пакетах для машинного обучения, таких как sklearn, xgboost, lightGBM существуют методы для оценки важности влияния на конечный результат той или иной фичи (параметра). Однако эти метрики важности не дают представление о том, как именно эти признаки влияют на предсказания модели. Например, как время проведенной операции указывает на то, была ли сделка мошеннической? Или как сильно адрес прописки владельца карты смещает предсказание модели? Для ответа на эти вопросы необходимо найти комплексное решение, которое помогло бы повысить интерпретируемость нелинейных моделей. Таким инструментом является библиотека SHAP. В библиотеке SHAP для оценки вклада фичей в итоговое предсказание моделей рассчитываются значения Шэпли. Для оценки важности фичи происходит оценка предсказаний модели, которая была обучена на основе датасета с и без данной фичи.

Рассмотрим работу данной библиотеки на примере определения мошеннических операций. Рассмотрим поля, которые есть в нашей таблице. В таблице содержится 213 столбцов, что довольно много для ручного перебора с помощью метода обучения модели без каждого признака поочередно для выявления важности каждой из фич.

Приведенный ниже код взят с kaggle и доработан для демонстрации функций рассматриваемого инструмента.

Читать далее
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Xiaomi Gateway (eu version — Lumi.gateway.mieu01 ) Hacked

Время на прочтение4 мин
Количество просмотров41K
Xiaomi Zigbee Gateway Hack

В этой статье я хочу поделится с Вами своими наработками и достигнутыми успехами в разборе Xiaomi шлюза (Версия с евровилкой с беру.ру). Расскажу как установить на него альтернативное ПО, как восстанавливать шлюз с затертым софтом и даже оживлять шлюз с затертым u-boot.

---------МНОГО КАРТИНОК-------------


Читать дальше →
Всего голосов 35: ↑34 и ↓1+46
Комментарии30

Сброс блокировки с устройств Teradici PCoIP Zero Client

Время на прочтение5 мин
Количество просмотров6.7K

Нулевые клиенты на базе чипа Tera2321 — это аппаратные устройства, позволяющие получить доступ к виртуальной инфраструктуре рабочих столов (VDI) через протокол PCoIP. Протокол PCoIP, разработанный компанией Teradici, до не давнего времени использовался VMWare как основной способ доступа к виртуальным рабочим местам (VMWare Horizon), сейчас вытесняется новым протоколом Blast Extreme.


Очень часто при покупке нулевых клиентов на вторичном рынке, оказывается, что устройство заблокировано паролем, который можно сбросить только отправив специальный код запроса в техподдержку teradici, которые в свою очередь запросят документы, подтверждающие легитимность покупки устройства.



Читать дальше →
Всего голосов 15: ↑14 и ↓1+19
Комментарии5

BERT, ELMO и Ко в картинках (как в NLP пришло трансферное обучение)

Время на прочтение11 мин
Количество просмотров48K

2018 год стал переломной точкой для развития моделей машинного обучения, направленных на решение задач обработки текста (или, что более корректно, обработки естественного языка (Natural Language Processing, NLP)). Быстро растет концептуальное понимание того, как представлять слова и предложения для наиболее точного извлечения их смысловых значений и отношений между ними. Более того, NLP-сообщество продвигает невероятно мощные инструменты, которые можно бесплатно скачать и использовать в своих моделях и пайплайнах. Эту переломную точку также называют NLP’s ImageNet moment, ссылаясь на тот момент несколько лет назад, когда схожие разработки значительно ускорили развитие машинного обучения в области задач компьютерного зрения.


transformer-ber-ulmfit-elmo


(ULM-FiT не имеет ничего общего с Коржиком, но что-то лучше не пришло в голову)

Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии2

Модерация текста: уроки этикета от Data Scientist’a

Время на прочтение5 мин
Количество просмотров4.1K
Привет, Хабр!

С этой статьи мы начинаем публикацию серии статей про Data Science задачи, которые мы решаем в Центре Развития Финансовых Технологий Россельхозбанка.

В прошлом году Россельхозбанк объявил о создании и развитии экосистемы для предприятий агропромышленного комплекса. Для одной из базовых площадок экосистемы — Своё Фермерство мы решили сделать пару полезных задач, о которых расскажем ниже.


Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии6

Как переписать SQL-запросы на Python с помощью Pandas

Время на прочтение2 мин
Количество просмотров19K
В этой статье June Tao Ching рассказал, как с помощью Pandas добиться на Python такого же результата, как в SQL-запросах. Перед вами — перевод, а оригинал вы можете найти в блоге towardsdatascience.com.

image
Фото с сайта Unsplash. Автор: Hitesh Choudhary

Получение такого же результата на Python, как и при SQL-запросе


Часто при работе над одним проектом нам приходится переключаться между SQL и Python. При этом некоторые из нас знакомы с управлением данными в SQL-запросах, но не на Python, что мешает нашей эффективности и производительности. На самом деле, используя Pandas, можно добиться на Python такого же результата, как в SQL-запросах.
Читать дальше →
Всего голосов 10: ↑7 и ↓3+7
Комментарии18
Я работаю в интернет-магазине Allsoft менеджером по продажам. Если коротко, то мы продаем лицензионное ПО, в основном для бизнеса и частных клиентов в России, Украине, Беларуси и Казахстане. Естественно, так как продажи — онлайн, на время карантина меня перевели на удаленку. Работать с клиентами и вести документацию можно и дома, заниматься уроками с детьми — тоже.
Но это оказалось совсем не просто
Всего голосов 20: ↑12 и ↓8+24
Комментарии43

Как я использую AirDrop вместо Тиндера

Время на прочтение10 мин
Количество просмотров171K


В устройствах Apple есть прекрасная функция Airdrop — она сделана для пересылки данных между устройствами. При этом никакой настройки и предварительного сопряжения устройств не требуется, все работает из коробки в два клика. Для передачи данных используется надстройка над Wi-Fi, и поэтому данные передаются с огромными скоростями. При этом используя некоторые трюки, можно не просто пересылать файлы, но и узнать телефонный номер человека, находящегося с тобой в одном вагоне метро.

Последний год я использую эту функцию для интересных знакомств по пути на работу, в общественном транспорте, в общепитах. В среднем за день у меня получается заводить несколько новых знакомств, и иногда я выхожу из метро в компании нового человека.

Под катом я расскажу за всю хурму.
Компания RUVDS.COM не несёт ответственности за повторение действий описанных в данном материале.
Читать дальше →
Всего голосов 232: ↑218 и ↓14+280
Комментарии174

Личный опыт: как я подавал заявку в реестр отечественного ПО, и обнаружил запрет для всех версий Linux

Время на прочтение6 мин
Количество просмотров85K


Я представитель микробизнеса, который делает софт для коммерческих заказчиков из научной сферы. Карантин и вынужденная самоизоляция 2020 года заставили меня искать заказчиков в госсекторе, а для этого нужно сперва попасть в Реестр отечественного ПО. Чтобы это сделать, нужно оформить заявку по правилам из Постановления Правительства №1236. Решение о включении принимает Минкомсвязи.

Как оказалось на практике, эксперты министерства руководствуются совершенно иным документом — методическими рекомендациями от ЦКИТ, о существовании которого я как разработчик даже и не знал. Этот документ прямо запрещает использовать компоненты софта с GPL- и MPL-лицензиями. Парадокс в том, что под GPL издаются основные компоненты Linux, на базе которых построено как минимум 40 отечественных операционных систем. Получается, все они были внесены с нарушением и согласно п.33 правил из ПП 1236 должны быть немедленно исключены из реестра. Или же «своим» можно, а «чужим» нет? Подробнее под катом.
Читать дальше →
Всего голосов 164: ↑157 и ↓7+204
Комментарии285

Игры с Wifi на ESP32

Время на прочтение6 мин
Количество просмотров22K

image


На мысль сделать карманный инструмент для анализа WiFi сетей меня подтолкнула эта статья.


Спасибо им за идею. Мне как раз было нечем заняться.


Вся работа была выполнена в рамках хобби с целью получения удовольствия и расширения своих знаний в области сетевых технологий. Не торопясь, по 1..4 часа в неделю, с начала этого года.
Прикладное использование не планировал. Т.е. это НЕ инструмент для хакера.


На данный момент весь задуманный функционал работает. Все исходники, полностью готовые для сборки, выложены здесь. Там же инструкция по сборке и пр. В данной заметке я не буду дублировать информацию, выложенную на github. Расскажу только то, что считаю нужным описать отдельно.

Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии7

Настройка окружения в CLI. WSL / Windows Terminal

Время на прочтение17 мин
Количество просмотров84K
Есть люди, которые большинство рабочего времени проводят в консоли, есть те, кто пользуются терминалом при необходимости, запуская что-то по инструкциям. Но я думаю, что каждый айтишник, будь он разработчиком, сисадмином, сетевым инженером, или даже senior yaml developer`ом, пользуется command line interface. Далеко не все задумываются об улучшении рабочего окружения в CLI и повышении продуктивности работы в терминале. Мне хотелось бы поделиться своим опытом настройки окружения для работы с Linux из Windows.



Из статьи вы узнаете, какими средствами и каким терминалом актуально пользоваться в настоящее время для запуска Linux приложений в Windows 10. Речь пойдёт о WSL 2 и Windows Terminal, набирающим всё большую популярность у пользователей, которым для работы нужен Linux. Так как большинство use-case`ов у меня связаны с удалённым подключением через SSH, большая часть информации будет релевантно для случаев удалённых подключений, со всеми особенностями, связанными с этим (пробросом ssh ключей через ssh agent, пробросом X-сервера, управлением подключениями etс).

Внимание! Под катом много картинок и ужатого, но местами объёмного, gif`а, рекомендуется открывать статью при наличии соответствующего доступа к интернету. Заходите под кат, если вам актуален запуск Linux утилит под Windows, оптимизация работы в окружении CLI, или вы просто любите технические тексты и цветные терминалы. Текст я постарался скрасить скринкастами и скриншотами терминала, чтобы было не скучно.
Читать дальше →
Всего голосов 15: ↑14 и ↓1+18
Комментарии33

Быстрый роутинг и NAT в Linux

Время на прочтение6 мин
Количество просмотров50K
По мере исчерпания адресов IPv4, многие операторы связи столкнулись с необходимостью организовывать доступ своих клиентов в сеть с помощью трансляции адресов. В этой статье я расскажу, как можно получить производительность уровня Carrier Grade NAT на commodity серверах.
Читать дальше →
Всего голосов 47: ↑47 и ↓0+47
Комментарии33

Информация

В рейтинге
Не участвует
Откуда
Казань, Татарстан, Россия
Дата рождения
Зарегистрирован
Активность