Статьи / Закладки / Профиль Gers1972 / Хабр

Владислав @Gers1972

Аналитик данных

Профиль Публикации 4Комментарии 16Закладки 1.1K

snakers4 6 июн 2022 в 20:35

Теперь наш синтез на 20 языках

7 мин

12K

DIY или Сделай самNatural Language Processing*Голосовые интерфейсы*ЗвукМашинное обучение*

Победитель Технотекст 2022

hero_image

В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.

В этот раз мы добавили:

1 высококачественный голос на русском языке (eugeny);
Синтез на 20 языках, 174 голоса;
В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
Также в список языков входят 10 языков народов Индии;
Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+61

Artgor 7 июн 2022 в 17:49

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

19 мин

9.2K

Блог компании MTS AIPython*Машинное обучение*Искусственный интеллектNatural Language Processing*

Технотекст 2022

Привет,

Это статья нашего бывшего коллеги, Андрея Лукьяненко, который работал над проектом по созданию медицинского чат-бота. Андрей покинул нашу компанию по собственному желанию (и с большим сожалением для нас), но несмотря на это, мы решили опубликовать его материал. Мы уверены, что эта статья будет полезна всем, кто работает над созданием специализированных чат-ботов.

Итак, передаем слово Андрею Лукьяненко, бывшему техлиду MTS AI.

В последние годы рынок телемедицины (дистанционных медицинских услуг) и в целом медтеха активно растет, и пандемия коронавируса только ускорила его развитие. Такие технологии востребованы, потому что они относительно дешевы, доступны вне зависимости от места проживания пациента и дают возможность самостоятельно выбирать врачей.

+25

edyanakov 3 июн 2022 в 17:55

Как мы участвовали в чемпионате по DS длиной 3,5 месяца

10 мин

4.2K

Блог компании Альфа-БанкData Mining*Big Data*Машинное обучение*

Из песочницы

В марте 2021 года HeadHunter купил портал Dream Job и позже дополнительно встроил интерфейс оценки работодателя на свой сайт. Видимо, количество отзывов резко увеличилось настолько, что их стало сложно обрабатывать в ручном режиме. В результате, задача модерации отзывов была переведена в термины классификации и организован чемпионат на платформе Boosters для решения этой задачи.

Соревнования по анализу данных, в которых целевую переменную можно разметить ручками, принято проводить в Docker-формате. Однако, соревнование длилось 3,5 месяца и в целях учета интересов как организаторов, так и участников, проходило в 3 этапа. В соревновании участвовала команда лаборатории машинного обучения Альфа-Банка: я, Андрей Сон — специалист по интеллектуальному анализу данных, и Женя Смирнов — руководитель лаборатории.

Мы заняли второе место, чуть не дотянув до первого — разрыв составлял 0.0001 метрики. Дальше подробно расскажем, что происходило на каждом этапе, какие перед нами стояли задачи и как мы их решали.

+21

kucev 1 июн 2022 в 09:18

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision

7 мин

7.4K

Big Data*Data Mining*Машинное обучение*Обработка изображений*

Перевод

Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.

Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.

Читать дальше →

valiotti 2 июн 2022 в 11:09

Анализируем речь с помощью Python: Как и о чем говорят на YouTube-канале «вДудь»?

8 мин

21K

Искусственный интеллектМашинное обучение*Визуализация данных*API*Python*

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

+21

tatvch 30 мая 2022 в 12:45

Анализ аудиоданных (часть 1)

8 мин

23K

Python*Программирование*Визуализация данных*Машинное обучение*Звук

Туториал

Каждый аудиосигнал содержит характеристики. Из MFCC (Мел-кепстральных коэффициентов), Spectral Centroid (Спектрального центроида) и Spectral Rolloff (Спектрального спада) я провела анализ аудиоданных и извлекла характеристики в виде среднего значения, стандартного отклонения и skew (наклон) с помощью библиотеки librosa.

Для классификации “живого” голоса (класс 1) и его отделению от синтетического/конвертированного/перезаписанного голоса (класс 2) я использовала алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов. SVM работает путем сопоставления данных с многомерным пространством функций, чтобы точки данных можно было классифицировать, даже если данные не могут быть линейно разделены иным образом. Для работы я использовала математическую функцию, используемой для преобразования (известна как функция ядра) - RBF (радиальную базисную функцию).

В первой части анализа аудиоданных разберем:

mr-pickles 30 мая 2022 в 13:05

Обучение с подкреплением: неформальное знакомство

6 мин

19K

Блог компании Wunder FundАлгоритмы*Искусственный интеллектМашинное обучение*Программирование*

Перевод

Обучение с подкреплением (Reinforcement learning, RL) сыграло ключевую роль в стремительном развитии технологий искусственного интеллекта, которое можно было наблюдать в последнее десятилетие. В этом материале мы простыми словами расскажем о том, что такое обучение с подкреплением, поговорим о том, почему оно важно не только как объект исследований, но и как инструмент, который находит множество самых разных вариантов практического применения.

+14

kekekeks 27 мая 2022 в 09:41

Ремонт и устранение конструктивных недостатков ноутбука Dell при помощи дрели, метчика, тисков и электролобзика

2 мин

16K

ГаджетыНоутбукиDIY или Сделай сам

Туториал

Началось всё в те самые времена, когда маркетологи решили, что тоньше - значит лучше. И теперь с каждым годом нужно тоньше, ещё тоньше, а то измельчавший народ несчастные три килограмма ноутбука уже поднять не в состоянии. А такие мелочи как охлаждение, устойчивость к механическим нагрузкам и ремонтопригодность, да кому они нужны, пусть потребитель лучше новое устройство покупает.

Вот и при разработке в остальных отношениях хорошего ноутбука Dell Precision 7530 инженеры пошли маркетологам на уступки и не придумали ничего лучше чем сделать крышку ноутбука из пластика и прикрутить винты держащие петли прямо к пластику. Ну точнее как, в пластик запаяли металлическую резьбу, а в неё вкрутили винты. В итоге через некоторое время эксплуатации при очередном открытии крышки резьбу из пластика вырывает с мясом.

Приступить к ремонту

+48

Olga_Mokshina 25 мая 2022 в 12:19

Как начать работать с библиотекой для машинного обучения Metaflow

3 мин

4.8K

Блог компании VKBig Data*Машинное обучение*

Перевод

Metaflow — одна из лучших библиотек для машинного обучения, по мнению автора статьи, которая содержит простые аннотации на Python для создания Reproducible Data Engineering, обучения, валидации моделей и других этапов рабочего процесса. А еще модель позволяет выполнять их в локальной среде или в облаке.

Команда VK Cloud Solutions перевела статью об этом опенсорсном решении, которое используют Netflix и многие другие компании для рабочих процессов в сфере машинного обучения и Data Science.

Читать дальше →

+37

AlexKMK 29 мая 2022 в 12:54

Моя борьба с санкциями или как появился умный VPN

3 мин

75K

Настройка Linux*Сетевые технологии*

Туториал

Зачем людям ранее был нужен VPN (кроме мошенников конечно) - чтоб ходить на Linkedin и обходить всякие разные запреты РКН.

Когда ввели санкции и некоторые сайты перекрасились в сине-желтый цвет, то многие по старой памяти подумали - включим VPN и всё сразу станет как раньше, разве что русские сайты начнут открываться на 50мс медленнее.

Но не тут-то было. Вместе с перекраской сайтов, началась волна DDoS и хакерских атак на различные сервисы в РФ. В итоге, российские сайты закрылись от остального интернета. И с VPN стало очень некомфортно - хочешь пользоваться Terraform или там MatterMost скачать - включаешь VPN и сразу же не можешь сходить ни на Ozon ни на Госуслуги.

Интернет разделился на InnerNet и OuterNet.

+32

130

vlakir 24 мая 2022 в 22:59

Асинхронный python без головной боли (часть 1)

14 мин

301K

Python*Программирование*

Туториал

Почему так сложно понять asyncio?

Асинхронное программирование традиционно относят к темам для "продвинутых". Действительно, у новичков часто возникают сложности с практическим освоением асинхронности.

Но будь я автором самого толстого в мире учебника по python, я бы рассказывал читателям про асинхронное программирование уже с первых страниц. Вот только написали "Hello, world!" и тут же приступили к созданию "Hello, asynchronous world!". А уже потом циклы, условия и все такое.

Съешь красную таблетку

+135

rucola-team 24 мая 2022 в 12:02

Насколько естественен естественный язык? Представляем датасет RuCoLA

7 мин

Исследования и прогнозы в IT*Open source*Natural Language Processing*GitHub*Машинное обучение*

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.

Читать дальше →

+35

Bright_Translate 22 мая 2022 в 13:00

Как ускорить работу в командной оболочке Bash

4 мин

25K

Блог компании RUVDS.com*nix*Настройка Linux*Серверное администрирование*

Туториал

Перевод

Любому начинающему разработчику необходимо научиться пользоваться командной строкой. При этом для выполнения в ней команд требуется оболочка. В статье речь пойдёт об оболочке Bash, которая популярна в UNIX-подобных системах и в большинстве дистрибутивов Linux используется штатно.

Читать дальше →

+65

Metimol 21 мая 2022 в 12:22

Самообучаемый чат-бот python, который умеет искать ответы в Wikipedia

5 мин

45K

Python*API*

Из песочницы

Написание телеграмм бота, обучающегося при общении с Вами и умеющим искать ответы на Ваши вопросы в Википедии.

+16

Assistant_Branch_Manager 23 мая 2022 в 13:55

Как я готовился к собеседованию на позицию Senior ML Engineer

11 мин

14K

IT-эмиграцияМашинное обучение*Карьера в IT-индустрии

Привет, меня зовут Глеб Зарин, я ML-разработчик. Сегодня я расскажу, как я подготовился к собеседованиям на позицию Senior Machine Learning Engineer и получил работу мечты за рубежом.

+15

NewTechAudit 20 мая 2022 в 06:12

PyCUDA или этому коду нужно ускорение

4 мин

7.6K

Python*Программирование*Машинное обучение*

Рассмотрим библиотеку PyCUDA, как альтернативу CUDA для C/C++. Оценим её возможности и проведем сравнение производительности на конкретном примере, а именно реализуем алгоритм Харриса для детекции углов на изображении.

SantrY 17 мая 2022 в 12:01

ML под ударом: противодействие атакам на алгоритмы машинного обучения

7 мин

5.8K

Блог компании БастионИнформационная безопасность*Машинное обучение*Искусственный интеллект

Ежегодно выходят тысячи научных работ об атаках на алгоритмы машинного обучения. Большая часть из них рассказывает о взломе компьютерного зрения, ведь на его примере можно наглядно продемонстрировать последствия атаки. На деле первыми под удар попадают спам-фильтры, классификаторы контента, антивирусные сканеры и системы обнаружения вторжений. Например, достается базе VirusTotal. Туда уже давно пробуют загружать безобидные файлы, которые распознаются, как вредоносные и вызывают цепочки ложных срабатываний.

Среда, в которой выполняются алгоритмы машинного обучения, подвержена большинству стандартных векторов атак, но это еще не все. Подобно тому, как реляционные базы данных привели к появлению SQL-инъекций, а веб-скрипты к XSS, алгоритмы машинного обучения подвержены особым угрозам, от которых плохо помогают стандартные меры защиты.

+16

UtrobinMV 18 мая 2022 в 10:05

Большое сравнение 400 нейронных сетей для задачи классификации на более 8000 классов

7 мин

11K

Python*Data Mining*Машинное обучение*Искусственный интеллектData Engineering*

Думаю, вы знакомы с графиками сравнения точности архитектур. Их применяют в задачах по классификации изображений на ImageNet.

В каждом сравнении которые я мог встретить ранее в Интернете, как правило это было сравнение небольшого количества архитектур нейросетей, произведенными разными командами, и возможно в разных условиях.

Кроме того в последнее время я наблюдаю изменения: появилось большое количество архитектур. Однако их сравнений с ранее созданными архитектурами я не встречал, либо оно было не столь масштабным.

Мне захотелось столкнуть большое количество существующих архитектур для решения одной задачи, при это объективно посмотреть как поведут себя новые архитектуры типа Трансформер, так и ранее созданные архитектуры.

+10

Colindonolwe 19 мая 2022 в 12:43

Практические применения генеративных моделей: как мы делали суммаризатор текстов

9 мин

12K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектPython*Natural Language Processing*

В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики.

Читать дальше →

+14

Analyst_Vladimir 5 мая 2022 в 17:47

Как одолеть вопросы по АБ тестам с собеседований

9 мин

17K

Управление продуктом*ИнтервьюIT-компании

Данная статья продолжение моих "баталий" с HR-ами в январе этого года: погружусь в тему АБ тестов на основе своего опыта прохождения собеседований.

Т.к. данная тема не самая простая для аналитиков, и не только для нас. То давайте начнем с базовых теоретических вопросов, которые спрашивают на собесах - можно использовать данную статью, как гайд для погружения в АБ тесты.

1 2 ...

6 7

9 10 ...

54 55