Pull to refresh
0
0
Vladimir Grigoryev @redArmadillo

Пользователь

Send message

Пирожки в дистрибутивной семантике

Reading time6 min
Views23K
Уже несколько месяцев с любопытством гляжу в сторону дистрибутивной семантики — познакомился с теорией, узнал про word2vec, нашёл соответствующую библиотеку для Питона (gensim) и даже раздобыл модель лексических векторов, сформированную по национальному корпусу русского языка. Однако для творческого погружения в материал не хватало душезабирающих данных, которые было бы интересно через дистрибутивную семантику покрутить. Одновременно с этим увлечённо почитывал стишки-пирожки (эдакий синтез задиристых частушек и глубокомысленных хокку) — некоторые даже заучивал наизусть и по случаю угощал знакомых. И вот, наконец, увлечённость и любопытство нашли друг друга, породив воодушевляющую идею в ассоциативных глубинах сознания — отчего бы не совместить приятное с полезным и не собрать из подручных средств какой-нибудь «поэтичный» поисковик по базе пирожков.
из ложных умозаключений
мы можем истину сложить
примерно как перемножают
два отрицательных числа
Читать дальше →
Total votes 27: ↑26 and ↓1+25
Comments44

PyCUDA или этому коду нужно ускорение

Reading time4 min
Views7.5K

Рассмотрим библиотеку PyCUDA, как альтернативу CUDA для C/C++. Оценим её возможности и проведем сравнение производительности на конкретном примере, а именно реализуем алгоритм Харриса для детекции углов на изображении.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments3

Снятие защиты Amazon DRM с электронных книг

Reading time1 min
Views45K
Если вы купили много книг для Kindle и хотите защитить их от удаления, то лучше всего сделать резервную копию библиотеки на ПК, сняв защиту DRM с самих файлов, так что их можно будет конвертировать в любой формат и читать с любого устройства.

В случае с Amazon DRM для этого понадобятся:

  1. Calibre.
  2. Kindle for PC.
  3. Плагин K4MobiDeDRM для Calibre, из комплекта DRM Removal Tools.
Читать дальше →
Total votes 28: ↑24 and ↓4+20
Comments17

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

Reading time8 min
Views9.8K

Всем привет! Меня зовут Илья Козиев, я работаю в Управлении экспериментальных систем машинного обучения SberDevices над вопросами генерации текстового контента. В этой статье я хочу представить эффективный способ решения такой интересной задачи, как генерация стихов, с помощью одной из самых современных нейросетевых архитектур — GPT-3. Я подробно распишу все необходимые шаги на пути к получению стихов примерно вот такого уровня:

Я оставляю брошенные фразы
Иного смеха, слабости и слёз
Я превращаюсь в голубые стразы
Кружась ветвями молодых берёз

Читать далее
Total votes 20: ↑19 and ↓1+27
Comments18

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Reading time8 min
Views50K

hero_image


В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.


Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:


  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Total votes 130: ↑129 and ↓1+156
Comments100

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

Reading time4 min
Views3.9K

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments0

8 ошибок, из-за которых ты проиграешь в соревновательном Data Science

Reading time8 min
Views16K

Привет, чемпион!

Если ты читаешь этот пост, значит, тебе стало интересно, не допускаешь ли этих ошибок ты?! Почти уверен, что ты допускал эти ошибки хотя бы раз в жизни. Мы не застрахованы от совершения ошибок, такова наша человеческая натура — ошибаться для нас естественно. Однако, я постараюсь уберечь тебя от тех ошибок, которые совершал сам или замечал у других.

Так вышло, что за время участия в чемпионатах по соревновательному анализу данных я достаточно часто бывал в призовых местах. Однако, бывали случаи, когда я лишался призовых по глупости или неосторожности. Рассказываю по порядку.
Читать дальше →
Total votes 42: ↑40 and ↓2+55
Comments10

Как сделать интерактивную карту с маршрутами на Python

Reading time7 min
Views31K

Распространённая задача программистов в работе с геопространственными данными — отобразить маршруты между различными точками. Решением, которое может понадобиться в разработке веб-сайта, делимся к старту курса по Fullstack-разработке на Python.

Читать далее
Total votes 11: ↑10 and ↓1+10
Comments5

Поиск контуров лица за одну миллисекунду с помощью ансамбля деревьев регрессии

Reading time18 min
Views6.7K


Перевод статьи подготовлен для студентов курса «Математика для Data Science»




Аннотация


В этой статье рассматривается задача поиска контуров лица для одного изображения. Мы покажем, как ансамбль деревьев регрессии можно использовать для прогнозирования положения контуров лица непосредственно по рассеянному подмножеству интенсивностей пикселей, достигая супер-производительности в режиме реального времени с предсказаниями высокого качества. Мы представляем общую структуру, основанную на градиентном бустинге, для изучения ансамбля деревьев регрессии, который оптимизирует сумму квадратичных потерь и, естественно, обрабатывает отсутствующие или частично помеченные данные. Мы покажем, как использование соответствующих распределений, учитывающих структуру данных изображения, помогает в эффективном выборе контуров. Также исследуются различные стратегии регуляризации и их важность для борьбы с переобучением. Кроме того, мы анализируем влияние количества обучающих данных на точность прогнозов и исследуем эффект увеличения данных с использованием синтезированных данных.

Читать дальше →
Total votes 21: ↑18 and ↓3+15
Comments0

Управляем генерацией ruGPT-3: библиотека ruPrompts

Reading time7 min
Views13K

Наше семейство моделей ruGPT-3 уже нашло множество применений у сообщества: кто-то генерирует гороскопы, кто-то — факты о лягушках, статьи нейроуголовного кодекса, нейроновости и прочее. Модели накопили в себе массу знаний о нашем мире и способны подстроиться практически под любую задачу. Тем не менее, в данный момент подобная подгонка (fine-tuning) часто требует значительных вычислительных затрат, что не всегда позволяет использовать достаточно большие модели. В этом посте мы предлагаем сообществу новый инструмент для того, чтобы дообучать ruGPT-3 под свои нужды и делиться своими результатами с другими.

Читать далее
Total votes 17: ↑16 and ↓1+22
Comments13

GPT-2 в картинках (визуализация языковых моделей Трансформера)

Reading time18 min
Views31K

openAI-GPT-2-3


В 2019 году мы стали свидетелями блистательного использования машинного обучения. Модель GPT-2 от OpenAI продемонстрировала впечатляющую способность писать связные и эмоциональные тексты, превосходящие наши представления о том, что могут генерировать современные языковые модели. GPT-2 не является какой-то особенно новой архитектурой – она очень напоминает Трансформер-Декодер (decoder-only Transformer). Отличие GPT-2 в том, что это поистине громадная языковая модель на основе Трансформера, обученная на внушительном наборе данных. В этой статье мы посмотрим на архитектуру модели, позволяющую добиться таких результатов: подробно рассмотрим слой внутреннего внимания (self-attention layer) и применение декодирующего Трансформера для задач, выходящих за рамки языкового моделирования.

Читать дальше →
Total votes 9: ↑9 and ↓0+9
Comments2

Географический Арбитраж: лучшие страны для удалённой работы + мой топ локаций

Reading time9 min
Views30K

Сегодня я хочу поделиться небольшим количеством локаций в Азии, Европе и Латинской Америке, которые я рассматриваю в качестве потенциальных мест проживания для себя и своей семьи, рассказать о плюсах каждой из них. В первую очередь я буду обращать внимание на визовые и налоговые особенности т. к. все остальное очень индивидуально. Это далеко не исчерпывающий список интересных локаций!

Текст будет щедро усыпан ссылками на сторонние ресурсы, при желании читатель может продолжить самостоятельное исследование заинтересовавшей его локации.

В конце статьи делюсь своим личный рейтингом городов для релокации!

Завести трактор!
Total votes 32: ↑29 and ↓3+33
Comments113

Переезд в Португалию: Лиссабон как локация для удалённой работы

Reading time7 min
Views48K

В конце прошлого года я вместе с семьей переехал в Лиссабон, до этого много раз бывал наездами т. к. моя супруга тут выросла и у нас здесь много родственников и друзей. Я хотел бы поделиться своими мыслями о том насколько Лиссабон в частности, и Португалия в целом является интересной локацией для жизни на дистанционный доход. Я хочу сразу подчеркнуть, что речь пойдет именно о жизни на дистанционный доход, а не традиционную иммиграцию с поиском работы по приезду. По поводу последнего... не уверен в том, что Португалия это та страна куда стоит ехать за карьерой, заработком и т. д.

Я расскажу о том, что знаю о Португалии с точки зрения шести пунктов ниже. Когда я задумываюсь о нашем следующем переезде я всегда оцениваю новую локацию именно по этим пунктам:

 ·         Климат

·         Безопасность

·         Образование для детей

·         Стоимость жизни

·         Виза

·         Стиль/качество жизни

Поехали!
Total votes 37: ↑32 and ↓5+35
Comments79

Предсказание траектории летящего объекта

Reading time4 min
Views6.7K

В этой статье мы обсудим решение задачи предсказания координат летящего объекта. Представим, что вы хотите сделать ПВО против комаров. Зная координаты комара на нескольких кадрах видео, надо сказать, где он окажется на следующем кадре.
Или, скажем, вы пишите AI для браузерной игрушки и надо предсказывать, где игрок будет через секунду, чтобы стрелять с реалистичным упреждением.


Можно построить сложную модель учитывающую ветер, инерцию и всю физику объекта, а можно просто покидать данные в нейросетку и получить вполне сносный результат, который, оказывается, одинаково хорошо работает и для отслеживания комаров, дронов, птиц, самолётов и других активно маневрирующих объектов. Так вот, эта статья про моделирование полёта через нейросети для ленивых.

Читать дальше →
Total votes 18: ↑16 and ↓2+18
Comments24

Выбираем инструмент для разметки текста (и не только!)

Reading time16 min
Views9.1K

Рано или поздно перед любой компанией которая хочет внедрить системы машинного обучения в свою инфрастуктуру встает вопрос разметки данных. Чистые данные в достаточно большом количестве - залог хорошей модели, все мы прекрасно знаем правило "Garbage in - garbage out". Такой вопрос недавно встал и передо мной. В этом посте я поделюсь своим опытом поиска инструментов для разметки текста и звука под in-house разметчиков, постараюсь описать их плюсы и минусы, а в конце расскажу на чем мы в итоге остановились и что из этого вышло. Задачи на данном этапе относительно стандартные для NLP: классификация, NER, потенциально также может понадобиться entity-linking и разметка аудио под задачи ASR, но это пока менее приоритетно. Инструмент в идеале нужен open-source, но если будет приемлимый ценник за какие-то нужные фичи - мы готовы заплатить.

Заранее скажу, что этот пост никем не спонсировался, а все написанное ниже является сугубым ИМХО. Также имейте ввиду, что впечатления об использовании различных инструментов были составлены на момент написания статьи - осень-зима 2021-го года. Если вы смотрите на эти инструменты сильно позднее - возможно, информация будет уже не актуальной. Ну а теперь, поехали!

Читать далее
Total votes 34: ↑34 and ↓0+34
Comments8

Как мы распознаем фото документов пользователей. Часть I

Reading time7 min
Views13K

Привет, Хабр! Я Илья, Junior Data Scientist в inDriver. В работе нам часто приходится распознавать документы водителей или пассажиров для их верификации в приложении. Наша команда выработала свой подход к идентификации текста и фото документов, которым мы хотели бы поделиться. Ждем вас под катом. Приятного чтения!

Читать далее
Total votes 16: ↑15 and ↓1+18
Comments10

Своя персональная «стена огня»: firewall против комаров

Reading time6 min
Views15K

Далеко позади остались тёплые летние деньки, и настало самое время поговорить о том, как подготовиться к следующему лету. Во многих регионах тёплый летний период существенно омрачается наличием летающих кровососущих насекомых. В некоторых регионах эта проблема стоит настолько остро, что зачастую не видно даже неба под облаком гнуса.

С переменным успехом с этой проблемой пытаются бороться с помощью применения разнообразных спреев и антикомариных средств. Но не всегда это приносит желаемый результат. Проблема ещё существенно осложняется тем, что многие виды комаров являются переносчиками инфекционных и паразитарных болезней. Попробуем прикинуть, как с помощью технических средств можно было бы решить этот вопрос!

Читать дальше →
Total votes 31: ↑26 and ↓5+33
Comments31

Information

Rating
Does not participate
Location
Тула, Тульская обл., Россия
Date of birth
Registered
Activity