Vladimir Grigoryev @redArmadillo

Пользователь

Profile Publications Comments 10Bookmarks 41

drafterleo Jan 26 2016 at 13:13

Пирожки в дистрибутивной семантике

6 min

23K

Python*Semantics*

From sandbox

Уже несколько месяцев с любопытством гляжу в сторону дистрибутивной семантики — познакомился с теорией, узнал про word2vec, нашёл соответствующую библиотеку для Питона (gensim) и даже раздобыл модель лексических векторов, сформированную по национальному корпусу русского языка. Однако для творческого погружения в материал не хватало душезабирающих данных, которые было бы интересно через дистрибутивную семантику покрутить. Одновременно с этим увлечённо почитывал стишки-пирожки (эдакий синтез задиристых частушек и глубокомысленных хокку) — некоторые даже заучивал наизусть и по случаю угощал знакомых. И вот, наконец, увлечённость и любопытство нашли друг друга, породив воодушевляющую идею в ассоциативных глубинах сознания — отчего бы не совместить приятное с полезным и не собрать из подручных средств какой-нибудь «поэтичный» поисковик по базе пирожков.

из ложных умозаключений
мы можем истину сложить
примерно как перемножают
два отрицательных числа

Читать дальше →

+25

NewTechAudit May 20 2022 at 06:12

PyCUDA или этому коду нужно ускорение

4 min

7.5K

Python*Programming*Machine learning*

Рассмотрим библиотеку PyCUDA, как альтернативу CUDA для C/C++. Оценим её возможности и проведем сравнение производительности на конкретном примере, а именно реализуем алгоритм Харриса для детекции углов на изображении.

alizar Oct 24 2012 at 00:49

Снятие защиты Amazon DRM с электронных книг

1 min

45K

GadgetsSoftware

Tutorial

Если вы купили много книг для Kindle и хотите защитить их от удаления, то лучше всего сделать резервную копию библиотеки на ПК, сняв защиту DRM с самих файлов, так что их можно будет конвертировать в любой формат и читать с любого устройства.

В случае с Amazon DRM для этого понадобятся:

Calibre.
Kindle for PC.
Плагин K4MobiDeDRM для Calibre, из комплекта DRM Removal Tools.

Читать дальше →

+20

inkoziev Apr 14 2022 at 12:07

Как генерировать стихи с помощью силлабо-тонической трансформенной языковой модели (часть первая)

8 min

9.8K

Machine learning*Artificial IntelligenceNatural Language Processing*SberDevices corporate blog

Всем привет! Меня зовут Илья Козиев, я работаю в Управлении экспериментальных систем машинного обучения SberDevices над вопросами генерации текстового контента. В этой статье я хочу представить эффективный способ решения такой интересной задачи, как генерация стихов, с помощью одной из самых современных нейросетевых архитектур — GPT-3. Я подробно распишу все необходимые шаги на пути к получению стихов примерно вот такого уровня:

Я оставляю брошенные фразы
Иного смеха, слабости и слёз
Я превращаюсь в голубые стразы
Кружась ветвями молодых берёз

+27

snakers4 Apr 12 2022 at 20:58

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

8 min

50K

Machine learning*DIYSoundNatural Language Processing*Voice user interfaces*

hero_image

В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

Снизили размер модели в 2 раза;
Научили наши модели делать паузы;
Добавили один высококачественный голос (и бесконечное число случайных);
Ускорили наши модели где-то примерно в 10 раз (!);
Упаковали всех спикеров одного языка в одну модель;
Наши модели теперь могут принимать на вход даже целые абзацы текста;
Добавили функции контроля скорости и высоты речи через SSML;
Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+156

100

NewTechAudit Apr 12 2022 at 06:00

Обучаем модель W2NER для поиска именованных сущностей в текстах на русском языке

4 min

3.9K

Python*Programming*Machine learning*Natural Language Processing*

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком.

Aleron75 Apr 5 2022 at 12:00

8 ошибок, из-за которых ты проиграешь в соревновательном Data Science

8 min

16K

Algorithms*Machine learning*RUVDS.com corporate blogData Engineering*

Привет, чемпион!

Если ты читаешь этот пост, значит, тебе стало интересно, не допускаешь ли этих ошибок ты?! Почти уверен, что ты допускал эти ошибки хотя бы раз в жизни. Мы не застрахованы от совершения ошибок, такова наша человеческая натура — ошибаться для нас естественно. Однако, я постараюсь уберечь тебя от тех ошибок, которые совершал сам или замечал у других.

Так вышло, что за время участия в чемпионатах по соревновательному анализу данных я достаточно часто бывал в призовых местах. Однако, бывали случаи, когда я лишался призовых по глупости или неосторожности. Рассказываю по порядку.

Читать дальше →

+55

honyaki Mar 4 2022 at 16:15

Как сделать интерактивную карту с маршрутами на Python

7 min

31K

Python*Programming*Geoinformation services*Skillfactory corporate blog

Tutorial

Translation

Распространённая задача программистов в работе с геопространственными данными — отобразить маршруты между различными точками. Решением, которое может понадобиться в разработке веб-сайта, делимся к старту курса по Fullstack-разработке на Python.

+10

alexwortega Feb 21 2022 at 09:03

Учим гипермодальный трансформер предсказывать калорийность борща

7 min

3.9K

Python*Machine learning*

Tutorial

Сегодня мы обучим мультимодальный трансформер предсказывать калорийность блюд

NewTechAudit Feb 9 2022 at 14:39

NEO4J – графовые базы данных

9 min

41K

Python*Programming*Data visualization*

В данной статье будет рассмотрена графовая система управления базами данных в Neo4j, а именно:

vlstrochkov Jul 22 2019 at 08:38

Поиск контуров лица за одну миллисекунду с помощью ансамбля деревьев регрессии

18 min

6.7K

Big Data*Mathematics*Machine learning*OTUS corporate blog

Translation

Перевод статьи подготовлен для студентов курса «Математика для Data Science»

Аннотация

В этой статье рассматривается задача поиска контуров лица для одного изображения. Мы покажем, как ансамбль деревьев регрессии можно использовать для прогнозирования положения контуров лица непосредственно по рассеянному подмножеству интенсивностей пикселей, достигая супер-производительности в режиме реального времени с предсказаниями высокого качества. Мы представляем общую структуру, основанную на градиентном бустинге, для изучения ансамбля деревьев регрессии, который оптимизирует сумму квадратичных потерь и, естественно, обрабатывает отсутствующие или частично помеченные данные. Мы покажем, как использование соответствующих распределений, учитывающих структуру данных изображения, помогает в эффективном выборе контуров. Также исследуются различные стратегии регуляризации и их важность для борьбы с переобучением. Кроме того, мы анализируем влияние количества обучающих данных на точность прогнозов и исследуем эффект увеличения данных с использованием синтезированных данных.

Читать дальше →

+15

axelthepop Feb 1 2022 at 10:19

Python и Samila. Делаем красиво

3 min

10K

Python*Image processing*

Как при помощи языка программирования Пайтон и библиотеки Samila создавать красивые изображения, даже с минимальными усилиями.

+18

konodyuk Dec 17 2021 at 10:00

Управляем генерацией ruGPT-3: библиотека ruPrompts

7 min

13K

Python*Machine learning*Artificial IntelligenceNatural Language Processing*SberDevices corporate blog

Наше семейство моделей ruGPT-3 уже нашло множество применений у сообщества: кто-то генерирует гороскопы, кто-то — факты о лягушках, статьи нейроуголовного кодекса, нейроновости и прочее. Модели накопили в себе массу знаний о нашем мире и способны подстроиться практически под любую задачу. Тем не менее, в данный момент подобная подгонка (fine-tuning) часто требует значительных вычислительных затрат, что не всегда позволяет использовать достаточно большие модели. В этом посте мы предлагаем сообществу новый инструмент для того, чтобы дообучать ruGPT-3 под свои нужды и делиться своими результатами с другими.

+22

Kouki_RUS Apr 20 2020 at 15:04

GPT-2 в картинках (визуализация языковых моделей Трансформера)

18 min

31K

Machine learning*

Translation

openAI-GPT-2-3

В 2019 году мы стали свидетелями блистательного использования машинного обучения. Модель GPT-2 от OpenAI продемонстрировала впечатляющую способность писать связные и эмоциональные тексты, превосходящие наши представления о том, что могут генерировать современные языковые модели. GPT-2 не является какой-то особенно новой архитектурой – она очень напоминает Трансформер-Декодер (decoder-only Transformer). Отличие GPT-2 в том, что это поистине громадная языковая модель на основе Трансформера, обученная на внушительном наборе данных. В этой статье мы посмотрим на архитектуру модели, позволяющую добиться таких результатов: подробно рассмотрим слой внутреннего внимания (self-attention layer) и применение декодирующего Трансформера для задач, выходящих за рамки языкового моделирования.

Читать дальше →

krumpans Jan 12 2022 at 13:25

Географический Арбитраж: лучшие страны для удалённой работы + мой топ локаций

9 min

30K

FreelanceIT-emigrationFinance in ITLifehacks for geeksRemote work

Сегодня я хочу поделиться небольшим количеством локаций в Азии, Европе и Латинской Америке, которые я рассматриваю в качестве потенциальных мест проживания для себя и своей семьи, рассказать о плюсах каждой из них. В первую очередь я буду обращать внимание на визовые и налоговые особенности т. к. все остальное очень индивидуально. Это далеко не исчерпывающий список интересных локаций!

Текст будет щедро усыпан ссылками на сторонние ресурсы, при желании читатель может продолжить самостоятельное исследование заинтересовавшей его локации.

В конце статьи делюсь своим личный рейтингом городов для релокации!

Завести трактор!

+33

113

krumpans Dec 31 2021 at 03:48

Переезд в Португалию: Лиссабон как локация для удалённой работы

7 min

48K

FreelanceFinance in ITLifehacks for geeksUrbanismRemote work

В конце прошлого года я вместе с семьей переехал в Лиссабон, до этого много раз бывал наездами т. к. моя супруга тут выросла и у нас здесь много родственников и друзей. Я хотел бы поделиться своими мыслями о том насколько Лиссабон в частности, и Португалия в целом является интересной локацией для жизни на дистанционный доход. Я хочу сразу подчеркнуть, что речь пойдет именно о жизни на дистанционный доход, а не традиционную иммиграцию с поиском работы по приезду. По поводу последнего... не уверен в том, что Португалия это та страна куда стоит ехать за карьерой, заработком и т. д.

Я расскажу о том, что знаю о Португалии с точки зрения шести пунктов ниже. Когда я задумываюсь о нашем следующем переезде я всегда оцениваю новую локацию именно по этим пунктам:

· Климат

· Безопасность

· Образование для детей

· Стоимость жизни

· Виза

· Стиль/качество жизни

Поехали!

+35

Aspos Dec 30 2021 at 06:41

Предсказание траектории летящего объекта

4 min

6.7K

Game development*Machine learning*IOT

В этой статье мы обсудим решение задачи предсказания координат летящего объекта. Представим, что вы хотите сделать ПВО против комаров. Зная координаты комара на нескольких кадрах видео, надо сказать, где он окажется на следующем кадре.
Или, скажем, вы пишите AI для браузерной игрушки и надо предсказывать, где игрок будет через секунду, чтобы стрелять с реалистичным упреждением.

Можно построить сложную модель учитывающую ветер, инерцию и всю физику объекта, а можно просто покидать данные в нейросетку и получить вполне сносный результат, который, оказывается, одинаково хорошо работает и для отслеживания комаров, дронов, птиц, самолётов и других активно маневрирующих объектов. Так вот, эта статья про моделирование полёта через нейросети для ленивых.

Читать дальше →

+18

Overclocked1827 Dec 23 2021 at 14:14

Выбираем инструмент для разметки текста (и не только!)

16 min

9.1K

Open source*Data Mining*Machine learning*Open Data Science corporate blogArtificial Intelligence

Рано или поздно перед любой компанией которая хочет внедрить системы машинного обучения в свою инфрастуктуру встает вопрос разметки данных. Чистые данные в достаточно большом количестве - залог хорошей модели, все мы прекрасно знаем правило "Garbage in - garbage out". Такой вопрос недавно встал и передо мной. В этом посте я поделюсь своим опытом поиска инструментов для разметки текста и звука под in-house разметчиков, постараюсь описать их плюсы и минусы, а в конце расскажу на чем мы в итоге остановились и что из этого вышло. Задачи на данном этапе относительно стандартные для NLP: классификация, NER, потенциально также может понадобиться entity-linking и разметка аудио под задачи ASR, но это пока менее приоритетно. Инструмент в идеале нужен open-source, но если будет приемлимый ценник за какие-то нужные фичи - мы готовы заплатить.

Заранее скажу, что этот пост никем не спонсировался, а все написанное ниже является сугубым ИМХО. Также имейте ввиду, что впечатления об использовании различных инструментов были составлены на момент написания статьи - осень-зима 2021-го года. Если вы смотрите на эти инструменты сильно позднее - возможно, информация будет уже не актуальной. Ну а теперь, поехали!

+34

ilgrad Dec 22 2021 at 14:15

Как мы распознаем фото документов пользователей. Часть I

7 min

13K

Python*Image processing*Machine learning*inDrive.Tech corporate blog

Привет, Хабр! Я Илья, Junior Data Scientist в inDriver. В работе нам часто приходится распознавать документы водителей или пассажиров для их верификации в приложении. Наша команда выработала свой подход к идентификации текста и фото документов, которым мы хотели бы поделиться. Ждем вас под катом. Приятного чтения!

+18

DAN_SEA Dec 20 2021 at 12:00

Своя персональная «стена огня»: firewall против комаров

6 min

15K

RUVDS.com corporate blogReading roomPhysicsDIYLazers

Далеко позади остались тёплые летние деньки, и настало самое время поговорить о том, как подготовиться к следующему лету. Во многих регионах тёплый летний период существенно омрачается наличием летающих кровососущих насекомых. В некоторых регионах эта проблема стоит настолько остро, что зачастую не видно даже неба под облаком гнуса.

С переменным успехом с этой проблемой пытаются бороться с помощью применения разнообразных спреев и антикомариных средств. Но не всегда это приносит желаемый результат. Проблема ещё существенно осложняется тем, что многие виды комаров являются переносчиками инфекционных и паразитарных болезней. Попробуем прикинуть, как с помощью технических средств можно было бы решить этот вопрос!

Читать дальше →

+33

2 3