Comments / Profile of Alexey_mosc / Habr

How to become an author

Алексей @Alexey_mosc

Статистик / DS

ProfileArticles15PostsNewsComments387

Германия — достоинства, недостатки и неповторимое, часть 1

Alexey_mosc Feb 7 2021 at 12:11

Спасибо за статью. А вы можете дать личную субъективную оценку такому факту, что среди всех евро стран Германия почти на последнем месте по доле владения жильем (home ownership) населением, примерно 50%. На самом последнем месте по этому показателю Швейцария. Это прямо так не выгодно, лучше всю жизнь снимать, так думает половина немцев? https://www.bundesbank.de/en/publications/research/research-brief/2020-30-homeownership-822176, https://www.statista.com/statistics/246355/home-ownership-rate-in-europe/

Мне просто интересно как социологу, сам из Москвы, если что.

Собираем нейросети. Классификатор животных из мультфильмов. Без данных и за 5 минут. CLIP: Обучение без Обучения + код

Alexey_mosc Feb 2 2021 at 08:26

Воспроизвел ваш код, спасибо огромное. Есть ощущение, что скорее работает, чем нет на похожих фотографиях про одно событие.

Две разные темы:

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

Alexey_mosc Feb 1 2021 at 08:20

Можно использовать в режиме обучения без обучения (например ViT-B/32 CLIP).

Не могли бы еще раз уточнить, чтобы лучше встало на места? Предобученный contrastive CLIP может давать предсказания (inferences) для новых тэгов, которых не было в обучении, просто потому что векторизация тега будет по размерности встроена в существующее пространство параметров модели? То же, для новых фотографий, и даже пар новое фото — новый тэг? Или новые фото уже не укладываются в схему «обучение без обучения»?

А если набор специфичен, то нужно дообучать линейный слой выходов? Например, www.tassphoto.com/en/feature/337476/video-launching-ceremony-for-russian-navy-patrol-boat-sergei-kotov/page/1

Тут никто, по сути, кроме фото-корреспондента не совсем понимает, что происходит. А это «Спуск на воду нового патрульного катера Сергей Котов». Вряд ли дефолтный CLIP тут что-то даст близкое к истинному происходящему. Верно я понял?

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

Alexey_mosc Feb 1 2021 at 07:45

Туториал тоже нужная вещь. Спасибо!

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

Alexey_mosc Jan 28 2021 at 09:32

Спасибо за статью. А можно вопрос? CLIP доступен уже в предобученном виде на огромном количестве пар фото-текст? Также его можно обучить самому на своей базе размеченных фото?

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Alexey_mosc Aug 25 2020 at 09:09

Очень понравилась статья. Я в ТАСС пока начал испольовать DeepPavlov, но вижу, что Natasha тоже заполнит некоторые моменты.

Есть вопрос применительно к новостям. Хорошо ли справляется выделение ФИО с приведением к норальной форме (именительный падеж)? Столкнулся с тем, что лемматизаторы косячат, не видя, что фамилия — это фамилия. Например, «Песков» будет превращен в «песок» как наиболее вероятная лемма. А сам DeepPavlov NER вроде бы не нормализует их вообще.

Вопрос в том, при выделении ФИО с помощью Natasha NER, там такие кейсы как Эрик Конггорд («конггордый»)-Андерсен, или Елена Верещака («верещак»), или Николай Борцов («борец») не искажаются? Есть ли там база фамилий или умные правила на этот случай?

Уже посмотрел по ссылке стенд NER (https://natasha.github.io/ner/): есть хорошие срабатывания, есть косячки. «Эрик Конггорд-Андерсен». Фамилию через черточку не смог осилить полностью. «Йеспер Фамме». Перепутал местами имя и фамилию. Но с случаем «Дмитрий Песков» работает хорошо. «Джимми Моралеса спросили.» Одинаково неправильно сработал DP NER и Natasha NER:

«first»: «Джимми»,
«last»: «Моралеса»

Но, в целом, кажется, что успешнее, чем «Павлов».

Моя численная проверка гипотезы «Абсолютных курсов»

Alexey_mosc Apr 28 2020 at 12:07

Привет! Перечитывал тут старое. Корреляции могут дать повод для арбитражной торговли, когда приращения разошлись по знаку, если корреляция положительная. Делаются разнонаправленные позиции по обоим (парам) валютам.

Deep Q Trading: объектно-ориентированный код на R

Alexey_mosc Apr 7 2020 at 11:38

Пожалуйста. Он работает, но нужны все последние достижения и экспертное знание. Не просто здесь всё.

Можно ли обучить с подкреплением агента для торговли на рынке акций? Реализация на языке R

Alexey_mosc Mar 26 2020 at 10:16

Немного почитав про RL, можно понять, что специфика такова, что постоянно идет OOS. Нейронка делает предсказания на новых данных, обновляет веса на накопившейся истории. Обучение не останавливается, хотя можно и остановить, если есть понимание, что это надо делать.

Вокруг data.table

Alexey_mosc Mar 22 2020 at 13:56

Заслуженные лайки. Код обновил.

Вокруг data.table

Alexey_mosc Mar 21 2020 at 15:55

Не пользовался. Ну, если сделать сплит один раз и записать его в колонку, то мое решение на основе r base будет быстрее опубликованного. Но из за превращения в матрицу проигрывает. У вас без этого шага. Вижу отличное решение...

Вокруг data.table

Alexey_mosc Mar 21 2020 at 15:35

Вы верно ухватили смысл. Все так и есть. Рад, что нашли более крутое решение! Завтра попробую его. tstrsplit? Это из библиотеки?

Вокруг data.table

Alexey_mosc Mar 21 2020 at 12:07

Спасибо, что заметили. Обновил код в статье.

microbenchmark({
dt[
, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
]
})

Вокруг data.table

Alexey_mosc Mar 21 2020 at 11:22

Сори, Код не обновил… Скоро обновлю, посмотрите.

Вокруг data.table

Alexey_mosc Mar 20 2020 at 17:41

Пытался найти инфу по связке gc и DT, инфы маловато...

Вокруг data.table

Alexey_mosc Mar 20 2020 at 17:13

Интересно, интересно. Так не делал. Спасибо.

По памяти, да, понял. А вот так: попробуйте профайлер памяти (не времени) Rprof с записью памяти с очень дробным промежутком времени. Там видно, если конечно я ничего не перепутал, запуск gc очень часто.
А gc ведь очищает только точно не нужные участки памяти, например, дататейблы без ссылок на них. И вообще тог работает по своей логике, я ее не особо знаю… Может не удаляются объекты, которые он считает нужными? И может ошибается?

Вокруг data.table

Alexey_mosc Mar 20 2020 at 11:47

Со сборкой мусора — особенно при фрагментации — у R не очень.

Не уверен. Есть обсуждение этого вопроса подетальнее, ссылка на форум или SE?

Еще интересно, возможно ли технически в DT организовать «внутренние» типы данных вроде float8, float16, int8 и т.д. В pandas/numpy это сильно помогает экономить память.

Так как DT это по сути list, она использует аровские типы. Для 64-разрядного интежера я вроде ставил библиотеку, чтобы повысить с 32. Есть и другие трюки, но опять же на аровских типах. В принципе, это наверное вопрос к создателям ДТ, про такие фичи я ничего не слышал, думаю, нет этого.

По сравнению с богатством типов данных в numpy здесь проигрыш явный, да.

Вокруг data.table

Alexey_mosc Mar 20 2020 at 10:35

Добавил в раздел про векторизацию более реальный пример. Там тоже делается векторизация через strsplit, и она реально нужна.

Вокруг data.table

Alexey_mosc Mar 20 2020 at 09:11

Очень часто использую data.table — особенно при больших объемах данных. Есть еще интересный «побочный эффект»:

Интересное замечание! Графики внутри ДТ я не строил, но в остальном полное взаимодействие с окружением, да. Испольвал также set и get внутри ДТ в родительское окружение.

И, если я не ошибаюсь, piping создает копии объектов, поэтому для DT правильнее использовать chaining.

Спасибо, я срочно почитаю про это. Не совсем уверен в ответе.

Оставлю это здесь — ДТ делает всегда копию при фильтрации в i, неважно каким стилем оформления кода это делается. Далее наступает вопрос, как gc работает с этими копиями. Вопрос не тривиальный, возился с проектами, где копии таблиц отжирали 30+ Гб оперативки, после оптимизации снизил до 10 Гб.

Вокруг data.table

Alexey_mosc Mar 20 2020 at 08:56

Да, согласен. ) Но я хотел показать, что когда есть, например, текст из разных слов или стринга с различными значениями, разделенными пробелом, как это дело спарсить. Но для буквы ваш вариант должен быть идеальным. )

3

4 5 ...