Pull to refresh
12
0
Алексей @Alexey_mosc

Статистик / DS

Send message

Спасибо за статью. А вы можете дать личную субъективную оценку такому факту, что среди всех евро стран Германия почти на последнем месте по доле владения жильем (home ownership) населением, примерно 50%. На самом последнем месте по этому показателю Швейцария. Это прямо так не выгодно, лучше всю жизнь снимать, так думает половина немцев? https://www.bundesbank.de/en/publications/research/research-brief/2020-30-homeownership-822176, https://www.statista.com/statistics/246355/home-ownership-rate-in-europe/


Мне просто интересно как социологу, сам из Москвы, если что.

Воспроизвел ваш код, спасибо огромное. Есть ощущение, что скорее работает, чем нет на похожих фотографиях про одно событие.



Две разные темы:

Можно использовать в режиме обучения без обучения (например ViT-B/32 CLIP).


Не могли бы еще раз уточнить, чтобы лучше встало на места? Предобученный contrastive CLIP может давать предсказания (inferences) для новых тэгов, которых не было в обучении, просто потому что векторизация тега будет по размерности встроена в существующее пространство параметров модели? То же, для новых фотографий, и даже пар новое фото — новый тэг? Или новые фото уже не укладываются в схему «обучение без обучения»?

А если набор специфичен, то нужно дообучать линейный слой выходов? Например, www.tassphoto.com/en/feature/337476/video-launching-ceremony-for-russian-navy-patrol-boat-sergei-kotov/page/1

Тут никто, по сути, кроме фото-корреспондента не совсем понимает, что происходит. А это «Спуск на воду нового патрульного катера Сергей Котов». Вряд ли дефолтный CLIP тут что-то даст близкое к истинному происходящему. Верно я понял?
Спасибо за статью. А можно вопрос? CLIP доступен уже в предобученном виде на огромном количестве пар фото-текст? Также его можно обучить самому на своей базе размеченных фото?
Очень понравилась статья. Я в ТАСС пока начал испольовать DeepPavlov, но вижу, что Natasha тоже заполнит некоторые моменты.

Есть вопрос применительно к новостям. Хорошо ли справляется выделение ФИО с приведением к норальной форме (именительный падеж)? Столкнулся с тем, что лемматизаторы косячат, не видя, что фамилия — это фамилия. Например, «Песков» будет превращен в «песок» как наиболее вероятная лемма. А сам DeepPavlov NER вроде бы не нормализует их вообще.

Вопрос в том, при выделении ФИО с помощью Natasha NER, там такие кейсы как Эрик Конггорд («конггордый»)-Андерсен, или Елена Верещака («верещак»), или Николай Борцов («борец») не искажаются? Есть ли там база фамилий или умные правила на этот случай?

Уже посмотрел по ссылке стенд NER (https://natasha.github.io/ner/): есть хорошие срабатывания, есть косячки. «Эрик Конггорд-Андерсен». Фамилию через черточку не смог осилить полностью. «Йеспер Фамме». Перепутал местами имя и фамилию. Но с случаем «Дмитрий Песков» работает хорошо. «Джимми Моралеса спросили.» Одинаково неправильно сработал DP NER и Natasha NER:
«first»: «Джимми»,
«last»: «Моралеса»


Но, в целом, кажется, что успешнее, чем «Павлов».

Привет! Перечитывал тут старое. Корреляции могут дать повод для арбитражной торговли, когда приращения разошлись по знаку, если корреляция положительная. Делаются разнонаправленные позиции по обоим (парам) валютам.

Пожалуйста. Он работает, но нужны все последние достижения и экспертное знание. Не просто здесь всё.

Немного почитав про RL, можно понять, что специфика такова, что постоянно идет OOS. Нейронка делает предсказания на новых данных, обновляет веса на накопившейся истории. Обучение не останавливается, хотя можно и остановить, если есть понимание, что это надо делать.
Заслуженные лайки. Код обновил.

Не пользовался. Ну, если сделать сплит один раз и записать его в колонку, то мое решение на основе r base будет быстрее опубликованного. Но из за превращения в матрицу проигрывает. У вас без этого шага. Вижу отличное решение...

Вы верно ухватили смысл. Все так и есть. Рад, что нашли более крутое решение! Завтра попробую его. tstrsplit? Это из библиотеки?

Спасибо, что заметили. Обновил код в статье.

microbenchmark({
dt[
, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
]
})

Сори, Код не обновил… Скоро обновлю, посмотрите.

Пытался найти инфу по связке gc и DT, инфы маловато...

Интересно, интересно. Так не делал. Спасибо.


По памяти, да, понял. А вот так: попробуйте профайлер памяти (не времени) Rprof с записью памяти с очень дробным промежутком времени. Там видно, если конечно я ничего не перепутал, запуск gc очень часто.
А gc ведь очищает только точно не нужные участки памяти, например, дататейблы без ссылок на них. И вообще тог работает по своей логике, я ее не особо знаю… Может не удаляются объекты, которые он считает нужными? И может ошибается?

Со сборкой мусора — особенно при фрагментации — у R не очень.


Не уверен. Есть обсуждение этого вопроса подетальнее, ссылка на форум или SE?

Еще интересно, возможно ли технически в DT организовать «внутренние» типы данных вроде float8, float16, int8 и т.д. В pandas/numpy это сильно помогает экономить память.


Так как DT это по сути list, она использует аровские типы. Для 64-разрядного интежера я вроде ставил библиотеку, чтобы повысить с 32. Есть и другие трюки, но опять же на аровских типах. В принципе, это наверное вопрос к создателям ДТ, про такие фичи я ничего не слышал, думаю, нет этого.

По сравнению с богатством типов данных в numpy здесь проигрыш явный, да.
Добавил в раздел про векторизацию более реальный пример. Там тоже делается векторизация через strsplit, и она реально нужна.
Очень часто использую data.table — особенно при больших объемах данных. Есть еще интересный «побочный эффект»:


Интересное замечание! Графики внутри ДТ я не строил, но в остальном полное взаимодействие с окружением, да. Испольвал также set и get внутри ДТ в родительское окружение.

И, если я не ошибаюсь, piping создает копии объектов, поэтому для DT правильнее использовать chaining.


Спасибо, я срочно почитаю про это. Не совсем уверен в ответе.

Оставлю это здесь — ДТ делает всегда копию при фильтрации в i, неважно каким стилем оформления кода это делается. Далее наступает вопрос, как gc работает с этими копиями. Вопрос не тривиальный, возился с проектами, где копии таблиц отжирали 30+ Гб оперативки, после оптимизации снизил до 10 Гб.
Да, согласен. ) Но я хотел показать, что когда есть, например, текст из разных слов или стринга с различными значениями, разделенными пробелом, как это дело спарсить. Но для буквы ваш вариант должен быть идеальным. )

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity