Comments / Profile of Artgor / Habr

Андрей Лукьяненко@Artgor

Data scientist @ Careem (Dubai)

Subscribers

Twitter ввёл ограничения на просмотры для аккаунтов без подписки Blue от 300 до 600 твитов в день

Artgor Jul 2 2023 at 16:55

Например, вот https://www.bloomberg.com/news/articles/2023-03-30/twitter-s-revenue-drops-amid-advertisers-concerns-over-elon-musk (оказалось, что от 30 марта).

From September to October of last year, the top 10 advertisers on Twitter spent $71 million on ads, according to estimates from Sensor Tower. In the past two months, that figure dropped to just $7.6 million, a decline of 89%, the research firm said. Twitter’s top ad customers historically have included marquee names like HBO, Amazon, IBM and Coca-Cola.
Despite a slight uptick in daily users since early 2022, Twitter’s revenue has fallen by 50% since October as a result of a “massive decline” in advertising, Musk said earlier this month.

Twitter ввёл ограничения на просмотры для аккаунтов без подписки Blue от 300 до 600 твитов в день

Artgor Jul 2 2023 at 01:56

и доходы множеством способов пытается прокачать (причём, вероятно, вполне успешно)

Была новость от 31.03.2023 о том, что выручка упала в 2 раза. И доходы от рекламы упали процентов на 90.

Пора забывать GridSearch — встречайте ProgressiveGridSearch. Фракталы в ML, постепенно увеличиваем разрешение

Artgor Mar 31 2023 at 16:33

Статью лайкнул, но хотелось бы видеть сравнение подхода с более современными, чем дефолтный GridSearch - bayesian optimization, например, или с библиотеками типа optuna.

Мой путь изучения иностранных языков: прошлое, настоящее и будущее

Artgor Feb 28 2023 at 04:54

Автор отвечает на этот вопрос так:

Watching subtitled movies is NOT L-R.

You CANNOT read subtitles in advance, they appear on the screen at the same time as the characters are speaking, you have no time to pay attention to what you’re (mis)hearing, you concentrate on what is going on in the movie. Quite often, subtitles in L1 have very little in common with what is actually being said in L2. What’s more, exposure (new words/sentences per minute) is very poor.

The viewer concentrates on the action, the moving pix, and not on what is being said in L2 (phonemes, grammar, meaning) s/he doesn’t give a damn to be more precise.
The density (new words/sentences per minute) is minimal.
The language in movies is muffled: too much background noise, too much slang etc.
Subtitles are very often translated in a very careless or nonsensical way – the poorer the film/anime, the poorer the translation, that’s a pattern. (The same goes for literature.)
The majority of viewers don't read fast enough.
Texts for beginners should be translated word for word or the languages should be closely related, Italian-Spanish-French or French-English(??), for instance.
You should read BEFORE you hear to have time to attach the meaning to what is being said. The subtitles appear on the screen at the same time or after, so it's not possible. And what's more, they usually disappear too quickly, so you can't check by reading once more.

Of course, you can learn a thing or two from movies if you pay close attention, but even then it has nothing to do with L-R.

---

Так что я бы сказал, основные отличия между подходами:

не отвлекаешься на происходящее на экране;
меньше различий между аудио и текстом;
Ключевое: можешь заранее прочитать текст, без этого сложнее понимать соответствие между фразами на разных языках;

Мой путь изучения иностранных языков: прошлое, настоящее и будущее

Artgor Feb 28 2023 at 02:58

Я бы сказал, что сроки значительно меньше из-за перерывов, так что:

немецкий: 2 года в вузе + 1 год самостоятельного изучения - 3 года. Уровень B2 (или верхняя граница B1);
японский: 4 года;
испанский: 1.5 года в начале и год сейчас - 2.5 года. Сейчас могу читать сложные тексты (El Camino de los Reyes - ~380k слов, понимаю ~80%), говорить на широкий набор тем почти без запинок. Уровень B2;

если цель — выучить язык, то лучше всего работает

Не забываем про изучение грамматики - без неё никуда :)

Мой путь изучения иностранных языков: прошлое, настоящее и будущее

Artgor Feb 28 2023 at 02:49

К сожалению нет, видел материалы только на английском языке про этот метод.

Мой путь изучения иностранных языков: прошлое, настоящее и будущее

Artgor Feb 27 2023 at 09:56

Спасибо за поправки.

Носители любого языка учатся на нём говорить задолго до того, как учатся читать и писать.

Не всегда. На форумах по изучению языков нередко встречал людей, которые могли читать/слушать, но не могли говорить. Это особенно актуально для японского языка.

Мой путь изучения иностранных языков: прошлое, настоящее и будущее

Artgor Feb 27 2023 at 07:27

Я - Data Scientist. Английский для работы необходим, все остальное по фану.

Третья жизнь пет-проекта по распознаванию рукописных цифр

Artgor Dec 28 2022 at 15:19

Согласен. Но я в настоящий момент проживаю вне России, так что это не было бы проблемой.

Третья жизнь пет-проекта по распознаванию рукописных цифр

Artgor Dec 25 2022 at 16:53

Ох, видели бы как люди рисуют цифры в приложении. :) Иногда это просто непонятный ужас.

Третья жизнь пет-проекта по распознаванию рукописных цифр

Artgor Dec 24 2022 at 11:11

Похоже, что картинка при публикации не прогрузилась, теперь добавил её снова. Дело в том, что набралось около 100 рисунков ? (думаю понятно, что имеется ввиду), по фану сделал из них отдельный класс, чтобы те, кто так любят их рисовать, поняли, что я их заметил.

Третья жизнь пет-проекта по распознаванию рукописных цифр

Artgor Dec 24 2022 at 11:10

Похоже, что картинка при публикации не прогрузилась - добавил её снова. Набралось около 100 рисунков ? (думаю понятно, что имеется ввиду), по фану сделал из них отдельный класс, чтобы те, кто так любят их рисовать, поняли, что я их заметил.

Третья жизнь пет-проекта по распознаванию рукописных цифр

Artgor Dec 23 2022 at 15:29

Тут получилась путаница понятий. На английском есть два отдельных термина "to overfit" и "to retrain", на русском оба часто переводятся как "переобучить". Возможно было бы лучше сформулировать как "заново обучить".

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Artgor Jun 8 2022 at 14:06

Кажется, что при таком подходе вариантов будет очень много. Пользователи всегда серьёзно выбирали ответы или к концу уставали и тыкали просто так?

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Artgor Jun 8 2022 at 12:48

Это звучит очень интересно! И я вполне согласен, что привлечение большего количества экспертов заметно помогло бы работе над проектом. Увы, у меня не было инструментов для продавливания такого решения.

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Artgor Jun 8 2022 at 12:44

Напрямую не сравнивали. Но у нас был эксперимент по разметке данных "медицинскими интернами" (точнее не могу сказать из-за NDA), качество оказалось неудовлетворительным даже после нескольких итераций - слишком много расхождений в разметке и невнимательности.

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Artgor Jun 8 2022 at 03:58

В самом начале (ещё до моего прихода) как раз пробовали строить синтаксические деревья, но они очень плохо работали на медицинских терминах и при опечатках, которые делали пользователи.

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Artgor Jun 8 2022 at 03:55

К сожалению, нет - даже на английском языке нет датасетов с разметкой симптомов и их атрибутов. Обычно в медицинских датасетах размечают названия лекарств и, иногда болезни.

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Artgor Jun 8 2022 at 03:53

По факту, разница в нашем и вашем подходе лишь в том, что у нас есть возможность ввода свободного ответа и первичной жалобы, в остальном всё также. Наверное выбор подхода - дело продактов, анализа пользователей и A/B тестов :)

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Artgor Jun 7 2022 at 18:07

Про качество датасета мне судить сложно, но он нам действительно помог.

Насчёт того можно ли поделиться датасетом можно попробовать написать представителям компании - я ведь уже в ней не работаю, так что помочь не смогу.

2 3 4

Information

Specialization