Как стать автором
Обновить
55
0
Андрей Лукьяненко @Artgor

Data scientist @ Careem (Dubai)

Отправить сообщение

Например, вот https://www.bloomberg.com/news/articles/2023-03-30/twitter-s-revenue-drops-amid-advertisers-concerns-over-elon-musk (оказалось, что от 30 марта).

From September to October of last year, the top 10 advertisers on Twitter spent $71 million on ads, according to estimates from Sensor Tower. In the past two months, that figure dropped to just $7.6 million, a decline of 89%, the research firm said. Twitter’s top ad customers historically have included marquee names like HBO, Amazon, IBM and Coca-Cola.

Despite a slight uptick in daily users since early 2022, Twitter’s revenue has fallen by 50% since October as a result of a “massive decline” in advertising, Musk said earlier this month.

и доходы множеством способов пытается прокачать (причём, вероятно, вполне успешно)

Была новость от 31.03.2023 о том, что выручка упала в 2 раза. И доходы от рекламы упали процентов на 90.

Статью лайкнул, но хотелось бы видеть сравнение подхода с более современными, чем дефолтный GridSearch - bayesian optimization, например, или с библиотеками типа optuna.

Автор отвечает на этот вопрос так:

Watching subtitled movies is NOT L-R.

You CANNOT read subtitles in advance, they appear on the screen at the same time as the characters are speaking, you have no time to pay attention to what you’re (mis)hearing, you concentrate on what is going on in the movie. Quite often, subtitles in L1 have very little in common with what is actually being said in L2. What’s more, exposure (new words/sentences per minute) is very poor.

  1. The viewer concentrates on the action, the moving pix, and not on what is being said in L2 (phonemes, grammar, meaning) s/he doesn’t give a damn to be more precise.

  2. The density (new words/sentences per minute) is minimal.

  3. The language in movies is muffled: too much background noise, too much slang etc.

  4. Subtitles are very often translated in a very careless or nonsensical way – the poorer the film/anime, the poorer the translation, that’s a pattern. (The same goes for literature.)

  5. The majority of viewers don't read fast enough.

  6. Texts for beginners should be translated word for word or the languages should be closely related, Italian-Spanish-French or French-English(??), for instance.

  7. You should read BEFORE you hear to have time to attach the meaning to what is being said. The subtitles appear on the screen at the same time or after, so it's not possible. And what's more, they usually disappear too quickly, so you can't check by reading once more.

Of course, you can learn a thing or two from movies if you pay close attention, but even then it has nothing to do with L-R.

---

Так что я бы сказал, основные отличия между подходами:

  • не отвлекаешься на происходящее на экране;

  • меньше различий между аудио и текстом;

  • Ключевое: можешь заранее прочитать текст, без этого сложнее понимать соответствие между фразами на разных языках;

Я бы сказал, что сроки значительно меньше из-за перерывов, так что:

  • немецкий: 2 года в вузе + 1 год самостоятельного изучения - 3 года. Уровень B2 (или верхняя граница B1);

  • японский: 4 года;

  • испанский: 1.5 года в начале и год сейчас - 2.5 года. Сейчас могу читать сложные тексты (El Camino de los Reyes - ~380k слов, понимаю ~80%), говорить на широкий набор тем почти без запинок. Уровень B2;

если цель — выучить язык, то лучше всего работает

Не забываем про изучение грамматики - без неё никуда :)

К сожалению нет, видел материалы только на английском языке про этот метод.

Спасибо за поправки.

Носители любого языка учатся на нём говорить задолго до того, как учатся читать и писать.

Не всегда. На форумах по изучению языков нередко встречал людей, которые могли читать/слушать, но не могли говорить. Это особенно актуально для японского языка.

Я - Data Scientist. Английский для работы необходим, все остальное по фану.

Согласен. Но я в настоящий момент проживаю вне России, так что это не было бы проблемой.

Ох, видели бы как люди рисуют цифры в приложении. :) Иногда это просто непонятный ужас.

Похоже, что картинка при публикации не прогрузилась, теперь добавил её снова. Дело в том, что набралось около 100 рисунков ? (думаю понятно, что имеется ввиду), по фану сделал из них отдельный класс, чтобы те, кто так любят их рисовать, поняли, что я их заметил.

Похоже, что картинка при публикации не прогрузилась - добавил её снова.  Набралось около 100 рисунков ? (думаю понятно, что имеется ввиду), по фану сделал из них отдельный класс, чтобы те, кто так любят их рисовать, поняли, что я их заметил.

Тут получилась путаница понятий. На английском есть два отдельных термина "to overfit" и "to retrain", на русском оба часто переводятся как "переобучить". Возможно было бы лучше сформулировать как "заново обучить".

Кажется, что при таком подходе вариантов будет очень много. Пользователи всегда серьёзно выбирали ответы или к концу уставали и тыкали просто так?

Это звучит очень интересно! И я вполне согласен, что привлечение большего количества экспертов заметно помогло бы работе над проектом. Увы, у меня не было инструментов для продавливания такого решения.

Напрямую не сравнивали. Но у нас был эксперимент по разметке данных "медицинскими интернами" (точнее не могу сказать из-за NDA), качество оказалось неудовлетворительным даже после нескольких итераций - слишком много расхождений в разметке и невнимательности.

В самом начале (ещё до моего прихода) как раз пробовали строить синтаксические деревья, но они очень плохо работали на медицинских терминах и при опечатках, которые делали пользователи.

К сожалению, нет - даже на английском языке нет датасетов с разметкой симптомов и их атрибутов. Обычно в медицинских датасетах размечают названия лекарств и, иногда болезни.

По факту, разница в нашем и вашем подходе лишь в том, что у нас есть возможность ввода свободного ответа и первичной жалобы, в остальном всё также. Наверное выбор подхода - дело продактов, анализа пользователей и A/B тестов :)

Про качество датасета мне судить сложно, но он нам действительно помог.

Насчёт того можно ли поделиться датасетом можно попробовать написать представителям компании - я ведь уже в ней не работаю, так что помочь не смогу.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность

Специализация

Data Scientist
Lead
От 500 000 ₽
Python
Machine learning
Deep Learning
Natural language processing
Neural networks