All streams
Search
Write a publication
Pull to refresh
57
0
Send message
Спасибо большое за разъяснения! Снова подчеркну — не имел цели обвинить в чем-то автора. Именно тот факт, что странность заметила лишь малая часть аудитории расстраивает куда как больше чем сам слайд…

Еще, на мой взгляд, можно было бы улучшить название — позитивные формулировки всегда воспринимаются лучше. Согласитесь, «Как ускорить разработку модели в 10 раз» и «Как уволить 90% датасаентистов с помощью AutoML» воспринимается очень по разному, хоть и означает примерно одно и тоже…
Долго думал над заголовком, итог получился немного «читерский», но как иначе привлечь внимание к теме?.. Статью подлиннее и содержательнее постараюсь организовать.
Да, я обращал внимание на это слово, но оно может быть и артефактом спич-то-текста, а автор при рассказе никак не отразил этот момент. Но это даже не главное — у меня нет намерения обвинять в чем-то автора. Появись такой слайд на том же КДД — ахнуло бы ползала, а у нас среагировали единицы, ни один из задающих вопросы не попробовал уточнить этот момент (я пытался, но организатор с микрофоном так и не добрался до нашего ряда). Основная проблема ведь не в этом конкретном слайде, а в том что лекгомысленное отношение к данным для нашего сообщества является практически нормой и именно с этим надо бороться.
Обычно о том что данные были откорректированны перед пбликацией всегда говорят явно, здесь такого не было. И, как я уже сказал, буду очень рад если ошибусь и имена были откорректированны.

Ну а то, что нас часто не волнуют те самые «рандомные тетки», данные которых мы анализируем, и то что мы не видим ничего страшного в расскрытии этих данных, это, имхо, очень и очень грустно…
В целом справедливо. Но мое намерение в данном случае не обвинить спикера (его имени здесь даже нет), а донести до сообщества важность отслеживания таких кейсов в своих публичных презентациях.
Перед публикацией я само собой проверил что эта информация опубликована клиникой в открытом доступе: www.avaclinic.ru/doctors/kochetova-irina-aleksandrovna
Напрямую в тех докладах что я видел такого не было. Вернее были рассказы о том, что использование разных методов рассчета фичей в проде и в обучении есть источник трудно диагностируемых проблем, поэтому все скорее стремятся максимально в обучении воспроизвести реальную ситуацию.

С другой стороны расширенный набор фич можно, имхо, использовать для оценки значимости и расставление приоритетов — какие из них наиболее перспективны с точки зрения добавления к проду
В том-то и дело что сначала для мужчин подешевели, а для женщин подорожали (но стали равными между собой). А дальнейшее увеличение в первую очередь тоже чувствовали женщины, так как повышение для них шло с более высокого уровня.
Когда «машинное обучение» это «продвинутая статистика», это очень хороший случай. Гораздо хуже когда «машинное обучение» вырождается в «темную магию» тыканья палкой в черный ящик под прикрытием «подбора гиперпараметров»…
Вернули, спасибо за бдительность!
Напишите представителю солидной Российской компании, заинтересованной в инновационных методах обработки ТЕЯ в чем суть и как эта группа энтузиастов видит сотрудничество. Мы давно и успешно сотрудничаем с исследовательскими коллективами в этой области. Можно «в личку» на хабр
Общепринятой позиции нет даже по таким вопросам «считать ли Землю плоской или шарообразной».

Мнение о принципиальной ограниченности возможностей познания человека ± мэйнстрим. А вот вопрос входит ли возможность познания механизма познания в эти границы дискуссионный. При этом сложность перевода подобных вопросов в позитивистское русло приводит, в сущности, к тому что занимаются ими часто в схоластическом ключе.
Хм, вроде как давно добавили еще в Баесовском выводе…

Но суть ведь не в этом — пока человек пытается сам описать как он думает в рамках формально модели успех маловероятен. Потому что он, в общем-то, не понимает как он думает. И не понятно может ли в принципе это понять — многие достижения математиков говорят что весьма вероятно нет. Собственно алгоритмическая неразрешимость появляется во многом из-за невозможности «познать самое себя» не перестав быть собой.
По существу — философы над тем что есть знание бьются уже не одну тысячу лет. Последние лет 100 им стали активно помогать математики. Первый заход с формальными логиками уперся в алгоритмическую неразрешимость с одной стороны и неспособность человека выразить свой подход к работе со «знанием». Формальные подходы к анализу текста уперлись примерно в это же.

Собственно поэтому системы в которых машина «сама» учится обобщениям на базе имеющихся примеров (а процесс обучения самого человека идет именно на базе примеров, которые он обобщает) сейчас рассматриваются как наиболее перспективные. Базовые элементы знаний в них начинают возникать, по способностям их уже вполне можно поставить на уровень крысы.

В каком направлении будут развиваться подобные системы время покажет. Но, имхо, для успеха нужно максимально снизить нагрузку на «слабое звено» в этом процессе — человека.
А можно ссылку на эти отечественные разработки?
Эмоциональную окраску затронули бегло. Повторюсь — сейчас задачу анализа эмоциональной окраске часто сводят к задаче классификации (бинарной позитивно/негативно или «многомерной» по каждой «эмоции» выраженна/не выражена) или регрессии (тоже самое, но вместо флага есть/нет предсказывают силы выражености). В академии и на кегле сейчас доминируют подходы на базе LSTM/GRU и дают неплохие результаты. На практике же при грамотном подходе к предварительной подготовке и векторизации вполне неплохо с задачей справляются и другие модели, в том числе линейные.

Касательно масштаба — изначально эмоциональную окраску анализировали для отзывов, поэтому в «классической» постановке она относится скорее к уровню документа. Позднее появились работы и для «коротких текстов» (в первую очередь для Твитера и других соцсетей), которые уже логичнее ставить на уровень предложения. Один из примеров инструментов, ориентированного именно на короткие тексты SentiStrengh.

Работа с короткими и длинными текстами отличается своими подводными камнями. В коротких текстах часто сложнее уловить сигнал, но почти никогда не возникает двусмысленности, тогда как в длинных все наоборот — сигнал сильнее, но часто в разных частях выражены разные эмоции, что ведет к двусмысленности.
«Казнить нельзя помиловать» это уже за пределами рассмотренных моделей. Они могут только достаточно грубо разметить текст, но не преобразовать его автоматом в действие. Т.е. понять что речь идет о жизни и смерти машина сможет, а вот «казнить» уже нет.
Верно подмечено — любая хорошая система требует труда людей, но многое меняется на глазах.

Во первых, «найм 5-10 тысяч китайцев» становится доступен не только гигантам типа IBM, а даже простым исследовательским лабораториям с лимитированным бюджетом. Краудсорсинг (в том числе Толока и Mechanical Turk) повлиял на МЛ не меньше чем нейросетки. Без больших размеченных людьми датасетов многих успехов бы не было.

Во вторых благодаря этому меняется парадигма — мы не пытаемся научить машину решать задачу полностью сформулировав то, КАК дожен проходить процесс решения. Вместо этого мы просто показываем машине примеры решенных задач и предлагаем самой определить как именно дойти от задачи до решения.

Ну и в третьих, конечно, количество ошибок которые допускает машина при таком подходе часто выше того, что допустил бы человек, а задачи поддающиеся ей значительно проще (если говорить про NLP, в CV это уже не так). Но при «массовом производстве» машина позволяет выйти на принципиально иной уровень продукта и сервиса, по сравнению с кропотливой ручной работой.

Ну а скептицизм по поводу нейросеток в NLP я в целом тоже разделяю. ИМХО, в этой области модель не должна быть «черным ящиком», поэтому при прочих равных всегда отдам предпочтение интерпретируемой модели. Но строить её буду автоматически, потому как в «ручном режиме» с нужными моделями не справится и сотня высококласных лингвистов за имеющееся время.
«Не критичен слов в языке русском порядок также.»

По опыту есть только несколько случаев когда порядок существенно влияет на качество работы модели. Наиболее значимые:

1. Частица «не» в задачах анализа эмоциональной окраски — важно понимать к чему она применялась (часто простая линейная модель после добавления биграмм с не подскакивает по качеству на уровень LSTM/GRU).
2. Именованные сущности выделенные явно помогают поднять качество семантического анализа (надо понимать что Брэд Пит не два разных человека, а один конкретный)
3. В задачах типа кореференс анализа, аттрибуции эмоций и т.д., когда от очень грубой разметки «текст об автомобилях» переходим к экстракции более тонких аспектов типа «в тексте сравнивают автомобили ауди и мерседес, у первых лучше дизайн и эргономика, а у вторых двигатеьль».
Я бы не был так пессиместичен. МЛ в принципе и НЛП в частности помогает не только клики бустить, но и спасать редкие виды, находить дом для детей-сирот, интегрировать слабослышаших в социум, искать новые элементарные частицы и т.д.

Если говорить про семантику и интеллект в «классическом смысле», то наиболее продвинутой системой, активно развивающейся, является IBM Watson. Внешне похожий на олдскульные экспертные системы внутри он базируется на многих новых наработках именно из корпусной лингвистики и МЛ.

Information

Rating
Does not participate
Works in
Registered
Activity