Сочетание мозгового штурма, обсуждения рожденных идей и выбора лучших вариантов могут быть в рамках Design Thinking. Это лишь название. "Правильность" выбранных персон будет протестирована по результатам вылавливания историй/требований.
Забыла отметить, что по сути на всё это (кроме описания персон) тратится час-два, а в итоге помогает найти пользователей (и их истории), про которые можно было забыть (а потом оказывается, что это было очень важно).
По поводу словоформ — можно по-разному проводить подготовку текстов. Т.е. заделать какой-то условный механизм лемматизации, который будет глаголы приводить либо к инфинитивам, либо к другой интересной вам форме (т.е. например, с сохранением времени), можно посмотреть, например, тут: pymorphy2.readthedocs.io/en/latest/internals/dict.html. А можно вообще не лемматизировать. Но это надо поэкспериментировать. В плане эмбеддингов эти два предложения всё равно будут близкими друг к другу (даже при сохранении формы). А вот при подсчете общих слов — могут считаться разными или одинаковыми — в зависимости от подготовки текстов.
По поводу синонимов — при построении векторов они и так будут рядом относительно. А вот при подходе с выявлением общих слов они будут считаться разными словами. Особого смысла работать со словарем синонимов не вижу, разве что NER как-то выделять (например, упоминания в тексте одного документа с полным и кратким наименованием, аббревиатурой, в этом есть смысл). А вот синонимичность обычных слов часто зависит от контекста, необходимо не просто заменять одно слово другим, а учитывать его значение, для подхода с общими словами это излишне, на мой взгляд, мне такой подход нравится за его простоту :)
Надо понимать, что наши конкретные реализации подходов 1) ориентированы на русский язык 2) оптимизированы для краткой аннотации из нескольких предложений, а не одного заголовка.
Поэтому без особой переделки получилось:
0.148 на основе векторов,
0.15 на основе общих слов,
0.1 кластеризацией.
И это меньше weak baseline))
Хорошая демонстрация, что под разные задачи конкретная реализация подхода будет разной.
Да, смысл именно в том, что PyMystem3 работает быстрее, чем pymorphy2 на одном тексте, но при каждом вызове поднимает mystem (и ещё делает кучу всего), что как раз и замедляет на куче. Предложенное решение вроде простое, но не всегда очевидное. Может, кому-то тоже поможет, как и нам.
За joblib спасибо, параллельные потоки всегда актуальная тема, хотя не стали сильно в неё углубляться в этом случае: при текущей реализации вышли на приемлемое время подготовки, дальше уже больше внимания на модели
После публикации статьи в сообществах началось ее обсуждение, совершенно зря в обзор не попало несколько ресурсов, поэтому…
В дополнение:
Чаты, каналы сообществ
Если для работы требуется (чаще так и есть) использование нотации bpmn, то могу посоветовать канал http://t.me/bpmn2ru
Конференции
Для аналитиков Поволжья (и не только) весьма актуальна конференция SAM_BA, проводится она в Самаре, под каждую конференцию ссылки разные, но если вы аналитик — вы её без труда найдёте, особенно через чат сообщества
Information
Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Сочетание мозгового штурма, обсуждения рожденных идей и выбора лучших вариантов могут быть в рамках Design Thinking. Это лишь название. "Правильность" выбранных персон будет протестирована по результатам вылавливания историй/требований.
Почему бы и нет, главное результат)
Забыла отметить, что по сути на всё это (кроме описания персон) тратится час-два, а в итоге помогает найти пользователей (и их истории), про которые можно было забыть (а потом оказывается, что это было очень важно).
По поводу синонимов — при построении векторов они и так будут рядом относительно. А вот при подходе с выявлением общих слов они будут считаться разными словами. Особого смысла работать со словарем синонимов не вижу, разве что NER как-то выделять (например, упоминания в тексте одного документа с полным и кратким наименованием, аббревиатурой, в этом есть смысл). А вот синонимичность обычных слов часто зависит от контекста, необходимо не просто заменять одно слово другим, а учитывать его значение, для подхода с общими словами это излишне, на мой взгляд, мне такой подход нравится за его простоту :)
Поэтому без особой переделки получилось:
0.148 на основе векторов,
0.15 на основе общих слов,
0.1 кластеризацией.
И это меньше weak baseline))
Хорошая демонстрация, что под разные задачи конкретная реализация подхода будет разной.
Вообще сама идея суммаризации по центрам кластеров предложений интересна, надо попробовать сделать для русского языка, сравнить
Да, не совсем корректный тег, поставили на автомате, потому что на нём все эти подходы реализовали.
За joblib спасибо, параллельные потоки всегда актуальная тема, хотя не стали сильно в неё углубляться в этом случае: при текущей реализации вышли на приемлемое время подготовки, дальше уже больше внимания на модели
После публикации статьи в сообществах началось ее обсуждение, совершенно зря в обзор не попало несколько ресурсов, поэтому…
В дополнение:
Чаты, каналы сообществ
Если для работы требуется (чаще так и есть) использование нотации bpmn, то могу посоветовать канал
http://t.me/bpmn2ru
http://t.me/a_ekb — сообщество аналитиков из Екатеринбурга
http://t.me/it_an_perm — сообщество аналитиков из Перми
https://www.notion.so/IT-22831ad0a19b4b15b61fdae09dd41924 сообщество Новосибирских аналитиков (по отзывам — проводят очень много мероприятий)
http://t.me/samba_help Самарские аналитики, чуть ниже про конференцию
Конференции
Для аналитиков Поволжья (и не только) весьма актуальна конференция SAM_BA, проводится она в Самаре, под каждую конференцию ссылки разные, но если вы аналитик — вы её без труда найдёте, особенно через чат сообщества