В гибкой разработке как никогда популярно использование пользовательских историй (user story). И если вы слышали или работали с ними, то в курсе, что они пишутся от имени разных пользователей (user types). Определение пользователей важно не только для этого инструмента, но и если используются сценарии (use cases) или иное представление требований. Эта статья расскажет о моделировании персон, о том, как можно определить пользовательские роли для своего продукта.
Отдел И АД @Codex1
Команда IT-специалистов
Суммаризация текста: подходы, алгоритмы, рекомендации и перспективы
8 min
25KЕжедневно каждый из нас сталкивается с огромным информационным потоком. Нам часто необходимо изучить множество объемных текстов (статей, документов) в ограниченное время. Поэтому в области машинного обучения естественным образом родилась задача автоматического составления аннотации текста.
У нас в компании мы активно работаем над автореферированием документов, в эту статью не стал включать все подробности и код, но описал основные подходы и результаты на примере нейтрального датасета: 30 000 футбольных спортивных новостных статей, собранных с информационного портала «Спорт-Экспресс».
У нас в компании мы активно работаем над автореферированием документов, в эту статью не стал включать все подробности и код, но описал основные подходы и результаты на примере нейтрального датасета: 30 000 футбольных спортивных новостных статей, собранных с информационного портала «Спорт-Экспресс».
+6
Лемматизируй это быстрее (PyMorphy2, PyMystem3 и немного магии)
3 min
41KTutorial
Я работаю программистом, и в том числе занимаюсь машинным обучением применительно к анализу текстов. При обработке естественного языка требуется предварительная подготовка документов, и одним из способов является лемматизация – приведение всех слов текста к их нормальным формам с учетом контекста.
Недавно мы столкнулись с проблемой больших временных затрат на этот процесс. В конкретной задаче было более 100000 документов, средняя длина которых около 1000 символов, и требовалось реализовать обработку на обычном локальном компьютере, а не на нашем сервере для вычислений. Решение на просторах интернета мы найти не смогли, но нашли его сами, и я хотел бы поделиться — продемонстрировать сравнительный анализ двух наиболее популярных библиотек по лемматизации в этой статье.
Недавно мы столкнулись с проблемой больших временных затрат на этот процесс. В конкретной задаче было более 100000 документов, средняя длина которых около 1000 символов, и требовалось реализовать обработку на обычном локальном компьютере, а не на нашем сервере для вычислений. Решение на просторах интернета мы найти не смогли, но нашли его сами, и я хотел бы поделиться — продемонстрировать сравнительный анализ двух наиболее популярных библиотек по лемматизации в этой статье.
+5
Как мы перешли на удалёнку
3 min
2.3KДумаю, самая актуальная тема — переход на дистанционную работу. Мы — одна из тех компаний, которая ни на день не прерывала свою деятельность. Хочется поделиться опытом, как это организовано у нас. В тексте упоминаются названия ПО, прошу не считать рекламой, мы просто это используем.
-3
Развитие аналитиков
6 min
16KКак правило, все заинтересованы в том, чтобы расти, развивать свои профессиональные качества. Аналитики – не исключение. В данной статье я описала способы почерпнуть новые знания в сфере анализа.
"
В целом, развитие любого сотрудника можно описать матрицей Мотивация-компетентность (или энтузиазм-компетентность): в зависимости от уровня мотивации и уровня знаний выделяется четыре основных группы.
"
В целом, развитие любого сотрудника можно описать матрицей Мотивация-компетентность (или энтузиазм-компетентность): в зависимости от уровня мотивации и уровня знаний выделяется четыре основных группы.
- Начинающие энтузиасты
- Разочарованные ученики
- Осторожные исполнители
- Уверенные профессионалы
+7
Information
- Rating
- Does not participate
- Location
- Санкт-Петербург, Санкт-Петербург и область, Россия
- Registered
- Activity