Т.к. это редкий случай, когда два одинаковых прилагательных в одном предложении, и прилагательное имеет меньший вес (чем сущ. или глагол), можно опираться на замены, указанные выше.
Как иначе — я пока тоже не знаю.
«реализующую как-бы ответ на вопрос» — пока планирую фильтр:
1. Веса по частям слов.
2. Порядок следования частей речи
3. Словари.
4. Тоновые соединения: цепочки частей речи и корни.
Как я понял: у Вас идет работа со словарями. Это совсем другой путь реализации этой задачи.
Т.е. если слова в словаре нет, то оно уже не будет распознано? Или я ошибаюсь?
Подразумевается, что текст — нормальный: обработанный на предмет повторов (similarity) и содержащий не менее двух слов для дальнейшего анализа соседних частей речи.
Однозначного — пока нет. Нужно стремиться к этому. Планирую по словосочетаниям в дальнейшем снижать вероятность ошибок (отталкиваясь от фразопостроения в рус. яз.).
Апдейт выложу позже. Доработать надо код.
Массово — не пробовал. Прорабатываю алгоритм.
Скорее всего будет дерево весов частей слова, далее — соседних словосочетаний (по частям речи на пред. уровне) и т.д.
ключевые словосочетания на основе частей речи, формирование БД сущностей (существ.) и связей (глаголы) (с доработкой соотв.) для анализа ядра текстов и их дальнейшей автоматической сортировки по заданным критериям, чат-триггеры и т.п.
Уже прочитал по совету KAndy (пост)
Это однозначно буду делать.
Как иначе — я пока тоже не знаю.
«данные на носителе» — «данные» — сущ.
«данные строки» — «данные» — прил.
Я что-то упустил?
1. Веса по частям слов.
2. Порядок следования частей речи
3. Словари.
4. Тоновые соединения: цепочки частей речи и корни.
Можно исправлять заменой (буду делать в след. версии функции), если нет запятых между словами:
3-3 => 3-4
Т.е. если слова в словаре нет, то оно уже не будет распознано? Или я ошибаюсь?
/*
Группы окончаний:
1. прилагательное
2. причастие
3. глагол
4. существительное
*/
Замены порядков частей речи:
3111=>3414 (3441) — «Косил косой косой косой»
1311=>4314 (4341) — «косой Косил косой косой»
1131=>1434 (4134) — «косой косой Косил косой»
1113=>1443 (4143) — «косой косой косой Косил»
В скобках — вероятность такого порядка следования частей речи меньше.
Массово — не пробовал. Прорабатываю алгоритм.
Скорее всего будет дерево весов частей слова, далее — соседних словосочетаний (по частям речи на пред. уровне) и т.д.