Сходу не удалось найти адекватный научный источник. www.thelancet.com/journals/laninf/article/PIIS1473-3099(20)30141-9/fulltext — тут обсуждают потенциальную пользу. В новостях и правда много.
Но для этого как минимум нужно много поправившихся (и молодых) добровольцев, а значит и обширное тестирование и приличное количество случаев.
О, клевый ЖЖ, спасибо!
Старые статьи мы многие уже перелопатили, конкретно про лечение как раз сейчас стало больше поступать. Потому что, увы, больных больше в разных странах.
Тестируют очень много всего, и поступает много адхоковых данных, но далеко не по всему есть достоверные исследования. Уследить за всем довольно сложно, так что если у вас есть хорошая ссылка, мы будем рады дополнить!
Но такое явление не характерно для коронавируса в целом. В Корее, например, основная группа заражённых приходится на возраст от 20 до 29 лет — 29% случаев от общего числа. В Китае около 15% заражённых составляет группа 70+, что почти в два раза меньше, чем в Италии или Франции.
Эти числа надо нормировать на распределение возрастов в популяции. При том именно в тех регионах, где зараженее. Какой процент пожилых живет в Ухане? Может их в 2 раза меньше чем в Италии и Франции просто?
Такого инструмента нет. Среднестатистический томита-писатель привыкает с notepad++ за неделю-другую. Компилятор обычно довольно внятно описывает ошибки, если они произошли при компиляции. А для отладки выхода грамматик есть pretty output — он описан в документации.
Ну да, это скорее просто именованные сущности, а факт — это именованная сущность + атрибут или несколько именованных сущностей и отношения между ними.
Но Томита подходит для извлечения и того, и другого.
Мне трудно так абстрактно рассуждать, поскольку действительно все зависит от задачи.
Итоговые факты же типизируются априори и выдаются в структурированном виде, это значит, что перепарсивать их уже незачем. Их можно фильтровать, кластеризовать, классифицировать, делать сложные умозаключения и т.д. и т.п.
Зависит от задачи.
Когда мы извлекали информацию о персонах из СМИ, то за извлечением фактов стояла огромная машина с кластеризацией, она верифицировала факты из разных источников, склеивала дубли и еще много всего делала.
Конечно производится, постобработка — наше всё. :)
В зависимости от задачи мы тем или иным способом стараемся верифицировать данные, которые принес нам парсер.
Система предназначена для выделения смысловых предописанных цепочек из обычного теста. Ее можно использовать и для выделения команд. Степень соответсвия она не умеет оценивать, для этого нужно будет писать свой постпроцессинг.
Выбор языков зависит исключительно от имеющейся морфологии. По разным причинам мы не можем отдавать морфологии других языков. Поэтому прямо сейчас сделать что-то осмысленное с французским и голландским не получится.
Когда мы выложим парсер с исходным кодом, там будет возможность подключить любую другую морфологию самостоятельно.
Все зависит от задачи, от возможностей нанять асессоров и т.д. и т.п.
Есть простые типы данных, например адреса, которые проще описать ручными правилами, чем обучать сети на большой разметке. Т.е. правила обойдутся дешевле.
Есть более сложные случаи, когда дешевле и эффективней разметить корпус и обучить на нем.
Иногда имеет смысл делать что-то среднее, простые случаи брать ручными грамматиками, переферийные — обучением.
Для английского есть бесконечное количество похожих инструментов. Самый известный, наверное, — это GATE, в составе которого есть язык описания грамматик JAPE. И еще StanfordNLP — пакет машиннообучаемых обработчиков, которые можно тренировать на своих данных.
www.thelancet.com/journals/laninf/article/PIIS1473-3099(20)30141-9/fulltext — тут обсуждают потенциальную пользу. В новостях и правда много.
Но для этого как минимум нужно много поправившихся (и молодых) добровольцев, а значит и обширное тестирование и приличное количество случаев.
С удовольствием почитаем ваши первоисточники из рецензируемых журналов. Наши ссылки все в тексте.
Старые статьи мы многие уже перелопатили, конкретно про лечение как раз сейчас стало больше поступать. Потому что, увы, больных больше в разных странах.
Но пока нет окончательных данных.
Важно ли они умерли от коронавируса или при коронавирусе, если смертей за две недели стало намного больше?
Эти числа надо нормировать на распределение возрастов в популяции. При том именно в тех регионах, где зараженее. Какой процент пожилых живет в Ухане? Может их в 2 раза меньше чем в Италии и Франции просто?
Но Томита подходит для извлечения и того, и другого.
Итоговые факты же типизируются априори и выдаются в структурированном виде, это значит, что перепарсивать их уже незачем. Их можно фильтровать, кластеризовать, классифицировать, делать сложные умозаключения и т.д. и т.п.
Когда мы извлекали информацию о персонах из СМИ, то за извлечением фактов стояла огромная машина с кластеризацией, она верифицировала факты из разных источников, склеивала дубли и еще много всего делала.
В зависимости от задачи мы тем или иным способом стараемся верифицировать данные, которые принес нам парсер.
Когда мы выложим парсер с исходным кодом, там будет возможность подключить любую другую морфологию самостоятельно.
Есть простые типы данных, например адреса, которые проще описать ручными правилами, чем обучать сети на большой разметке. Т.е. правила обойдутся дешевле.
Есть более сложные случаи, когда дешевле и эффективней разметить корпус и обучить на нем.
Иногда имеет смысл делать что-то среднее, простые случаи брать ручными грамматиками, переферийные — обучением.