Pull to refresh

Comments 10

Огромное спасибо за интересный материал. Не подскажете, а генерировать данные на основе полученных моделей можно?
Генерировать выборки на основе моделей можно, только не совсем понимаю, с какой целью?
Процедурная генерация всевдореалистичного окружения в играх, например.
Не знаком с этой областью.
На глаза мне не попадались такие примеры использования графических моделей (произвольных, не обязательно на базе гауссовых копул). Но интересно посмотреть, поделитесь, пожалуйста, ссылками.
Область придумал на ходу, но другим применением сгенерированных данных могут быть — тестирование пользовательских интерфейсов, имитация биометрии человека, генерация суррогатных данных для диагностических алгоритмов в медицине и так далее. С марковскими цепями интуитивно понятно, как это осуществить, а в данном случае?
После оценки параметров копулы вам известны:
1) корреляционная матрица многомерного нормального распределения и нулевой вектор средних значений;
2) функции распределения всех одномерных маргинальных случайных величин F_i, а значит и их квантиль функции (или псевдо-квантиль функции для дискретных случ. величин).
Вы генерируете 1 элемент выборки из многомерного нормального распределения и к i-ой координате этого элемента применяете функцию image. Получившийся вектор — 1 элемент выборки совместного распределения, определяемого построенной моделью.
Вы выбрали примеры, когда читателю (мне) неизвестно, какие должны быть связи между объектами, и какая связь более важная.

Возьмите обычные предложения и слова в них. Между ними есть скрытые связи. Можно на большом корпусе взять попарную статистику о координатах слов (номер слова в предложении или расстояние между предложениями), и с помощью вашего метода проанализировать и разобрать русские предложения. Это будет более наглядно, так как человек примерно знает, какие слова между собой связаны.
Спасибо за комментарий.

Данные маркетинговых опросов и медиаизмерения — то, с чем я регулярно работаю.
Результаты методов демонстрируются на данных, которые близки к таким исследованиям и находятся в открытом доступе.
То есть выбор примеров обусловлен только тем, что я сфокусирован на этой теме.

Полностью согласен, проверка адекватности метода моделирования безусловно важный момент. Однако в рамках одной короткой публикации нельзя объять все аспекты задачи. Вы можете найти детали о точности подхода, например в процитированной работе [6], где Mohammadi и Wit приводят сведения об аккуратности оценок параметров таких моделей, используя некоторый тестовый набор 'синтетических' примеров.
Тут вопрос не в этом. Не сама обработка данных (опросов), а применение графических моделей для обработки лингвистических данных. Да, активно применяются. В частности Conditional Random Fields. Как правило их используют в сложных задачах, там где много параметров (поиск именованных сущностей, сентимент анализ). Причем результаты достаточно впечатляющие.
Sign up to leave a comment.

Articles