Как стать автором
Обновить
16
0
Даниил Скоринкин @DSkorinkin

научпоп, NLP, digital humanities

Отправить сообщение

Например, пользователь продает костюм Adidas — LLM тоже находит модель этого костюма.

У вас на картинке при этом написано "Модель нашла **Слово пацана** " :) Это такая переменная для артикула этого конкретного костюма или что? Она точно нашла?

В таблице с датасетами многие ссылки веду на англоязычные датасеты по этим задачам (напр. ruGSM100 ведет на англоязычный GSM100). Вы переводили их где-то внутри у себя перед тем как гонять evaluation?

«Ненужная победа» Чехова (я заглянул) почти вся состоит из очень неестественной прямой речи персонажей, которая очень стилизована-театрализована и явно имитирует речь иностранцев.. Судя по всему, Чехов вообще делал вид, что этот текст -- перевод текста иностранного автора (Википедия: "По воспоминаниям русского прозаика А. В. Амфитеатрова: «Однажды в моем присутствии он <А. П. Чехов> держал пари с редактором „Будильника“, А. Д. Курепиным, что напишет повесть, которую все читатели примут за повесть Мавра Иокая, — и выиграл пари, хотя о Венгрии не имел не малейшего представления, никогда в ней не бывал. Его молодой талант играл, как шампанское, тысячами искр». Такова история создания повести «Ненужная победа»"). Думаю, это может влиять

комментатор стоит несколько минут, потрясённый этой новой идеей, и падает замертво

"Ученые в сериале, напротив, лишены сантиментов и способны на все для достижения цели". -- кажется, характерная черта современной культуры в том, что протагонист не может быть этически одномерным. Он должен сочетать добродетели либо с цинизмом, либо с какой-то явной неполиткорректностью, либо с еще какой-то как бы маргинальной чертой. Я не знаю, следствие ли это постмодерна (скорее да) но ощущаю это как довольно труднопреодолимый канон. С другой стороны, этот переход похож на переход от нравоучительной драмы 18 века к более сложным персонажам драматургии 19 века. Т.е. как будто это может быть простым следствием закона усложнения персонажей (если он есть)

Случай Сринивасы Рамануджана, безусловно, выделяется, но вообще говоря опыт занятия наукой в обскурантистской среде демонстрируют, скажем, математики Ирана, в т.ч. как раз женщины. Да и на Западе есть примеры типа Уолтера Питтса, где тоже огромная начальная часть пути (до уровней высшей школы как минимум) проделана в вакууме на чистом гении и паре книжек. Да, Вы правы, "маловероятный сюжет". Но разве не на героев "маловероятных сюжетов" мы ходим смотреть, когда идем в кино? :) Ваш тезис, понятно, в том, что тут ради "повестки" слепили неправдоподобную слащавую историю, но кажется, что из всех натяжек эта — наибезобиднейшая.

По-моему, сопоставлять игру команды из 5 + 1 человек с одной стороны — и одного игрока с максимально специфической функцией (вратарь) с другой сторон — в принципе неправильно. Это не очень сопоставимые сущности, они разноуровневые. Так что мне больше по душе вариант ответа из поста: «вопрос поставлен некорректно»
Показательно, что самый огромный провал у машин в RuCoS (где common sense intelligence нужен), судя по лидерборду. Все в зоне 0.25 — 0.375. Но это прям реальный челлендж: я заглянул в json с вопросами и пришлось почесать репу, чтобы заполнить placeholder-ы… Иногда даже кажется, что есть неоднозначные места. Интересно, каков тут коэффициент согласия, когда вы мучаете на RuCoS людей :)

А вообще — очень крутая инициатива, спасибо за работу и за суперский бенчмарк!
Ну, все-таки выбранный нами OWL является современным стандартом W3C для описания онтологий, этот язык живет, развивается и поддерживается силами Консорциума. А про IDEF5 не очень понятно, в каком он состоянии, поддерживается ли кем-то и насколько вообще используется… То есть наверняка в мрачных подземельях Пентагона с ним что-нибудь делают, но это не тянет на отркрытое сообщество разработчиков и пользователей.

Просто сравните OWL Overview и сайт IDEF. Что выглядит более живым?
Мы как-то пробовали немножко парсить древнегреческие мифы (на русском). Особенно весело было с преданием об Эдипе, где факты родства очень необычно выделялись, т.к. царь Эдип, как известно, женился на собственной матери.

чтобы можно было искать по запросам типа «сколько людей истребил бог/сатана?» — Да, и потом сделать крутое цифровое издание Библии в TEI с семантической разметкой и хорошим запросным интерфейсом. А что, неплохой проект в духе современных Digital Humanities.
Насколько я понимаю технологию, из Compreno нельзя выделить онтологию под какую-то конкретную предметную область

В Compreno есть универсальная семантическая иерархия, которая действительно цельная и единая (хотя и там есть отдельные прагматические классы по областям). Но это в самом парсере Compreno. А в нашей надстройке для извлечения информации, где мы моделируем онтологии и пишем правила, как раз можно выделить. Хотим – подключаем персон, хотим, не подключаем.

Т.е. во фразе «Иванушка-дурачок купил ковер-самолет» дерево с узлом-агентом с семантическим классом IVAN (потомок HUMAN_BY_NAME) из иерархии Compreno будет в любом случае, это правда. А вот персона с именем «Иванушка» из нашей онтологии, хранящей базовые сущности, может быть, а может не быть. И в факт покупки мы ее можем класть, а можем не класть. Это уже наш слой абстракции, на котором живут не классы из иерархии Compreno, а привязанные к деревьям информационные объекты.
Примерно как Томита-парсер, но с достаточно успешным снятием омонимии за счёт онтологий — Да, но это далеко не единственное преимущество.

Еще есть гораздо более гибкая работа с вариативностью языка, свободой и богатством формулировок. Например, извлечение фактов из фраз типа «Вася купил ноутбук», «Вася, сняв деньги, купил ноутбук», «Вася, сняв деньги с карты Сбербанка, купил себе ноутбук» и «Вася снял денег с карты. Потом купил ноутбук», потребует довольно громоздких и хитрых томита-грамматик из-за линейности парсера. Да и написать их так, чтобы не зацепить лишнего, будет непросто. У нас же нужное поддерево будет неизменным.

Еще есть наследование семантических классов, которое избавляет от необходимости писать на коленке газеттиры и позволяет отсекать нужные классы слов на нужной высоте в семантической иерархии.

Еще есть извлечение одних объектов с опорой на уже извлеченные другие.

Конечно, Томита — штука легкая, гибкая и удобная, но на преобразование естественного языка в некоторую машиночитаемую формальную структуру, хранящую смысл высказывания, она нисколько не претендует. А мы претендуем.
От увеличения количества правил особенно не зависит, потому что все довольно неплохо проиндексировано и отлажено (система извлечения информации разрабатывается не первый год). То есть теоретически можно написать очень неэффективную библиотеку правил, но практически а) есть некоторые механизмы защиты от этого и б) онтоинженеры стараются так не делать.

Да, разумеется. На картинках всего не отобразить, но на самом деле на деревьях висит еще очень много всякой лингвистической информации. В частности, на узле с «ушел» будет граммема прошедшего времени, на узле с «уходит» — настоящего, на узле с «уйдет» — будущего. И не только время — вид глагола, залог, род и все остальное. Граммем очень много, они выступают такими первичными кирпичиками, с опорой на которые и строится вся синтаксическая структура.
Protege-OWL — это все-таки отдельно стоящий редактор онтологий. У нас же редактор онтологиий — это небольшая часть довольно сложной системы, в которой можно создавать OWL-модели предметных областей и затем разрабатывать предметно-ориентированные системы извлечения информации с опорой на формализм Compreno, т.е. на представление текста в виде леса синтактико-семантических деревьев. Это такая своеобразная «фабрика моделей извлечения информации», подробнее о ней я расскажу во второй части поста.

В общем, мы решили, что мы достаточно большие и будем строить свой лунапарк с редактором онтологий, блэкджеком и всем остальным.
Своя среда. Но при разработке мы, конечно, держали в голове имеющиеся инструменты и в чем-то вдохновлялись ими. Кстати, в первой версии поста так и было написано — «специальная среда, похожая на популярный редактор Protégé».
Сергей, спасибо!

С историями успеха сложность в том, что даже чисто юридически не обо всем можно рассказывать, сплошные NDA. У меня во второй части поста изначально задумывался кусочек, где я говорю о конкретных проектах. Но выяснилось, что не имеем права — военная клиентская тайна, а ее мы свято бережем.

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность