Комментарии / Профиль DSkorinkin / Хабр

Как стать автором

Даниил Скоринкин @DSkorinkin

научпоп, NLP, digital humanities

ПрофильСтатьи3ПостыНовостиКомментарии17

Как мы обучили Mistral 7B русскому языку и адаптировали для объявлений Авито

DSkorinkin 24 окт 2024 в 12:39

Например, пользователь продает костюм Adidas — LLM тоже находит модель этого костюма.

У вас на картинке при этом написано "Модель нашла **Слово пацана** " :) Это такая переменная для артикула этого конкретного костюма или что? Она точно нашла?

Посмотреть

LIBRA: Long Input Benchmark for Russian Analysis

DSkorinkin 13 авг 2024 в 10:14

В таблице с датасетами многие ссылки веду на англоязычные датасеты по этим задачам (напр. ruGSM100 ведет на англоязычный GSM100). Вы переводили их где-то внутри у себя перед тем как гонять evaluation?

Посмотреть

Как на самом деле определять автора с помощью компьютера?

DSkorinkin 9 авг 2024 в 11:21

«Ненужная победа» Чехова (я заглянул) почти вся состоит из очень неестественной прямой речи персонажей, которая очень стилизована-театрализована и явно имитирует речь иностранцев.. Судя по всему, Чехов вообще делал вид, что этот текст -- перевод текста иностранного автора (Википедия: "По воспоминаниям русского прозаика А. В. Амфитеатрова: «Однажды в моем присутствии он <А. П. Чехов> держал пари с редактором „Будильника“, А. Д. Курепиным, что напишет повесть, которую все читатели примут за повесть Мавра Иокая, — и выиграл пари, хотя о Венгрии не имел не малейшего представления, никогда в ней не бывал. Его молодой талант играл, как шампанское, тысячами искр». Такова история создания повести «Ненужная победа»"). Думаю, это может влиять

Посмотреть

«Основание» Азимова наоборот

DSkorinkin 28 сен 2023 в 10:46

комментатор стоит несколько минут, потрясённый этой новой идеей, и падает замертво

Посмотреть

«Основание» Азимова наоборот

DSkorinkin 24 сен 2023 в 17:54

"Ученые в сериале, напротив, лишены сантиментов и способны на все для достижения цели". -- кажется, характерная черта современной культуры в том, что протагонист не может быть этически одномерным. Он должен сочетать добродетели либо с цинизмом, либо с какой-то явной неполиткорректностью, либо с еще какой-то как бы маргинальной чертой. Я не знаю, следствие ли это постмодерна (скорее да) но ощущаю это как довольно труднопреодолимый канон. С другой стороны, этот переход похож на переход от нравоучительной драмы 18 века к более сложным персонажам драматургии 19 века. Т.е. как будто это может быть простым следствием закона усложнения персонажей (если он есть)

Посмотреть

«Основание» Азимова наоборот

DSkorinkin 24 сен 2023 в 17:08

Случай Сринивасы Рамануджана, безусловно, выделяется, но вообще говоря опыт занятия наукой в обскурантистской среде демонстрируют, скажем, математики Ирана, в т.ч. как раз женщины. Да и на Западе есть примеры типа Уолтера Питтса, где тоже огромная начальная часть пути (до уровней высшей школы как минимум) проделана в вакууме на чистом гении и паре книжек. Да, Вы правы, "маловероятный сюжет". Но разве не на героев "маловероятных сюжетов" мы ходим смотреть, когда идем в кино? :) Ваш тезис, понятно, в том, что тут ради "повестки" слепили неправдоподобную слащавую историю, но кажется, что из всех натяжек эта — наибезобиднейшая.

Посмотреть

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

DSkorinkin 11 июн 2020 в 13:16

По-моему, сопоставлять игру команды из 5 + 1 человек с одной стороны — и одного игрока с максимально специфической функцией (вратарь) с другой сторон — в принципе неправильно. Это не очень сопоставимые сущности, они разноуровневые. Так что мне больше по душе вариант ответа из поста: «вопрос поставлен некорректно»

Посмотреть

Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей

DSkorinkin 11 июн 2020 в 10:51

Показательно, что самый огромный провал у машин в RuCoS (где common sense intelligence нужен), судя по лидерборду. Все в зоне 0.25 — 0.375. Но это прям реальный челлендж: я заглянул в json с вопросами и пришлось почесать репу, чтобы заполнить placeholder-ы… Иногда даже кажется, что есть неоднозначные места. Интересно, каков тут коэффициент согласия, когда вы мучаете на RuCoS людей :)

А вообще — очень крутая инициатива, спасибо за работу и за суперский бенчмарк!

Посмотреть

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin 22 янв 2015 в 13:21

Ну, все-таки выбранный нами OWL является современным стандартом W3C для описания онтологий, этот язык живет, развивается и поддерживается силами Консорциума. А про IDEF5 не очень понятно, в каком он состоянии, поддерживается ли кем-то и насколько вообще используется… То есть наверняка в мрачных подземельях Пентагона с ним что-нибудь делают, но это не тянет на отркрытое сообщество разработчиков и пользователей.

Просто сравните OWL Overview и сайт IDEF. Что выглядит более живым?

Посмотреть

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin 20 янв 2015 в 15:44

Мы как-то пробовали немножко парсить древнегреческие мифы (на русском). Особенно весело было с преданием об Эдипе, где факты родства очень необычно выделялись, т.к. царь Эдип, как известно, женился на собственной матери.

чтобы можно было искать по запросам типа «сколько людей истребил бог/сатана?» — Да, и потом сделать крутое цифровое издание Библии в TEI с семантической разметкой и хорошим запросным интерфейсом. А что, неплохой проект в духе современных Digital Humanities.

Посмотреть

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin 20 янв 2015 в 15:25

Насколько я понимаю технологию, из Compreno нельзя выделить онтологию под какую-то конкретную предметную область

В Compreno есть универсальная семантическая иерархия, которая действительно цельная и единая (хотя и там есть отдельные прагматические классы по областям). Но это в самом парсере Compreno. А в нашей надстройке для извлечения информации, где мы моделируем онтологии и пишем правила, как раз можно выделить. Хотим – подключаем персон, хотим, не подключаем.

Т.е. во фразе «Иванушка-дурачок купил ковер-самолет» дерево с узлом-агентом с семантическим классом IVAN (потомок HUMAN_BY_NAME) из иерархии Compreno будет в любом случае, это правда. А вот персона с именем «Иванушка» из нашей онтологии, хранящей базовые сущности, может быть, а может не быть. И в факт покупки мы ее можем класть, а можем не класть. Это уже наш слой абстракции, на котором живут не классы из иерархии Compreno, а привязанные к деревьям информационные объекты.

Посмотреть

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin 20 янв 2015 в 15:23

Примерно как Томита-парсер, но с достаточно успешным снятием омонимии за счёт онтологий — Да, но это далеко не единственное преимущество.

Еще есть гораздо более гибкая работа с вариативностью языка, свободой и богатством формулировок. Например, извлечение фактов из фраз типа «Вася купил ноутбук», «Вася, сняв деньги, купил ноутбук», «Вася, сняв деньги с карты Сбербанка, купил себе ноутбук» и «Вася снял денег с карты. Потом купил ноутбук», потребует довольно громоздких и хитрых томита-грамматик из-за линейности парсера. Да и написать их так, чтобы не зацепить лишнего, будет непросто. У нас же нужное поддерево будет неизменным.

Еще есть наследование семантических классов, которое избавляет от необходимости писать на коленке газеттиры и позволяет отсекать нужные классы слов на нужной высоте в семантической иерархии.

Еще есть извлечение одних объектов с опорой на уже извлеченные другие.

Конечно, Томита — штука легкая, гибкая и удобная, но на преобразование естественного языка в некоторую машиночитаемую формальную структуру, хранящую смысл высказывания, она нисколько не претендует. А мы претендуем.

Посмотреть

Онтоинженер: от сотворения мира к порождению сущностей

DSkorinkin 20 янв 2015 в 13:45

От увеличения количества правил особенно не зависит, потому что все довольно неплохо проиндексировано и отлажено (система извлечения информации разрабатывается не первый год). То есть теоретически можно написать очень неэффективную библиотеку правил, но практически а) есть некоторые механизмы защиты от этого и б) онтоинженеры стараются так не делать.

Посмотреть

Онтоинженер: работа по понятиям

DSkorinkin 20 дек 2014 в 16:49

Да, разумеется. На картинках всего не отобразить, но на самом деле на деревьях висит еще очень много всякой лингвистической информации. В частности, на узле с «ушел» будет граммема прошедшего времени, на узле с «уходит» — настоящего, на узле с «уйдет» — будущего. И не только время — вид глагола, залог, род и все остальное. Граммем очень много, они выступают такими первичными кирпичиками, с опорой на которые и строится вся синтаксическая структура.

Посмотреть

Онтоинженер: работа по понятиям

DSkorinkin 18 дек 2014 в 15:28

Protege-OWL — это все-таки отдельно стоящий редактор онтологий. У нас же редактор онтологиий — это небольшая часть довольно сложной системы, в которой можно создавать OWL-модели предметных областей и затем разрабатывать предметно-ориентированные системы извлечения информации с опорой на формализм Compreno, т.е. на представление текста в виде леса синтактико-семантических деревьев. Это такая своеобразная «фабрика моделей извлечения информации», подробнее о ней я расскажу во второй части поста.

В общем, мы решили, что мы достаточно большие и будем строить свой лунапарк с редактором онтологий, блэкджеком и всем остальным.

Посмотреть

Онтоинженер: работа по понятиям

DSkorinkin 17 дек 2014 в 12:12

Своя среда. Но при разработке мы, конечно, держали в голове имеющиеся инструменты и в чем-то вдохновлялись ими. Кстати, в первой версии поста так и было написано — «специальная среда, похожая на популярный редактор Protégé».

Посмотреть

Онтоинженер: работа по понятиям

DSkorinkin 17 дек 2014 в 11:17

Сергей, спасибо!

С историями успеха сложность в том, что даже чисто юридически не обо всем можно рассказывать, сплошные NDA. У меня во второй части поста изначально задумывался кусочек, где я говорю о конкретных проектах. Но выяснилось, что не имеем права — ~~военная~~ клиентская тайна, а ее мы свято бережем.

Посмотреть