bocharov22 окт 2012 в 08:19

«Он видел их семью своими глазами»

6 мин

67K

Open source *

+145

116

Комментарии 116

dustalov 22 окт 2012 в 08:26

Респект таким парням, даже с недоступным корпусом русского языка они не забывают о лингвистике, у них есть цель в жизни, они не опустили руки, а вы сидите за компьютерами и бессмысленно проводите свою жизнь…

metaball 22 окт 2012 в 08:31

а вы сидите за компьютерами и бессмысленно проводите свою жизнь…

Вы так говорите, как будто это что-то плохое.

furyk 22 окт 2012 в 08:51

Пацаны, дух старой школы живёт только в OpenCorpora, где пацаны живут морфологией, угорают по метатекстам. Только прикладная лингвистика, только хардкор!

Kastello 23 окт 2012 в 07:56

Не так, вот так дословно: — «Ты так говоришь, как будто это плохо!»

Rondo 22 окт 2012 в 08:38

Замечательный проект, обязательно буду участвовать и распространять информацию.

НЛО прилетело и опубликовало эту надпись здесь

w495 22 окт 2012 в 09:08

Как я понимаю, товарищи не собираются ограничиваться одним корпусом.
Я в частности крайне жду параллельных многоязычных корпусов.

bocharov 22 окт 2012 в 09:44

Да, имели ввиду именно множественное число.

Сейчас мы сосредоточились на одной цели, т.к. морфологическая разметка — это трудоёмкая и очень нужная задача. Все силы идут в эту сторону.

w495 22 окт 2012 в 09:07

С НКРЯ можно попробовать расправиться через краулинг ответов с высокочастотными словами.
Правда после тысячного запроса, клиент банится по IP.
До какого-то момента я с ними возился. Но потом это все надоело.

+ У них есть серьезная проблема с интерфейсом. Иногда оно зависает и пытается выдать много одинаковых ответов на одну и ту же страничку. Много — в смысле, очень очень много. При попытке воспоизвести это в браузере привело к его падению. Хорошо, что такое поведение не регулярно.

StopDesign 22 окт 2012 в 12:29

А нельзя им написать «вы не охренели там?» и попросить открыть данные для скачивания?

w495 22 окт 2012 в 12:35

Ну там в принципе на почту не отвечают.
Да ладно, писать краулер самому и парсить все это через html5lib было интересно.

questor 22 окт 2012 в 12:41

Ну, парсер-то вы напишите, но техническая сторона тут не главный камень преткновения. Вы понимаете, что публиковать под открытой лицензией чужие закрытые данные полученные без согласия владельца — это совершенно другой вопрос, чем «насколько технологически сложно для этого написать парсер?»

w495 22 окт 2012 в 12:45

В исследовательских целях — можно. Мне более и не надо было.
Результатом стало вот это:
www.slideshare.net/w-495/dsmts-diploma

В конце концов, я же никого не хакнул, а просто автоматизировал получение доступной информации.

w495 22 окт 2012 в 12:48

На тему лицензий, если уж совсем серьезно, то про них ничего вообще не сказано.
А потом, какой закон, и какую конкретно статью нарушит некто, решивший таки такое опубликовать в каких-то своих никому неведомых целях?

Думаю, тут скорее действует профессиональная этика что-ли.

Granovsky 22 окт 2012 в 12:54

При общении с некоторыми людьми из коллектива НКРЯ скорее просится выражение «профессиональная жадность».

Это как человек (реально существующий), который уже лет 20, если не больше, делает какой-то семантический суперсловарь, рассказывает о нём на конференциях и всё надеется найти на него покупателя. А человеку уже за 60.

w495 22 окт 2012 в 12:56

Хоть бы цену кто-то озвучил. Думаю, найдутся те, кто готов был бы это купить.
Ну или какую-то часть словаря.

Granovsky 22 окт 2012 в 12:43

Там нельзя открыть по юридическим причинам: во-первых, исходные тексты под копирайтом (естественно), во-вторых, разметка, которую исправляло несколько сотен человек, тоже охраняется законом, а получить постфактум разрешение у каждого из этих сотен нереально.

w495 22 окт 2012 в 12:54

Там большая проблема это права на сами тексты, а не на их разметку.
В веб-выдаче они все равно с нарушенным порядком предложений, и сами произведения перемешаны. Автоматизировать разрешенные действия — сомневаюсь, что в этом есть что-то противозаконное. Блокировка по ip они делают все скорее для защиты от чрезмерных нагрузок.

Trimirys 22 окт 2012 в 09:09

Family portait?

Dormidont 22 окт 2012 в 09:25

Попробовал помочь. Не хватает кнопки увеличения количества слов в примере, когда неясен контекст. Такие примеры, конечно, можно пропускать, но есть шанс, что их так никто и не «возьмёт».

bocharov 22 окт 2012 в 09:37

Спасибо, что попробовали!

До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)

Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.

Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.

Dormidont 22 окт 2012 в 09:46

Спасибо. В комменте ниже уже сказали про троеточие. Действительно, в IE есть. Похоже, адблокер в лисе развлекается :)

Granovsky 22 окт 2012 в 09:51

Странно, у меня Firefox 13 с последним Адблоком и всё видно.

Dormidont 22 окт 2012 в 09:57

У меня кастомные фильтры ещё есть. Один, написанный моими кривыми ручками, мешался :)

questor 22 окт 2012 в 09:54

Вот у меня был такой странный пример только что. Нужно было определить число — единственное или множественное.
«игры воображения, игры таланта, игры ума.» Если бы это была часть предложения (либо «и нет у него игры воображения, игры таланта, игры ума» либо «именно у таких людей чаще всего встречаются игры воображения, игры ума, игры таланта») было бы просто, но когда я понял, что это предложение целиком — я встал в ступор. Что хотел сказать этим предложением высказывающийся? Имху — самое правильное — это в данном случае смотреть контекст по соседним фразам, одним предложением не ограничиться.

bocharov 22 окт 2012 в 10:15

Да. В рамках одного предложения это неснимаемая неоднозначность. Надо нажать «Другое» и написать в комментарий об этом. Модератор видит ссылки на полный контекст и решит ;)

questor 22 окт 2012 в 10:24

Я комментарий сделал, но вместо «другое» выбрал «пропустить». Свой комментарий я не могу увидеть, но надеюсь, сохранилось при этом.

bocharov 22 окт 2012 в 10:27

спасибо! Он сохранился.

halyavin 22 окт 2012 в 09:40

У меня есть — нужно нажать на 3 точки в сером прямоугольнике слева или справа.

bimcom 22 окт 2012 в 09:27

Группу «habrahabr» создал, пока до топ 11 дотянул — велкам.

questor 22 окт 2012 в 09:49

Присоединился вторым, через полчаса нас уже восемь.

wolfor 22 окт 2012 в 10:20

Не хватает ачивок.
А в остальном, это по сути один из немногих способов сделать что-то действительно полезное в жизни для многих офисных работников.

questor 22 окт 2012 в 10:22

Достаточно часто стало появляться javascript'овое окошко «Что-то пошло не так. Попробуйте перезагрузить страницу» — уже раз пять появлялось. Правда, после перезагрузки всё дальше работает.
Win7, Firefox 16.0.1

Куда вообще багрепорты писать?

Granovsky 22 окт 2012 в 10:27

Сюда: code.google.com/p/opencorpora/issues/list

Nashev 22 окт 2012 в 16:05

Лучше б сказали, где эта ссылка там в интерфейсе ;)

Nashev 23 окт 2012 в 14:57

UPD: кажись, на странице FAQ есть

shoorick 22 окт 2012 в 19:56

Ubuntu 12.04 LTS, Gnome 2, Chromium 20.0.1132.47 — аналогично.

Granovsky 23 окт 2012 в 07:51

Думаю, это просто таймауты. Хабраэффект.

Brodyaga 22 окт 2012 в 12:06

Надеюсь, выдаваемые разным людям задания накладываются друг на друга? Для точности было бы хорошо, чтобы для каждого спорного случая было несколько вариантов разметки от разных людей, с очевидным выбором наиболее вероятного.

Granovsky 22 окт 2012 в 12:17

Да, каждый пример выдаётся трём разным людям.

Правда, случается, что ошибаются все трое, и мы думаем, помимо людей, использовать обученного робота, который мог бы находить такие аномалии статистически.

couatl 22 окт 2012 в 12:11

Когда был в Питере, забыл попросить. Постер пришлите, распечатаю на А4-А3 в институте развешу.

bocharov 23 окт 2012 в 18:15

Да. Хорошая идея. Спасибо.

Ixtaccihuatl 23 окт 2012 в 19:40

Тогда можно и мне, я в Перми повешу.

J_o_k_e_R 22 окт 2012 в 12:14

Ежик птица гордая… Так что я полез сразу в самые сложные задания винительный\родительный) и подзавис… Но потом открыл правило и все стало просто: для того, чтобы отличить винительный падеж от родительного подставляем вместо одушевленного слова, которое в обоих падежах отвечает на вопрос «кого?», неодушевленное, отвечающее на «чего?» (родительный) и «что?» (винительный) и жить становится проще.

Пример (не думать над смыслом, только над морфологией!):
«Главная причина слепоты у лиц среднего и пожилого возраста»
После замены:
«Главная причина слепоты у столов среднего и пожилого возраста»
столы:
кого? — столов
что? столы

Значит имеет родительный падеж, которого, кстати, большинство.

Успехов.

Granovsky 22 окт 2012 в 12:22

Да, так и есть, спасибо за коммент. У нас пока не дошли руки написать про это инструкцию, но со временем напишем про все виды заданий.

Mobyman 22 окт 2012 в 12:23

После логина через google и обновления страницы

Ошибка 310 (net::ERR_TOO_MANY_REDIRECTS): Обнаружено слишком много переадресаций.

Mobyman 22 окт 2012 в 12:32

И добавьте ачивментов, пожалуйста :) Это же мотивация дополнительная.

Granovsky 22 окт 2012 в 12:45

Да, ачивменты в разработке. Одна из проблем — у нас некому нарисовать красивые бейджики :) Если в топике есть ~~доктор~~ дизайнер, мы бы с радостью приняли его помощь.

Granovsky 22 окт 2012 в 13:39

Ошибку 310 не могу воспроизвести. В какой момент нужно обновить страницу?

J_o_k_e_R 22 окт 2012 в 12:40

Про винительный\родительный.
Странно, что не распознаются легко алгоритмизируемые моменты, например «среди » — X — родительный падеж.
Если, известны к каким частям речи принадлежат остальные слова, то еще можно "<числительное> X", X — родительный падеж. Это из того, что первое пришло в голову по хожу разметки.

Granovsky 22 окт 2012 в 12:48

Они сравнительно легко алгоритмизуются, но если точность не 100% (а 100% она не будет), то потом всё равно нужно проверять руками.

J_o_k_e_R 22 окт 2012 в 12:53

Понятно, что проверять руками, но может быть сделать «предполагаемый вариант» в подобных случаях и выделять его каким-нибудь зелененьким?

Как часто происходят проверки размеченного?

Granovsky 22 окт 2012 в 13:00

У нас есть в отдалённых планах провести на это эксперимент, но коллеги-психолингвисты, которые делали похожие вещи, говорят, что это увеличивает процент ошибок.

Проверка происходит постоянно, но довольно медленно, к сожалению. Мы сейчас исследуем, какой процент ошибок получаем, если доверяем всем примерам, где все три человека согласились. Если окажется, что таких ошибок, условно, одна на миллион, мы сможем увеличить скорость проверки в несколько раз (зависит от типа заданий).

mistervhy 22 окт 2012 в 12:44

Капец какая занудная регистрация у вас… opencorpora.org/login.php?act=register

Сделайте, блин, проверку ДО нажатия кнопки «зарегистрироваться»

Ну и прямо на страничке подскажите какие у вас где допустимые символы…

Я много где регистрировался и я в какой то степени чайник… У вас только с 5 раза…

Granovsky 22 окт 2012 в 12:51

Да, подсказку сделаем, спасибо.

Если хочется иметь какие-то спецсимволы в имени пользователя, то можно поставить в настройках имя, которое будет показываться в статистике, оно не обязано совпадать с логином.

Sheh 22 окт 2012 в 13:20

Вам нужно завербовать школьников, чтобы они делали это вместо домашки по русскому )

Granovsky 22 окт 2012 в 13:26

Если сделать это обязательным — результаты будут не очень. Уже был опыт со студентами :-)

zubasty 22 окт 2012 в 16:09

Скажите, а были ли какие-нибудь попытки посмотреть, как будет меняться качество, если увеличить число студентов на каждый пример? Ведь увеличение числа аннотаторов, как кажется, должно бы повысить точность разметки, не будут же они совсем случайно отвечать.

Granovsky 22 окт 2012 в 16:20

Пока не было.

Тут примерно такая дилемма: увеличивая число аннотаторов, мы получаем в среднем больше случаев, когда их ответы не совпадают и должны быть просмотрены модератором => растёт нагрузка на модератора. Выигрыш мы получаем только в том случае, если все (допустим) трое предыдущих отвечавших ответили неверно, а четвёртый ответил верно.

НЛО прилетело и опубликовало эту надпись здесь

bocharov 23 окт 2012 в 18:14

спасибо!

zubasty 22 окт 2012 в 14:01

Без большого корпуса заниматься NLP грустно.
А с какого объёма можно уже тренировать снятие морфологической неоднозначности?
Ведь с какого-то момента можно было бы обучаться на том, что уже размечено, или по крайней мере ускорить процесс дальнейшей разметки хотя бы за счёт снятия частеречной омонимии (как понял из вашей диаграммы, она ещё не вполне снята)

bocharov 22 окт 2012 в 17:58

Мы сейчас где-то сделали около 7% (280 тыс ответов из ожидаемых 4 млн), но сегодня процесс идёт раз в 20 быстрее, чем обычно. Что очень радует.

Начинать можно даже с полностью неоднозначного корпуса по методу E.Brill ( citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=4FAD01411F0CB33045D20880B2E63998?doi=10.1.1.128.9159 ). Это статья 1995 года, но можно найти и ещё по запросу «unsupervised part of speech tagging». В этом случае корпус со снятой вручную неоднозначностью нужен будет для оценки результата.

Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:

— Сокирко и Толодова (2004)
— Зеленков, Сегалович, Титов (2005)
— Шаров и Nivre (2011)

Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.

Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.

Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.

Я думаю, что:

1. 180 тыс. слов и только машинное обучение, вероятно, мало
2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
3. есть ли существенная разница между 1 млн и 5 млн — непонятно

Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)

zubasty 22 окт 2012 в 18:26

Unsupervised POS-тэггер — интересно, надо попробовать. Для оценки-то и 180 тыс. из НКРЯ хватит :)
Боюсь, правда, что английский POS очень сильно отличается от русского, и там придётся половину переделывать.
Но всё равно спасибо за наводку!

NetBUG 10 дек 2012 в 08:11

Попробовать можно, Стэнфордский парсер отлично обучается, а уж в английском частеречная омонимия намного богаче, чем в русском.

zubasty 10 дек 2012 в 08:18

Я скорее о том, что в английском достаточно жесткий порядок слов и слабая морфология, а в русском наоборот. Кроме того, в английском омонимия полная, а у нас часто бывает омонимия по форме, т.е. нужно выбрать не часть речи как таковую, а правильную комбинацию «слово+форма» (были = прошедшее от «быть» или множественное от «быль»? Сочи = город или повелительное наклонение от «сочить»?). В общем, на мой взгляд, задачи разные.

NetBUG 10 дек 2012 в 09:05

Согласен. К тому же, из-за флективности русского языка количество n-грамм растёт в разы (пытались обучать Moses, дообучали до пяти с чем-то гигабайт).

Через пару неделю попробую Стэнфордский парсер обучить, самому интересно.

zubasty 10 дек 2012 в 09:06

Расскажите потом о результатах!

bocharov 22 окт 2012 в 18:02

Про ускорить за счёт подключения машины: думаем подключатать машину на этапе модерации, т.е. представлять её как ещё одного аннотатора. Но разработчика, который бы взялся за реализацию этой затеи, у нас пока нет. От человека потребуется большая самостоятельность.

vladon 22 окт 2012 в 14:24

Нужны какие-нибудь баллы, соревновательность, так было бы интереснее.

Да даже банальный счётчик, сколько % сделал из задания — уже лучше, чем сейчас. Сейчас через некоторое время надоедает и скучно.

Granovsky 22 окт 2012 в 14:38

Да, как уже написано выше, геймификация в процессе, не хватает дизайнера. Банальный счётчик почти сделали, может быть, на днях будет.

seriyPS 22 окт 2012 в 14:53

хехе… Сделайте капчу на основе вашего сервиса — наподобие того, как google re-captcha оцифровывает книжки =) Шучу.

Ну а так — да, какую-то игровую механику нужно внедрить, ибо просто так этим заниматься быстро надоест.

Bram 23 окт 2012 в 21:59

Почему шутишь? Капчу и надо. На «Грамоте» или на «Вики» была бы очень в тему именно такая.

Ixtaccihuatl 22 окт 2012 в 15:40

off: С днём рождения!

on: А как всё-таки обычному тупому лингвисту пользоваться открытым корпусом? Вы не предполагаете веб-мордочку для поиска, например? Вот мне хочется найти какую-нибудь статистическую информацию. И что? Срочно выходить замуж за программиста, который осилит разобраться? :-)

Ixtaccihuatl 22 окт 2012 в 16:06

upd: понятно, что есть поиск по НКРЯ, но у вас же с ним очень разные тексты. И ещё хотелось бы какую-то инфу по составу корпуса, какие жанры в каком процентном соотношении представлены, и всё такое.

Granovsky 22 окт 2012 в 16:22

Какую, например, статистическую информацию?

Про жанры есть на странице «Статистика» внизу. Или имеется в виду что-то другое?

Ixtaccihuatl 23 окт 2012 в 21:41

Жанры — в принципе, да, но у вас странно как-то получилось: в одном ряду «ЧасКор» и «художественная литература». Может, объединить источники в жанровые группы?

bocharov 22 окт 2012 в 18:16

Спасибо!

Про поиск:

1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.

2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.

3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.

Итого, есть две задачи:

— научиться генерировать корпус из MediaWiki dump и HTML Часкора
— поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе

Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.

Ixtaccihuatl 23 окт 2012 в 21:43

А кстати, насколько хороша получилась автоматическая разметка?

NetBUG 10 дек 2012 в 08:12

Напои меня чаем, напишу что-нибудь =)

Nashev 22 окт 2012 в 16:17

Про первой ссылке (http://opencorpora.org/tasks.php?act=annot&pool_id=571) падежи прилагательных спрашиваются, что меня как-то с толку сбивает. Там нет возможности у вас в таких случаях падеж определяемого ими существительного использовать?

Granovsky 22 окт 2012 в 16:28

Это бы прекрасно работало, если бы определяемое существительное стояло сразу после определяемого им прилагательного или если бы у нас был синтаксический анализатор со 100% точностью (а если меньше 100%, то всё равно вручную проверять).

Nashev 22 окт 2012 в 16:30

Я что-то пропустил — в разметке корпуса не предполагается связи прилагательных и существительных определять и хранить?

Granovsky 22 окт 2012 в 16:33

Предполагается, но пока этого нет, поскольку это уже синтаксис, а мы пока занимаемся морфологией.

Теоретически — да, можно было бы вместо того, чтобы просить людей определять падеж прилагательного, просить их связывать прилагательное с существительным. Наверное, когда-нибудь сделаем и так.

Nashev 22 окт 2012 в 16:38

Мож, стоит тогда перенаправить усилия людей на более полезные задания, скрыв такие вот, которые автоматом будут решены при других неизбежных работах? Чтоб не распылять… ведь автоопределению синтаксических связей эта работа не сильно поможет, вроде… то есть, всё равно же ту задачу решать, а после неё эта задача будет решена автоматом?

Granovsky 22 окт 2012 в 16:43

Тут есть, как мне кажется, два аргумента.

1. Эти «неизбежные работы» могут занять неопределённое время. Мы больше двух лет потратили только на адаптацию словаря и выработку разных решений по морфологии.
2. Большинству потенциальных потребителей наших данных даже корпус без связей, а только со снятой морфологической омонимией уже будет очень полезен.

Nashev 22 окт 2012 в 16:56

Резонно

Nashev 22 окт 2012 в 16:21

И «хочу ещё примеров» воспринимается так, как будто я подсказки прошу. «пример» и «задачка» всё же разные слова, «Пример» в смысле задания я только в младшей школе встречал, и то с трудом понимал, почему там задачи примерами называют.

Granovsky 22 окт 2012 в 16:23

А как лучше написать? «Хочу ещё заданий»?

Nashev 22 окт 2012 в 16:25

Ага

Nashev 22 окт 2012 в 16:28

А то и просто «Ещё»

Granovsky 22 окт 2012 в 16:44

Не можем обещать, но обсудим :-)

Ixtaccihuatl 23 окт 2012 в 21:44

Мне вот тоже всё время хочется там увидеть «Ещё!» :-)

Nashev 22 окт 2012 в 16:34

Было бы здорово опубликовать подборку самых крутых / зрелищных/ занятных неоднозначностей, типа этих семи глаз.

Интересно, у каких слов вашего корпуса сейчас рекордное количество вариантов толкования?

bocharov 22 окт 2012 в 18:50

Спасибо за идею ;)

Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.

<token id="3" text="злословия">
  <tfr t="злословия">
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="sing"/><g v="gent"/>
      </l>
    </v>
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="nomn"/>
      </l>
    </v>
    <v>
      <l id="115766" t="злословие">
        <g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="accs"/>
      </l>
    </v>
  </tfr>
</token>

Shedar 22 окт 2012 в 17:50

Была бы интересна возможность посмотреть свои ошибки.
Я вижу 5.9% ошибок в статистике. Любопытство теперь не даёт покоя, в чем был не прав.

bocharov 22 окт 2012 в 18:23

Об этой возможности мы думаем и тоже её хотим. Однажды сделаем и напишем об этом.

5.9%, в данном случае, это не ошибки, а процент расхождений с двумя другими участниками. Теоретически, у Вас вообще может не быть ошибок. По мере модерации появится и кол-во ошибок.

dustalov 22 окт 2012 в 22:14

Виктор, Дмитрий, поздравляю!

Кстати, вечером добавил отдельную статью OpenCorpora на NLPub. Если есть неточности — прошу вас, исправьте :)

Granovsky 23 окт 2012 в 07:52

Спасибо :-)

garex 23 окт 2012 в 01:48

А в прокуратуру можно написать, чтобы в открытый доступ выложили то, что по идее нам и принадлежит — ведь куда ни плюнь — госконтора или госгрант: ruscorpora.ru/corpora-about.html

Хотя… там яндекс есть — вот кто во всем виноват :)

Я бы сосредоточился на выведении в общую собственность того, за что итак уже наши налоги были заплачены. Хотя это можно параллельно делать. Есть же на хабре юристы? Подскажите, как это организовать и насколько это реально?

bocharov 23 окт 2012 в 09:09

Спасибо. Не надо в прокуратуру. Там всё сложнее, чем кажется на первый взгляд.

entze 23 окт 2012 в 06:53

Про капчу уже писали. Я бы предложил шире — посылать ~~нахер~~ на сервис всех граммар-наци. Иной раз от умников аж в глазах рябит. А так, будь добр не в комментариях гадить, а пойти и доказать делом. Не хочешь делом, а хочешь исходить на говно и ссылаться на tsya.ru — только чтение или бан. Нужны плагины к форумным движкам :)

Granovsky 23 окт 2012 в 07:54

У нас в течение нескольких месяцев, предположительно, появится API, тогда все желающие смогут сделать плагин хоть для чего.

Smyslov 23 окт 2012 в 08:57

Делаете очень полезное/нужное дело, и отличная короталка времени во время ожидания.
Еще б не плохо было закачать сколько то примеров, ответить на них офлайн, а потом синхронизироваться.

Ixtaccihuatl 23 окт 2012 в 17:56

Вот это было бы просто замечательно. Какая страшная куча времени уходит на пасьянс в телефоне, когда интернета нет!.. :-)

bocharov 23 окт 2012 в 18:13

Тоже хочу, чтобы было Android / iOS приложение. Тема чуть-чуть обсуждается вот тут:

code.google.com/p/opencorpora/issues/detail?id=323

webhamster 23 окт 2012 в 19:40

А что по этому поводу думает компания ABBYY? Они же вроде именно этим и занимаются. У них разве нет никаких корпусов текста? Они делиться совсем не хотят, даже получив государственный грант в Сколково?

НЛО прилетело и опубликовало эту надпись здесь

wolfor 25 окт 2012 в 13:38

Кончились задания на единственное/множественное число.
Верните! Дайте возможность даже самым безграмотным причаститься тела филологии!

bocharov 25 окт 2012 в 15:29

Первые два комплекта этих заданий кончились. Потом когда-нибудь будут ещё.

Nashev 26 окт 2012 в 15:40

А может на вашем движке оставите раздел загадок? Для тех, кто хочет не столько помочь, сколько поразвлекаться таким образом, и желает не мешать в сложных серьёзных вопросах, где не уверен в себе?

С учётом того, что отгадки известны — можно сразу и рейтинг игрока считать…

bocharov 26 окт 2012 в 12:14

Вернули ещё немного простых заданий.

ludenus 28 ноя 2012 в 17:24

Она схватила ему за руку и неоднократно спросила: где ты девал деньги?

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий