Комментарии 116
Респект таким парням, даже с недоступным корпусом русского языка они не забывают о лингвистике, у них есть цель в жизни, они не опустили руки, а вы сидите за компьютерами и бессмысленно проводите свою жизнь…
Замечательный проект, обязательно буду участвовать и распространять информацию.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Как я понимаю, товарищи не собираются ограничиваться одним корпусом.
Я в частности крайне жду параллельных многоязычных корпусов.
Я в частности крайне жду параллельных многоязычных корпусов.
Да, имели ввиду именно множественное число.
Сейчас мы сосредоточились на одной цели, т.к. морфологическая разметка — это трудоёмкая и очень нужная задача. Все силы идут в эту сторону.
Сейчас мы сосредоточились на одной цели, т.к. морфологическая разметка — это трудоёмкая и очень нужная задача. Все силы идут в эту сторону.
С НКРЯ можно попробовать расправиться через краулинг ответов с высокочастотными словами.
Правда после тысячного запроса, клиент банится по IP.
До какого-то момента я с ними возился. Но потом это все надоело.
+ У них есть серьезная проблема с интерфейсом. Иногда оно зависает и пытается выдать много одинаковых ответов на одну и ту же страничку. Много — в смысле, очень очень много. При попытке воспоизвести это в браузере привело к его падению. Хорошо, что такое поведение не регулярно.
Правда после тысячного запроса, клиент банится по IP.
До какого-то момента я с ними возился. Но потом это все надоело.
+ У них есть серьезная проблема с интерфейсом. Иногда оно зависает и пытается выдать много одинаковых ответов на одну и ту же страничку. Много — в смысле, очень очень много. При попытке воспоизвести это в браузере привело к его падению. Хорошо, что такое поведение не регулярно.
А нельзя им написать «вы не охренели там?» и попросить открыть данные для скачивания?
Ну там в принципе на почту не отвечают.
Да ладно, писать краулер самому и парсить все это через html5lib было интересно.
Да ладно, писать краулер самому и парсить все это через html5lib было интересно.
Ну, парсер-то вы напишите, но техническая сторона тут не главный камень преткновения. Вы понимаете, что публиковать под открытой лицензией чужие закрытые данные полученные без согласия владельца — это совершенно другой вопрос, чем «насколько технологически сложно для этого написать парсер?»
В исследовательских целях — можно. Мне более и не надо было.
Результатом стало вот это:
www.slideshare.net/w-495/dsmts-diploma
В конце концов, я же никого не хакнул, а просто автоматизировал получение доступной информации.
Результатом стало вот это:
www.slideshare.net/w-495/dsmts-diploma
В конце концов, я же никого не хакнул, а просто автоматизировал получение доступной информации.
На тему лицензий, если уж совсем серьезно, то про них ничего вообще не сказано.
А потом, какой закон, и какую конкретно статью нарушит некто, решивший таки такое опубликовать в каких-то своих никому неведомых целях?
Думаю, тут скорее действует профессиональная этика что-ли.
А потом, какой закон, и какую конкретно статью нарушит некто, решивший таки такое опубликовать в каких-то своих никому неведомых целях?
Думаю, тут скорее действует профессиональная этика что-ли.
При общении с некоторыми людьми из коллектива НКРЯ скорее просится выражение «профессиональная жадность».
Это как человек (реально существующий), который уже лет 20, если не больше, делает какой-то семантический суперсловарь, рассказывает о нём на конференциях и всё надеется найти на него покупателя. А человеку уже за 60.
Это как человек (реально существующий), который уже лет 20, если не больше, делает какой-то семантический суперсловарь, рассказывает о нём на конференциях и всё надеется найти на него покупателя. А человеку уже за 60.
Там нельзя открыть по юридическим причинам: во-первых, исходные тексты под копирайтом (естественно), во-вторых, разметка, которую исправляло несколько сотен человек, тоже охраняется законом, а получить постфактум разрешение у каждого из этих сотен нереально.
Там большая проблема это права на сами тексты, а не на их разметку.
В веб-выдаче они все равно с нарушенным порядком предложений, и сами произведения перемешаны. Автоматизировать разрешенные действия — сомневаюсь, что в этом есть что-то противозаконное. Блокировка по ip они делают все скорее для защиты от чрезмерных нагрузок.
В веб-выдаче они все равно с нарушенным порядком предложений, и сами произведения перемешаны. Автоматизировать разрешенные действия — сомневаюсь, что в этом есть что-то противозаконное. Блокировка по ip они делают все скорее для защиты от чрезмерных нагрузок.
Family portait?
Попробовал помочь. Не хватает кнопки увеличения количества слов в примере, когда неясен контекст. Такие примеры, конечно, можно пропускать, но есть шанс, что их так никто и не «возьмёт».
Спасибо, что попробовали!
До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)
Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.
Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.
До границ предложения контекст можно расширить при помощи многоточий в начале и в конце примера. Попробуйте сейчас ;)
Показать несколько предложений не можем. Бывают неоднозначные примеры (не очень часто) — нажимайте «Другое» и пишите в коммент «Неснимаемая неоднозначность» + почему Вы так думаете.
Шанса, что пример никто не возьмёт нет, т.к. те примеры, которые никто не берёт, размечают самые опытные участники, модераторы, разработчики и т.д… Потом, если однотипных непонятных примеров много, про них пишутся разделы инструкции. Так что смело нажимайте «Пропустить», если пример непонятен.
Спасибо. В комменте ниже уже сказали про троеточие. Действительно, в IE есть. Похоже, адблокер в лисе развлекается :)
Вот у меня был такой странный пример только что. Нужно было определить число — единственное или множественное.
«игры воображения, игры таланта, игры ума.» Если бы это была часть предложения (либо «и нет у него игры воображения, игры таланта, игры ума» либо «именно у таких людей чаще всего встречаются игры воображения, игры ума, игры таланта») было бы просто, но когда я понял, что это предложение целиком — я встал в ступор. Что хотел сказать этим предложением высказывающийся? Имху — самое правильное — это в данном случае смотреть контекст по соседним фразам, одним предложением не ограничиться.
«игры воображения, игры таланта, игры ума.» Если бы это была часть предложения (либо «и нет у него игры воображения, игры таланта, игры ума» либо «именно у таких людей чаще всего встречаются игры воображения, игры ума, игры таланта») было бы просто, но когда я понял, что это предложение целиком — я встал в ступор. Что хотел сказать этим предложением высказывающийся? Имху — самое правильное — это в данном случае смотреть контекст по соседним фразам, одним предложением не ограничиться.
У меня есть — нужно нажать на 3 точки в сером прямоугольнике слева или справа.
Группу «habrahabr» создал, пока до топ 11 дотянул — велкам.
Не хватает ачивок.
А в остальном, это по сути один из немногих способов сделать что-то действительно полезное в жизни для многих офисных работников.
А в остальном, это по сути один из немногих способов сделать что-то действительно полезное в жизни для многих офисных работников.
Достаточно часто стало появляться javascript'овое окошко «Что-то пошло не так. Попробуйте перезагрузить страницу» — уже раз пять появлялось. Правда, после перезагрузки всё дальше работает.
Win7, Firefox 16.0.1
Куда вообще багрепорты писать?
Win7, Firefox 16.0.1
Куда вообще багрепорты писать?
Надеюсь, выдаваемые разным людям задания накладываются друг на друга? Для точности было бы хорошо, чтобы для каждого спорного случая было несколько вариантов разметки от разных людей, с очевидным выбором наиболее вероятного.
Когда был в Питере, забыл попросить. Постер пришлите, распечатаю на А4-А3 в институте развешу.
Ежик птица гордая… Так что я полез сразу в самые сложные задания винительный\родительный) и подзавис… Но потом открыл правило и все стало просто: для того, чтобы отличить винительный падеж от родительного подставляем вместо одушевленного слова, которое в обоих падежах отвечает на вопрос «кого?», неодушевленное, отвечающее на «чего?» (родительный) и «что?» (винительный) и жить становится проще.
Пример (не думать над смыслом, только над морфологией!):
«Главная причина слепоты у лиц среднего и пожилого возраста»
После замены:
«Главная причина слепоты у столов среднего и пожилого возраста»
столы:
кого? — столов
что? столы
Значит имеет родительный падеж, которого, кстати, большинство.
Успехов.
Пример (не думать над смыслом, только над морфологией!):
«Главная причина слепоты у лиц среднего и пожилого возраста»
После замены:
«Главная причина слепоты у столов среднего и пожилого возраста»
столы:
кого? — столов
что? столы
Значит имеет родительный падеж, которого, кстати, большинство.
Успехов.
После логина через google и обновления страницы
Ошибка 310 (net::ERR_TOO_MANY_REDIRECTS): Обнаружено слишком много переадресаций.
И добавьте ачивментов, пожалуйста :) Это же мотивация дополнительная.
Ошибку 310 не могу воспроизвести. В какой момент нужно обновить страницу?
Про винительный\родительный.
Странно, что не распознаются легко алгоритмизируемые моменты, например «среди » — X — родительный падеж.
Если, известны к каким частям речи принадлежат остальные слова, то еще можно "<числительное> X", X — родительный падеж. Это из того, что первое пришло в голову по хожу разметки.
Странно, что не распознаются легко алгоритмизируемые моменты, например «среди » — X — родительный падеж.
Если, известны к каким частям речи принадлежат остальные слова, то еще можно "<числительное> X", X — родительный падеж. Это из того, что первое пришло в голову по хожу разметки.
Они сравнительно легко алгоритмизуются, но если точность не 100% (а 100% она не будет), то потом всё равно нужно проверять руками.
Понятно, что проверять руками, но может быть сделать «предполагаемый вариант» в подобных случаях и выделять его каким-нибудь зелененьким?
Как часто происходят проверки размеченного?
Как часто происходят проверки размеченного?
У нас есть в отдалённых планах провести на это эксперимент, но коллеги-психолингвисты, которые делали похожие вещи, говорят, что это увеличивает процент ошибок.
Проверка происходит постоянно, но довольно медленно, к сожалению. Мы сейчас исследуем, какой процент ошибок получаем, если доверяем всем примерам, где все три человека согласились. Если окажется, что таких ошибок, условно, одна на миллион, мы сможем увеличить скорость проверки в несколько раз (зависит от типа заданий).
Проверка происходит постоянно, но довольно медленно, к сожалению. Мы сейчас исследуем, какой процент ошибок получаем, если доверяем всем примерам, где все три человека согласились. Если окажется, что таких ошибок, условно, одна на миллион, мы сможем увеличить скорость проверки в несколько раз (зависит от типа заданий).
Капец какая занудная регистрация у вас… opencorpora.org/login.php?act=register
Сделайте, блин, проверку ДО нажатия кнопки «зарегистрироваться»
Ну и прямо на страничке подскажите какие у вас где допустимые символы…
Я много где регистрировался и я в какой то степени чайник… У вас только с 5 раза…
Сделайте, блин, проверку ДО нажатия кнопки «зарегистрироваться»
Ну и прямо на страничке подскажите какие у вас где допустимые символы…
Я много где регистрировался и я в какой то степени чайник… У вас только с 5 раза…
Вам нужно завербовать школьников, чтобы они делали это вместо домашки по русскому )
Если сделать это обязательным — результаты будут не очень. Уже был опыт со студентами :-)
Скажите, а были ли какие-нибудь попытки посмотреть, как будет меняться качество, если увеличить число студентов на каждый пример? Ведь увеличение числа аннотаторов, как кажется, должно бы повысить точность разметки, не будут же они совсем случайно отвечать.
Пока не было.
Тут примерно такая дилемма: увеличивая число аннотаторов, мы получаем в среднем больше случаев, когда их ответы не совпадают и должны быть просмотрены модератором => растёт нагрузка на модератора. Выигрыш мы получаем только в том случае, если все (допустим) трое предыдущих отвечавших ответили неверно, а четвёртый ответил верно.
Тут примерно такая дилемма: увеличивая число аннотаторов, мы получаем в среднем больше случаев, когда их ответы не совпадают и должны быть просмотрены модератором => растёт нагрузка на модератора. Выигрыш мы получаем только в том случае, если все (допустим) трое предыдущих отвечавших ответили неверно, а четвёртый ответил верно.
НЛО прилетело и опубликовало эту надпись здесь
Без большого корпуса заниматься NLP грустно.
А с какого объёма можно уже тренировать снятие морфологической неоднозначности?
Ведь с какого-то момента можно было бы обучаться на том, что уже размечено, или по крайней мере ускорить процесс дальнейшей разметки хотя бы за счёт снятия частеречной омонимии (как понял из вашей диаграммы, она ещё не вполне снята)
А с какого объёма можно уже тренировать снятие морфологической неоднозначности?
Ведь с какого-то момента можно было бы обучаться на том, что уже размечено, или по крайней мере ускорить процесс дальнейшей разметки хотя бы за счёт снятия частеречной омонимии (как понял из вашей диаграммы, она ещё не вполне снята)
Мы сейчас где-то сделали около 7% (280 тыс ответов из ожидаемых 4 млн), но сегодня процесс идёт раз в 20 быстрее, чем обычно. Что очень радует.
Начинать можно даже с полностью неоднозначного корпуса по методу E.Brill ( citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=4FAD01411F0CB33045D20880B2E63998?doi=10.1.1.128.9159 ). Это статья 1995 года, но можно найти и ещё по запросу «unsupervised part of speech tagging». В этом случае корпус со снятой вручную неоднозначностью нужен будет для оценки результата.
Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:
— Сокирко и Толодова (2004)
— Зеленков, Сегалович, Титов (2005)
— Шаров и Nivre (2011)
Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.
Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.
Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.
Я думаю, что:
1. 180 тыс. слов и только машинное обучение, вероятно, мало
2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
3. есть ли существенная разница между 1 млн и 5 млн — непонятно
Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)
Начинать можно даже с полностью неоднозначного корпуса по методу E.Brill ( citeseerx.ist.psu.edu/viewdoc/summary;jsessionid=4FAD01411F0CB33045D20880B2E63998?doi=10.1.1.128.9159 ). Это статья 1995 года, но можно найти и ещё по запросу «unsupervised part of speech tagging». В этом случае корпус со снятой вручную неоднозначностью нужен будет для оценки результата.
Из известных мне статей про снятие морфологической неоднозначности в тексте на русском, три использовали НКРЯ:
— Сокирко и Толодова (2004)
— Зеленков, Сегалович, Титов (2005)
— Шаров и Nivre (2011)
Похоже, что речь шла о 5 млн слов, но это не везде очевидно. Точность получалась в диапазоне 94 — 97%.
Есть ещё хабрапост, в котором использовалась доступная выборка из НКРЯ в 180 тыс. слов (её и сейчас можно скачать). Там получилась точность 92%, что ниже, чем обычно приводят в работах про POS-tagging.
Вот тут ещё есть про POS tagging текста на болгарском. Говорят о 97% при использовании корпуса около 300К слов. Там, правда, не только машинное обучение, но и правила, составленные вручную лингвистами.
Я думаю, что:
1. 180 тыс. слов и только машинное обучение, вероятно, мало
2. 300 тыс. слов для машинного обучения + правила от лингвистов, возможно, достаточно
3. есть ли существенная разница между 1 млн и 5 млн — непонятно
Мы хотим 1 млн со снятой неоднозначностью. Потом ещё раз подумаем ;)
Unsupervised POS-тэггер — интересно, надо попробовать. Для оценки-то и 180 тыс. из НКРЯ хватит :)
Боюсь, правда, что английский POS очень сильно отличается от русского, и там придётся половину переделывать.
Но всё равно спасибо за наводку!
Боюсь, правда, что английский POS очень сильно отличается от русского, и там придётся половину переделывать.
Но всё равно спасибо за наводку!
Попробовать можно, Стэнфордский парсер отлично обучается, а уж в английском частеречная омонимия намного богаче, чем в русском.
Я скорее о том, что в английском достаточно жесткий порядок слов и слабая морфология, а в русском наоборот. Кроме того, в английском омонимия полная, а у нас часто бывает омонимия по форме, т.е. нужно выбрать не часть речи как таковую, а правильную комбинацию «слово+форма» (были = прошедшее от «быть» или множественное от «быль»? Сочи = город или повелительное наклонение от «сочить»?). В общем, на мой взгляд, задачи разные.
Про ускорить за счёт подключения машины: думаем подключатать машину на этапе модерации, т.е. представлять её как ещё одного аннотатора. Но разработчика, который бы взялся за реализацию этой затеи, у нас пока нет. От человека потребуется большая самостоятельность.
Нужны какие-нибудь баллы, соревновательность, так было бы интереснее.
Да даже банальный счётчик, сколько % сделал из задания — уже лучше, чем сейчас. Сейчас через некоторое время надоедает и скучно.
Да даже банальный счётчик, сколько % сделал из задания — уже лучше, чем сейчас. Сейчас через некоторое время надоедает и скучно.
хехе… Сделайте капчу на основе вашего сервиса — наподобие того, как google re-captcha оцифровывает книжки =) Шучу.
Ну а так — да, какую-то игровую механику нужно внедрить, ибо просто так этим заниматься быстро надоест.
Ну а так — да, какую-то игровую механику нужно внедрить, ибо просто так этим заниматься быстро надоест.
off: С днём рождения!
on: А как всё-таки обычному тупому лингвисту пользоваться открытым корпусом? Вы не предполагаете веб-мордочку для поиска, например? Вот мне хочется найти какую-нибудь статистическую информацию. И что? Срочно выходить замуж за программиста, который осилит разобраться? :-)
on: А как всё-таки обычному тупому лингвисту пользоваться открытым корпусом? Вы не предполагаете веб-мордочку для поиска, например? Вот мне хочется найти какую-нибудь статистическую информацию. И что? Срочно выходить замуж за программиста, который осилит разобраться? :-)
upd: понятно, что есть поиск по НКРЯ, но у вас же с ним очень разные тексты. И ещё хотелось бы какую-то инфу по составу корпуса, какие жанры в каком процентном соотношении представлены, и всё такое.
Спасибо!
Про поиск:
1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.
2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.
3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.
Итого, есть две задачи:
— научиться генерировать корпус из MediaWiki dump и HTML Часкора
— поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе
Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.
Про поиск:
1. для большинства лингвистических задач (т.е. для поиска примеров употребления чего-нибудь) НКРЯ лучше, т.к. он больше.
2. если собрать корпус из Часкора и Википедии/Викиновостей/Викитеки, а потом разметить его автоматически, то это будет куда более осмысленно, т.к. это будет современный язык + не очень маленький объём.
3. в Открытом корпусе поиск нужнее всего модераторам, т.к. им нужно искать по нашим граммемам.
Итого, есть две задачи:
— научиться генерировать корпус из MediaWiki dump и HTML Часкора
— поднять <a href=«cwb.sourceforge.net/>CWB на этом корпусе
Тут нужны добровольцы, которые хотят заниматься этим в свободное от работы время.
Напои меня чаем, напишу что-нибудь =)
Про первой ссылке (http://opencorpora.org/tasks.php?act=annot&pool_id=571) падежи прилагательных спрашиваются, что меня как-то с толку сбивает. Там нет возможности у вас в таких случаях падеж определяемого ими существительного использовать?
Это бы прекрасно работало, если бы определяемое существительное стояло сразу после определяемого им прилагательного или если бы у нас был синтаксический анализатор со 100% точностью (а если меньше 100%, то всё равно вручную проверять).
Я что-то пропустил — в разметке корпуса не предполагается связи прилагательных и существительных определять и хранить?
Предполагается, но пока этого нет, поскольку это уже синтаксис, а мы пока занимаемся морфологией.
Теоретически — да, можно было бы вместо того, чтобы просить людей определять падеж прилагательного, просить их связывать прилагательное с существительным. Наверное, когда-нибудь сделаем и так.
Теоретически — да, можно было бы вместо того, чтобы просить людей определять падеж прилагательного, просить их связывать прилагательное с существительным. Наверное, когда-нибудь сделаем и так.
Мож, стоит тогда перенаправить усилия людей на более полезные задания, скрыв такие вот, которые автоматом будут решены при других неизбежных работах? Чтоб не распылять… ведь автоопределению синтаксических связей эта работа не сильно поможет, вроде… то есть, всё равно же ту задачу решать, а после неё эта задача будет решена автоматом?
Тут есть, как мне кажется, два аргумента.
1. Эти «неизбежные работы» могут занять неопределённое время. Мы больше двух лет потратили только на адаптацию словаря и выработку разных решений по морфологии.
2. Большинству потенциальных потребителей наших данных даже корпус без связей, а только со снятой морфологической омонимией уже будет очень полезен.
1. Эти «неизбежные работы» могут занять неопределённое время. Мы больше двух лет потратили только на адаптацию словаря и выработку разных решений по морфологии.
2. Большинству потенциальных потребителей наших данных даже корпус без связей, а только со снятой морфологической омонимией уже будет очень полезен.
И «хочу ещё примеров» воспринимается так, как будто я подсказки прошу. «пример» и «задачка» всё же разные слова, «Пример» в смысле задания я только в младшей школе встречал, и то с трудом понимал, почему там задачи примерами называют.
Было бы здорово опубликовать подборку самых крутых / зрелищных/ занятных неоднозначностей, типа этих семи глаз.
Интересно, у каких слов вашего корпуса сейчас рекордное количество вариантов толкования?
Интересно, у каких слов вашего корпуса сейчас рекордное количество вариантов толкования?
Спасибо за идею ;)
Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.
Кол-во вариантов толкования можно посчитать по дампу (см. пример ниже, ссылки на дамп в начале opencorpora.org/?page=downloads ). Варианты толкования — это теги v. В данном примере их три.
<token id="3" text="злословия">
<tfr t="злословия">
<v>
<l id="115766" t="злословие">
<g v="NOUN"/><g v="inan"/><g v="neut"/><g v="sing"/><g v="gent"/>
</l>
</v>
<v>
<l id="115766" t="злословие">
<g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="nomn"/>
</l>
</v>
<v>
<l id="115766" t="злословие">
<g v="NOUN"/><g v="inan"/><g v="neut"/><g v="plur"/><g v="accs"/>
</l>
</v>
</tfr>
</token>
Была бы интересна возможность посмотреть свои ошибки.
Я вижу 5.9% ошибок в статистике. Любопытство теперь не даёт покоя, в чем был не прав.
Я вижу 5.9% ошибок в статистике. Любопытство теперь не даёт покоя, в чем был не прав.
Виктор, Дмитрий, поздравляю!
Кстати, вечером добавил отдельную статью OpenCorpora на NLPub. Если есть неточности — прошу вас, исправьте :)
Кстати, вечером добавил отдельную статью OpenCorpora на NLPub. Если есть неточности — прошу вас, исправьте :)
А в прокуратуру можно написать, чтобы в открытый доступ выложили то, что по идее нам и принадлежит — ведь куда ни плюнь — госконтора или госгрант: ruscorpora.ru/corpora-about.html
Хотя… там яндекс есть — вот кто во всем виноват :)
Я бы сосредоточился на выведении в общую собственность того, за что итак уже наши налоги были заплачены. Хотя это можно параллельно делать. Есть же на хабре юристы? Подскажите, как это организовать и насколько это реально?
Хотя… там яндекс есть — вот кто во всем виноват :)
Я бы сосредоточился на выведении в общую собственность того, за что итак уже наши налоги были заплачены. Хотя это можно параллельно делать. Есть же на хабре юристы? Подскажите, как это организовать и насколько это реально?
Про капчу уже писали. Я бы предложил шире — посылать нахер на сервис всех граммар-наци. Иной раз от умников аж в глазах рябит. А так, будь добр не в комментариях гадить, а пойти и доказать делом. Не хочешь делом, а хочешь исходить на говно и ссылаться на tsya.ru — только чтение или бан. Нужны плагины к форумным движкам :)
Делаете очень полезное/нужное дело, и отличная короталка времени во время ожидания.
Еще б не плохо было закачать сколько то примеров, ответить на них офлайн, а потом синхронизироваться.
Еще б не плохо было закачать сколько то примеров, ответить на них офлайн, а потом синхронизироваться.
Вот это было бы просто замечательно. Какая страшная куча времени уходит на пасьянс в телефоне, когда интернета нет!.. :-)
Тоже хочу, чтобы было Android / iOS приложение. Тема чуть-чуть обсуждается вот тут:
code.google.com/p/opencorpora/issues/detail?id=323
code.google.com/p/opencorpora/issues/detail?id=323
А что по этому поводу думает компания ABBYY? Они же вроде именно этим и занимаются. У них разве нет никаких корпусов текста? Они делиться совсем не хотят, даже получив государственный грант в Сколково?
Кончились задания на единственное/множественное число.
Верните! Дайте возможность даже самым безграмотным причаститься тела филологии!
Верните! Дайте возможность даже самым безграмотным причаститься тела филологии!
Первые два комплекта этих заданий кончились. Потом когда-нибудь будут ещё.
Вернули ещё немного простых заданий.
Она схватила ему за руку и неоднократно спросила: где ты девал деньги?
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
«Он видел их семью своими глазами»