Pull to refresh
0
0
Дмитрий Грановский @Granovsky

User

Send message

Лингвистические технологии ABBYY. От сложного — к совершенному

Reading time9 min
Views1.4K
Над решением проблем, связанных с автоматической обработкой естественного языка и пониманием машиной смысла текста, человечество бьется не один десяток лет. Определенных успехов в этой области достигла российская компания ABBYY, разработавшая универсальную лингвистическую платформу Compreno для выполнения множества прикладных задач на качественно ином уровне.

Идея разобраться с одной из ключевых проблем теории искусственного интеллекта и решить задачу понимания вычислительной техникой человеческой речи зародилась в умах специалистов ABBYY пятнадцать лет назад. Именно тогда с подачи основателя компании Давида Яна стартовали сначала научно-исследовательские, а затем опытно-конструкторские и технологические работы по созданию системы машинного перевода нового поколения, впоследствии переросшей в отдельный проект Compreno (прежнее название — Natural Language Compiler) по решению множества задач, связанных с обработкой естественного языка.
Читать дальше →
Total votes 13: ↑10 and ↓3+7
Comments8

Заметки об NLP (часть 1)

Reading time5 min
Views15K
В преддверии Нового года решил начать небольшой цикл статей, посвящённых наиболее интересующему меня лично направлению в обработке текстов на естественном языке. (То есть NLP в заголовке означает natural language processing — ваш К.О.) Синтаксический анализ, семантика, машинный перевод, поиск смысла слова в контексте — в общем, вся радость компьютерного лингвиста :)

Наверно, сразу имеет смысл определиться с уровнем изложения. Я сам пытаюсь заниматься компьютерной лингвистикой (с переменными успехами). Постараюсь рассказать о том, что конкретно волнует, чего уже можно, чего пока нельзя, и над чем как раз сейчас надо работать. Быть может, эти статьи помогут мне самому отструктурировать информацию в голове и опираться на уже готовую структуру в новом году. А если у читателей появятся свои идеи или мысли о сотрудничестве — ещё лучше.
Интересующихся прошу под кат
Total votes 67: ↑57 and ↓10+47
Comments54

В Калужской области в описании конфискованного имущества заменяют буквы

Reading time2 min
Views1.8K
Вопрос с заменой букв в лотах, который поднимался в прошлом году на уровне Хабра, а потом и на уровне Президента (тенденция, однако), оказывается, до сих пор актуален в Калужской области. Правда, в совсем других масштабах.

Совершенно случайно обнаружили аналогичный механизм на сайте территориального управления Росимущества по Калужской области — в разделе "Реализация арестованного и конфискованного имущества". Теоретически, на этом сайте можно купить «Факсимильный аппарат „Рапаsопiс КХ-F902RU“ за 500 рублей — разумная цена за б/у аппарат, но поиск по слову „Panasonic“ и Калужской области результатов не дает. Аналогичная ситуация с разными Saмsuпg'ами, холодильниками BOSH и прочей техникой иностранных брендов, представляющей хоть какой-то интерес. В других регионах тоже встречаются единичные нарушения, но именно по Калужской области это совершенно обычная практика.

Мы разместили новость на региональном портале (откуда она быстро уйдет в СМИ), а также написали обращение в калужскую прокуратуру и запаслись попкорном следим за развитием событий.

Читать дальше →
Total votes 93: ↑90 and ↓3+87
Comments86

Mathlingvo — блог о компьютерной лингвистике

Reading time2 min
Views5.4K
Natural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru

image

Читать дальше →
Total votes 29: ↑27 and ↓2+25
Comments8

Розалинд — платформа для изучения биоинформатики

Reading time2 min
Views17K
DNA

Широко известны сайты для решения олимпиадных задач по программированию, такие, как, например, TopCoder и Codeforces, а также сборники математических задач-головоломок, например, Project Euler. За последний год произошёл бум онлайн образования: возникли стартапы Coursera и Udacity, предоставляющие онлайн курсы от топовых университетов США… но для тех, кто хочет изучить биоинформатику, пока ничего нет.

Розалинд — проект, разрабатываемый в Санкт-Петербуге и University of California, San Diego с мая 2012 года, как раз заполняет эту нишу. Это платформа для обучения биоинформатике с помощью решения задач, бесплатная и открытая.
Читать дальше →
Total votes 63: ↑61 and ↓2+59
Comments36

27+ ресурсов для онлайн-обучения

Reading time5 min
Views970K

В настоящее время активно развивается система дистанционного обучения, теперь уже не является проблемой получение полноценного образования практически по любому предмету дистанционно. Онлайн-обучение имеет ряд преимуществ – обучение в индивидуальном темпе, свобода и гибкость, доступность, социальное равноправие. В сети появляется все больше сервисов, помогающих получать новые знания.

Статья содержит перечень ресурсов для онлайн-обучения, представляющих интерес преимущественно для программистов.

Читать дальше →
Total votes 174: ↑163 and ↓11+152
Comments68

OAuth на практике. Аутентификация и авторизация пользователей сайта через популярные социалки

Reading time14 min
Views346K
Думаю, не мне одному чрезвычайно надоели ресурсы, требующие регистрации по каждому поводу и без. С обязательной капчей, которая правильно введется только с пятого раза, с подтверждением по е-мейлу, которое обязательно свалится в спам и то — только через сутки. Придумывать каждый раз новую пару логин-пароль — забудется, вводить одно и то же на всех сайтах — небезопасно. Местами прокатывают пары вида «qwerty:qwerty» или «login:password», но, увы, далеко не везде. Надоело. Не счесть, сколько раз я, увидев надпись «только зарегистрированный пользователь может ****», просто кривился и закрывал вкладку, чтобы больше ни разу на этот сайт не заходить. Неужели администраторы ресурсов сами этого не понимают?
Читать дальше →
Total votes 126: ↑116 and ↓10+106
Comments180

«Он видел их семью своими глазами»

Reading time6 min
Views65K

Можешь выбрать подходящую к заголовку поста картинку?





Тогда научи робота! Он тоже хочет.


Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать дальше →
Total votes 155: ↑150 and ↓5+145
Comments116

Парсим русский язык

Reading time8 min
Views70K

В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))


Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):

Читать дальше →
Total votes 128: ↑124 and ↓4+120
Comments97

10 лучших игр для Ubuntu

Reading time3 min
Views247K
Большинство тех, кто перешел с операционных систем Windows или Mac OS на Ubuntu, сталкиваются с тем, что их любимые игры не работают на Ubuntu. И дело в том, что игровые студии мало обращают внимания на платформу Linux по причине того, что ОС Windows имеет большее распространение, а также существует мнение, что дистрибутивы на базе Linux мало распространены и нестабильны. Именно для этого создавалась Ubuntu, в которой реализован дружественный интерфейс для пользователя и достаточная стабильность.
Данный топик основан на старой записи в блоге LinuxGames07 и содержит обзор десяти лучших игр для Ubuntu, а также способ установки, скриншот и видео об игре и её описание.

1.Tremulous



image

Многопользовательская игра, смесь жанров 3D-action (FPS) и стратегии реального времени (RTS). Игра работает на базе игрового движка Quake III и изначально создавалась как модификация (мод) к игре Quake III.


Установка:
sudo apt-get install tremulous
Читать дальше →
Total votes 142: ↑104 and ↓38+66
Comments268

Определение части речи слов в русском тексте (POS-tagging) на Python 3

Reading time9 min
Views95K
Пусть, дано предложение “Съешьте еще этих мягких французских булок, да выпейте чаю.”, в котором нам нужно определить часть речи для каждого слова:

[('съешьте', 'глаг.'), ('еще', 'нареч.'), ('этих', 'местоим. прил.'), ('мягких', 'прил.'), ('французских', 'прил.'), ('булок', 'сущ.'), ('да', 'союз'), ('выпейте', 'глаг.'), ('чаю', 'сущ.')]

Зачем это нужно? Например, для автоматического определения тегов для блог-поста (для отбора существительных). Морфологическая разметка является одним из первых этапов компьютерного анализа текста.
Узнать, как это реализовать на Python 3
Total votes 82: ↑81 and ↓1+80
Comments74

Как выявить медленные SQL запросы?

Reading time2 min
Views92K
Это случалось с каждым из нас при разработке веб-сайтов или приложений, использующих MySQL в качестве базы данных. Производительность внезапно сильно падала, и вы не имели понятия, почему это случилось. Этому могут быть причиной многие факторы (сильная загрузка CPU, нехватка дискового пространства, или слабая пропускная способность канала), но также это может быть и неоптимизированный запрос, выполняемый намного дольше, чем должен.

Как узнать, какие из запросов выполняются дольше всего?
В MySQL есть встроенный функционал для ведения логов медленных запросов.
Узнать, как включить этот функционал
Total votes 34: ↑31 and ↓3+28
Comments57

Настройка и оптимизация MySQL сервера

Reading time9 min
Views315K
В этой статье будут описаны различные настройки MySQL, преимущественно те, которые влияют на производительность. Для удобства все переменные разделены по разделам (базовые настройки, ограничения, настройки потоки, кэширование запросов, тайминги, буферы, InnoDB). Сначала уточним имена некоторых переменных, которые изменились в версии 4 MySQL, а в сети продолжают встречаться и старые и новые варианты имен, что вызывает вопросы.
Читать дальше →
Total votes 180: ↑171 and ↓9+162
Comments19

Учим ПК разговаривать

Reading time10 min
Views17K
Для тех, у кого дома есть стационарный компьютер аля «home сервер». Предлагаю вашему вниманию одну интересную функцию, которую под силу реализовать многим.

Типичные задачи для такой машинки:
  • Медиа-центр
  • Torrent-качалка
  • Файловым хранилище
  • Репозиторий
Возложим на него еще одну задачу — человеческим голосом сообщать нам разные интересные вещи…
Читать дальше →
Total votes 77: ↑70 and ↓7+63
Comments43

Как я в вузе электронную коммерцию преподавала (ч. 1, подготовка к семестру)

Reading time3 min
Views2.9K
Закончив вуз летом 2009 года, я вполне натурально расстроилась, решив, что никогда уже не вернусь в альма-матер. С институтом в моей жизни было многое связано: я всегда активно участвовала в разнообразных конференциях, два младших курса подрабатывала методистом, помогала с выставками и другими мероприятиями… Однако, расставаться надолго не пришлось: в конце лета мне позвонили и поинтересовались, не хочу ли я читать курс электронной коммерции? Я, конечно, хотела. Судя по всему, других желающих не было, так как мне поставили занятия на субботу, чтобы я могла не отрываться от основной работы, и даже согласились закрыть глаза на вероятные отъезды в командировки, с условием, что я отчитаю все положенные часы.
Читать дальше →
Total votes 151: ↑134 and ↓17+117
Comments82

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Registered
Activity