«Центр речевых технологий» предоставляет речевые базы для создания прототипа системы распознавания речи

С целью найти талантливых специалистов, готовых посвятить себя деятельности по развитию речевых технологий в России, Центр речевых технологий (ЦРТ) предоставляет собственные речевые базы. Они содержат не просто звуковые файлы с текстовками, но и разметку по времени, выполненную специалистами ЦРТ.

Отсутствие баз значительно ограничивает исследователей в работе над алгоритмами распознавания русской речи, так как сбор и создание речевой базы – очень трудоемкая работа, которая вряд ли под силу самостоятельным ученым и стартапам. Воспользовавшись данными, предоставленными ЦРТ, сообразительные исследователи довольно легко смогут разработать прототип системы распознавания слитной (!) речи и предоставить его на конкурс «Родная речь-2013», который проводит ЦРТ совместно с НИУ ИТМО и при технической поддержке деловой сети «Marketing to Innovation, Education, Science», созданной на базе НИУ ИТМО.

Главным призом победителю станет job offer – возможность работать в составе команды разработчиков ЦРТ в головном офисе в Санкт-Петербурге. Кроме того, победитель получит денежную премию в размере 100 000 рублей. Участники, занявшие вторые и третьи места, также смогут рассчитывать на работу в компании и на ценные призы – iPhone 5 и iPad 4.

Подробная информация об условиях конкурса Сроки регистрации участников продлены до конца апреля.

«Центр речевых технологий» — российская компания, которая является международным лидером в области речевых технологий. ЦРТ ведет разработки в области синтеза и распознавания речи, голосовой биометрии, обработки речи и высококачественной записи. Предлагаемые решения востребованы в более чем 75 странах мира. ЦРТ со всем вниманием относится к своим сотрудникам, что подтверждают 7-е место среди работодателей России и 3-е место среди ИТ-компаний страны в общероссийском рейтинге, который проводила по итогам 2012 г. компания HeadHunter.

image
Центр речевых технологий (ЦРТ)
Компания
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 6

    +6
    на халяву решить свои вопросы?
    Интересно будет посмотреть на результаты, которые получат организаторы, да и на тех, кто согласиться
    в этом участвовать…
      0
      Даже если так, всё равно такая база в открытом доступе — это очень круто. Маленькой группе, а тем более одиночке нечего и начинать без подготовленных баз.
        +1
        Исходя из демки на сайте — обычный человек в обычный микрофон читает текст, в не самом лучшем качестве кстати. Права на использование ограничены лицензионным соглашением. В чем очень крутость?
          0
          Окей. Вы можете привести пример другой подобной базы в открытом доступе?
            0
            Я не kuskus, но отвечу. Пример подобной базы, правда для английских цифр ICSI Meeting Recorder Digits Corpus (http://www1.icsi.berkeley.edu/Speech/mr/mrdigits.html). После распаковки и постобработки у меня получилось на диске более 11000 файлов записей последовательностей цифр. Так что это достаточно представительная база.
      +4
      Походу 1 статьи не хватило, решили ещё одной заманить людей.

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое