• ABBYY NeoML: как мы делали библиотеку машинного обучения и зачем она нужна
    +3

    Поздравляю с релизом!


    Из статьи мне показалось, что вам важнее удобно и эффективно запускать модели, обученные при помощи других библиотек, таких как PyTorch и TensorFlow, чем использовать собственный код для обучения. Уверены ли вы в целесообразности разработки и поддержки ещё одной полнофункциональной библиотеки для машинного обучения, если можно сосредоточиться на развёртывании моделей? На мой взгляд, довольно тяжело соревноваться с ресурсами и сообществом вокруг проектов Facebook и Google.

  • Как помнить всех в лицо, или эффективный поиск лиц в большой базе
    +3

    Насколько понимаю, в вашей задаче можно обойтись и приближённым алгоритмом поиска ближайших соседей, что работает значительно быстрее. Рассматривали ли вы другие готовые решения — Faiss, Annoy, и им подобные? (В Faiss имеется реализация точного поиска, если без него обойтись никак нельзя.)


    Легко ли найти специалистов со знанием именно Dlib, а не TensorFlow и PyTorch? Как вы выбирали модель и настраивали её параметры?

  • Синтаксический разбор предложения русского языка
    0

    Главная трудность в обработке естественного языка — многозначность, которая проявляется чаще, чем мы способны формализовать. Синтаксический анализ сейчас обычно делается при помощи машинного обучения, см. старый обзор от Choi et al. (2015).


    Что, если вместо того, чтобы вручную описывать грамматику всего русского языка, сосредоточиться на задаче извлечения фактов? Она несколько проще в решении, но всё равно требует использования более сложного GLR-парсера, см. Томита-парсер и python-glr-parser. Попробуйте улучшить их результаты, например, с помощью вероятностных моделей — это должно быть весело!

  • Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности
    0

    Будет здорово. Сейчас зарегистрировалось больше пятидесяти участников, но мы не закрываем форму регистрации. Если возникнут вопросы, не стесняйтесь задавать их в Google-группе, на Facebook, или на NLPub Q&A.

  • Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности
    +2

    Разрешение лексической многозначности — важная открытая научная задача. Данное соревнование призвано объединить усилия людей по её решению и количественно оценить, насколько хорошо в данный момент автоматические методы решают эту задачу для русского языка.

  • Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности
    0

    Да, это было бы слишком быстро. Мы изначально планировали переместить срок приёма результатов до первого февраля. Информация на сайте дорожки RUSSE 2018 и в материалах участника уже обновлена.

  • FreeType 2.7 — превосходное качество шрифтов Linux
    0

    Стоит добавить ссылку на оригинальное сообщение “A small post about the v40 interpreter” из списка рассылки freetype-devel, адаптацией которого является данная запись.

  • Сравнение онлайн-сервисов склонения имен
    0

    Было бы здорово добавить ссылку на мой комментарий, чтобы у пользователей пока не возникало лишних иллюзий по поводу функциональности библиотеки.

  • Сравнение онлайн-сервисов склонения имен
    0

    Возможно, при наборе имени в Petrovich сбросился выбор пола. Насколько вижу, данное ФИО склоняется корректно.


    Ябдалаева Хуерга Хелицеровна

  • Сравнение онлайн-сервисов склонения имен
    0

    Увы, я не имею к этому сервису совсем никакого отношения и не располагаю набором данных, по которому обучалась модель. Держать в руках эту демонстрацию нужно правильно: сначала указывается имя, затем фамилия. Пример показан перед формой, «Мария Иванко» отлично распознаётся.

  • Сравнение онлайн-сервисов склонения имен
    0

    Не совсем так, см. выше. Применение машинного обучения полезно в задаче определения пола. Правда, в упомянутом примере используются не нейронные сети, а логистическая регрессия: http://research.digsolab.com/gender.

  • Сравнение онлайн-сервисов склонения имен
    0

    Добавлю пару слов по поводу Petrovich.


    Библиотека разрабатывалась для решения задачи склонения имён в случаях, когда пол известен. Например, в личных кабинетах и индивидуальных рассылках. Задача автоматического определения пола напрямую не относится к задаче склонения имён, но тоже обсуждается в контексте библиотеки. Среди несложных подходов обратите внимание на анализ окончаний и машинное обучение.


    Основная работа в Petrovich велась над открытой базой правил и её репрезентативностью. Правила переносимы и централизованно используются всеми портами. Это же позволяет довольно быстро реагировать на возможные неточности по отчётам и правкам.


    Сравнение в данной статье покрывает большое количество существующих инструментов, но является качественным сопоставлением. Очень интересно увидеть и количественный анализ. Например, сравнить аккуратность инструментов на основе набора данных, который используется для автоматического тестирования каждого изменения в правилах Petrovich, или любом другом.

  • Яндекс.Толока. Как люди помогают обучать машинный интеллект
    +4

    Сейчас «Толока» предоставляет только список полученных ответов на каждое задание, при этом вопрос их агрегации остаётся на усмотрение заказчика. Для обработки данных мы с коллегами используем Mechanical Tsar, в котором реализованы вероятностные методы оценки доверия к участникам: ZenCrowd, Dawid-Skene, и др. Применение таких методов обеспечивает более надёжный результат на тех же самых данных по сравнению с простыми эвристиками вроде «голос большинства» или «половина голосов».


    На мой взгляд, при использовании «Толоки» очень важно создавать тестовые («золотые») задания. Это неприятно и скучно, но позволяет обучить участников и за счёт этого существенно повысить качество разметки.

  • RuSSIR 2015: дедлайн подачи статей приближается
    0
    Распознать.
  • Вышел Open-source мессенджер для детей-аутистов
    +2
    Спасибо за интересный материал!

    Представленная задача не является новой, и в этой области всё упирается в две проблемы: 1) доступность размеченного графического материала и 2) технологии обработки текста. Если вы планируете визуализировать более-менее связные тексты на русском языке, то вас ждёт много интересных открытий.

    Обратите внимание на две замечательные работы на эту тему:

  • Двухфакторная аутентификация, которой удобно пользоваться
    +1
    Очень приятно, что появилась двухфакторная аутентификация: с ней спокойнее. Неужели предложенный подход оказался проще и удобнее, чем привычные SMS с паролями? Этот вопрос заслуживает отдельного поста.
  • Онтоинженер: от сотворения мира к порождению сущностей
    0
    Да, результаты обработки документов кладутся в индекс, поиск по которому осуществляется довольно быстро. Даже если закрыть глаза на вопросы производительности, остаётся вопрос целесообразности: неясно, как такие данные можно применить для значительного повышения качества поиска.

    На мой взгляд, гораздо важнее уловить профиль пользователя и угадать его сиюминутную потребность, чем тратить память и процессорное время на полный разбор документов. В качестве подтверждения можно посмотреть тематику пленарных докладов на ведущих конференциях последних лет по информационному поиску: ECIR 2014, ECIR 2015.

    Не забывайте про грамотность и закон Парето на примере публики из социальных сетей. Увы, не каждый носитель русского языка способен уловить тонкий смысл комментариев на скриншотах по ссылке. Пожалейте компьютеры: рано или поздно они тоже научатся чувствовать и переживать.

    Облака — всего лишь способ предоставления ресурсов. В соседнем комментарии я писал, что процесс такой обработки сложно распараллелить, а значит, горизонтальное масштабирование вряд ли поможет делу.
  • Онтоинженер: от сотворения мира к порождению сущностей
    0
    Я видел демонстрацию машинного перевода при помощи Compreno в 2012 году и перевод новости из (около) семи абзацев длился несколько десятков секунд. Несколько месяцев назад мои коллеги рассматривали Compreno для анализа содержимого документов и по каким-то причинам отказались в сторону более простых решений.

    При правильной реализации, время анализа предложения в значительной мере зависит от количества слов в нём, но такие решения всё равно не работают быстро: полный разбор документа тяжело распараллеливается из-за явления кореферентности. Бывают задачи, где время не так критично: системы общения, системы понимания текста, а есть задачи, где каждая миллисекунда на счету.
  • Онтоинженер: от сотворения мира к порождению сущностей
    0
    Эта информация была бы слишком избыточной для поисковиков. Но главная проблема состоит в производительности: Compreno занимается полным разбором каждого предложения, что очень накладно с вычислительной точки зрения. Сегодня применять подобные решения в поисковиках общего назначения выйдет слишком дорого (или долго). У специализированных поисковых машин, при этом, нет нужды в огромной онтологии.
  • Делаем бэкапы: как перестать волноваться за свои данные
    0
    Можно посмотреть на скрипт?
  • Делаем бэкапы: как перестать волноваться за свои данные
    +3
    Основное достоинство Amazon S3 и совместимых с ним сервисов заключается в том, что для них сделано очень много готовых и простых в использовании инструментов, в том числе и для создания резервных копий данных. Насколько сложно или неудобно заливать резервные копии напрямую на S3 по сравнению с предложенным решением?
  • Создание сетей терминов на основе анализа текстов
    +2
    Утверждение в первом содержательном абзаце ничем не обосновано: нет ни обзора существующих работ, ни ссылок на обзорные работы. Автоматизация построения онтологий — чрезвычайно важное (и интересное) направление исследований, но нельзя начинать с нуля. Мне кажется, статью можно улучшить добавлением отдельного раздела про особенности и недостатки существующих решений. В англоязычных работах это называется Related Work.

    Апробация тезауруса может выполняться двумя способами. Можно взять какую-нибудь дорожку РОМИП и сравнить результат работы вашего ресурса с известными результатами на этой дорожке. Можно сопоставить ваш ресурс с каким-либо золотым стандартом, но здесь всё сложнее, потому что нужно найти хорошо изученную онтологию по вашей тематике. Ну, есть ещё третий вариант — выполнить экспертную оценку, но это слишком долго и дорого. Обозначенная рубрика arXiv.org — всего лишь неразмеченный набор данных. Как вы собираетесь оценивать по нему свою онтологию?
  • Что такое Томита-парсер, как Яндекс с его помощью понимает естественный язык, и как вы с его помощью сможете извлекать факты из текстов
    +7
    После слов «планируем отдать эту технологию в open source» пролистал вниз, поставил плюсик и лишь потом вернулся и дочитал. Спасибо!

    Остаётся всего один неоднозначный момент.

    Изменятся ли условия использования после открытия кода? Анализатор хорошо работает уже сейчас, однако последняя часть пункта 3.2 текущего лицензионного соглашения запрещает любое более-менее практическое применение «Томиты».
  • Создание сетей терминов на основе анализа текстов
    +3
    Для статей подобного формата существуют специальные журналы, утверждённые ВАК. В том числе по компьютерной лингвистике и обработке естественного языка. Здесь принято писать менее формальным языком.

    Можно предложить сколь угодно методов автоматического построения тезаурусов лексических онтологий, но почему в статье нет раздела про апробацию полученного ресурса? Какова актуальность работы? Чем указанный подход лучше ручной разметки или других известных решений?
  • Petrovich просклоняет русские имена
    0
    Спасибо за комментарий!

    Эталонным поведением считается поведение Ruby-версии библиотеки, так сложилось исторически. Имеется централизованный репозиторий с правилами, которые должны использоваться всеми портами. Если этого не происходит, то нужно обратиться к автору порта. Если выявляются ошибки в правилах, то мы стараемся исправить их по мере информирования.

    Сейчас PHP-версия поддерживается difiso. Надеюсь, он увидит этот вопрос.
  • Comment from a drafted post.
  • KitKat Android 4.4 Unboxing (и даже краткий обзор)
    +2
    Наконец-то нормальный пост.
  • Искусственный интеллект под Android с открытым API
    0
    Немного упустил момент: технология распознавания речи используется собственная или же применяется решение от Google?
  • Платежный сервис Pays.io закрывается
    +2
    У ребят был очень модный сайт и складывалось ощущение, что дела идут замечательно. Их сервис выглядел так, что им хотелось пользоваться. Кто-нибудь знает реальные причины закрытия?
  • Петер Арвай (Peter Arvai), Prezi: «Креативность перевешивает опыт»
    +2
    Пожалуйста, не злоупотребляйте Prezi. Проблема заключается в том, что люди пытаются напихать как можно больше плывучих эффектов на каждый слайд. На моей памяти была конференция, где три докладчика подряд решили продемонстрировать свою «креативность» и глубокую творческую натуру. В итоге аудиторию укачало ещё в середине второй презентации, так как каждый видимый пискель был анимирован.

    Это такой же инструмент, как PowerPoint и подобные. Везде можно сделать омерзительное зрелище, но Prezi даёт больше возможностей для этого. Помните, что всё в итоге определяется умением человека взаимодействовать с аудиторией, а не выбирать функцию движения спрайтов.
  • Petrovich просклоняет русские имена
    0
    Пожалуйста, обратите внимание, что оригинальный репозиторий переехал на новый адресgithub.com/petrovich/petrovich-ruby.

    Теперь мы поддерживаем несколько официальных портов, список которых представлен на странице организации github.com/petrovich/petrovich.
  • Базы знаний. Часть 1 — введение
    0
    Проблема кривой обучения хорошо обозначена в самом начале статьи. Склад мышления наших людей таков, что они в большинстве своём не привыкли строить решения, основанные на данных. Тема с открытыми, например, государственными данными в России начинает подниматься только сейчас. Пройдёт несколько лет и станет легче (надеюсь).

    Безусловно, нет никаких проблем отобразить CSV в RDF напрямую. Это не всегда правильно, так как наверняка найдётся словарь RDF, который уже описывает данную предметную область, и в нём придётся разбираться. В области XML существует аналогичная ситуация с XML Schema. Это вопрос интероперабельности.
  • Базы знаний. Часть 1 — введение
    0
    Спасибо, за хорошую статью.

    Да, концепция Linked Data прекрасна представлением объектов в виде SVO-троек и возможностью рисования запросов по коллекциям таких троек. Однако, на мой скромный взгляд, существует две системных проблемы технологий Linked Data и Semantic Web:

    1. Достаточно резкая кривая обучения. Допустим, программисты хотят просто получить данные. Вместо этого им предоставляется «какой-то SPARQL» и аппарат дескрипционной логики. Если по работе приходится «писать контроллеры», то на столь высокие вещи у людей времени обычно нет.
    2. Нетривиальный способ публикации данных. Хорошо, когда твоя информационная система общается сразу в RDF. А если нет? Обычно люди представляют данные в чём-то ещё: реляционные СУБД, файлы, модные NoSQL-решения. Выгрузка данных в форматах Linked Data вызывает дополнительные накладные расходы.

    Когда информационная система изначально построена поверх Linked Data и эти форматы являются для неё родными, то всё чудесно. Практика оказывается, увы, несколько иной.
  • Petrovich просклоняет русские имена
    0
    Упомянул этот порт на главной странице репозитория, спасибо за отличную работу. Мне кажется, вам стоит объединить усилия с MainNika.
  • Petrovich просклоняет русские имена
    0
    Упомянул порт на главной странице репозитория, спасибо за отличную работу.
  • Petrovich просклоняет русские имена
    0
    Да, можно добавить рядом.
  • Petrovich просклоняет русские имена
    0
    Спасибо, исправим.
  • Petrovich просклоняет русские имена
    0
    Увы, Яндекс отключил свой сервис достаточно давно.
  • Petrovich просклоняет русские имена
    0
    Мне нравится такой вариант. Bonch, что скажешь?
  • Petrovich просклоняет русские имена
    0
    Спасибо, исправим.