Комментарии / Профиль dustalov / Хабр

Как стать автором

Димочка @dustalov

Уверенный пользователь ПК

Профиль Публикации 8Комментарии 171Закладки 3

Reinforcement Learning from Human Feedback: когда одной математики мало

dustalov 21 авг 2023 в 18:10

RLHF не является оптимальным способом научить машины думать, но пока это самый яркий пример из того, что у нас есть. Люди постепенно собираются и делают вместе разные открытые инициативы вроде BLOOM и Open Assistant, но опыта у сообществ меньше, чем у компаний, и пока не всё работает хорошо (но я верю в людей).

Важно понимать, что выравнивание в RLHF нужно не только для того, чтобы писать пользователям “As an AI language model ...”, а чтобы уточнить, как лучше общаться с пользователем. Одновременно обеспечить и безопасность, и полезность ответов довольно трудно, и это открытое направление исследований.

0

Посмотреть

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

dustalov 24 апр 2023 в 17:48

Поздравляю! Можете, пожалуйста, рассказать, как размечали данные для модели-оценщика в RLHF?

0

Посмотреть

Как Homebrew раздаёт 52 миллиона пакетов в месяц?

dustalov 16 фев 2023 в 16:50

Я думаю, что никто из AWS, Azure и GCP не будет дешёвым в данном случае. Возможно, Cloudflare R2 оказался бы сильно дешевле. Отдельный VPS с таким профилем нагрузки, на мой взгляд, будет сильно отличаться от других машин у хостинга и вызовет вопросы. В любом случае, сложно найти решение выгоднее, чем текущее — оно бесплатно и довольно удобно в обслуживании.

-1

Посмотреть

Агрегация ответов в краудсорсинге. Пример с открытой библиотекой Яндекса

dustalov 6 янв 2022 в 23:25

Да, конечно.

Мы реализовали несколько популярных методов, в том числе универсальный и надёжный метод ROVER, а также метод на основе автореферирования при помощи языковой модели, победивший в нашем соревновании методов агрегации текстов (см. статью).

В качестве отправной точки рекомендую нашу документацию: ROVER и TextSummarization.

0

Посмотреть

ABBYY NeoML: как мы делали библиотеку машинного обучения и зачем она нужна

dustalov 17 июн 2020 в 12:37

Поздравляю с релизом!

Из статьи мне показалось, что вам важнее удобно и эффективно запускать модели, обученные при помощи других библиотек, таких как PyTorch и TensorFlow, чем использовать собственный код для обучения. Уверены ли вы в целесообразности разработки и поддержки ещё одной полнофункциональной библиотеки для машинного обучения, если можно сосредоточиться на развёртывании моделей? На мой взгляд, довольно тяжело соревноваться с ресурсами и сообществом вокруг проектов Facebook и Google.

+3

Посмотреть

Как помнить всех в лицо, или эффективный поиск лиц в большой базе

dustalov 23 мая 2020 в 10:09

Насколько понимаю, в вашей задаче можно обойтись и приближённым алгоритмом поиска ближайших соседей, что работает значительно быстрее. Рассматривали ли вы другие готовые решения — Faiss, Annoy, и им подобные? (В Faiss имеется реализация точного поиска, если без него обойтись никак нельзя.)

Легко ли найти специалистов со знанием именно Dlib, а не TensorFlow и PyTorch? Как вы выбирали модель и настраивали её параметры?

+3

Посмотреть

Синтаксический разбор предложения русского языка

dustalov 26 авг 2019 в 22:25

Главная трудность в обработке естественного языка — многозначность, которая проявляется чаще, чем мы способны формализовать. Синтаксический анализ сейчас обычно делается при помощи машинного обучения, см. старый обзор от Choi et al. (2015).

Что, если вместо того, чтобы вручную описывать грамматику всего русского языка, сосредоточиться на задаче извлечения фактов? Она несколько проще в решении, но всё равно требует использования более сложного GLR-парсера, см. Томита-парсер и python-glr-parser. Попробуйте улучшить их результаты, например, с помощью вероятностных моделей — это должно быть весело!

0

Посмотреть

Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности

dustalov 13 янв 2018 в 19:11

Будет здорово. Сейчас зарегистрировалось больше пятидесяти участников, но мы не закрываем форму регистрации. Если возникнут вопросы, не стесняйтесь задавать их в Google-группе, на Facebook, или на NLPub Q&A.

0

Посмотреть

Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности

dustalov 13 янв 2018 в 17:39

Разрешение лексической многозначности — важная открытая научная задача. Данное соревнование призвано объединить усилия людей по её решению и количественно оценить, насколько хорошо в данный момент автоматические методы решают эту задачу для русского языка.

+2

Посмотреть

Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности

dustalov 13 янв 2018 в 17:16

Да, это было бы слишком быстро. Мы изначально планировали переместить срок приёма результатов до первого февраля. Информация на сайте дорожки RUSSE 2018 и в материалах участника уже обновлена.

0

Посмотреть

FreeType 2.7 — превосходное качество шрифтов Linux

dustalov 2 окт 2016 в 14:04

Стоит добавить ссылку на оригинальное сообщение “A small post about the v40 interpreter” из списка рассылки freetype-devel, адаптацией которого является данная запись.

0

Посмотреть

Сравнение онлайн-сервисов склонения имен

dustalov 3 авг 2016 в 20:30

Было бы здорово добавить ссылку на мой комментарий, чтобы у пользователей пока не возникало лишних иллюзий по поводу функциональности библиотеки.

0

Посмотреть

Сравнение онлайн-сервисов склонения имен

dustalov 3 авг 2016 в 20:28

Возможно, при наборе имени в Petrovich сбросился выбор пола. Насколько вижу, данное ФИО склоняется корректно.

Ябдалаева Хуерга Хелицеровна

0

Посмотреть

Сравнение онлайн-сервисов склонения имен

dustalov 2 авг 2016 в 17:04

Увы, я не имею к этому сервису совсем никакого отношения и не располагаю набором данных, по которому обучалась модель. Держать в руках эту демонстрацию нужно правильно: сначала указывается имя, затем фамилия. Пример показан перед формой, «Мария Иванко» отлично распознаётся.

0

Посмотреть

Сравнение онлайн-сервисов склонения имен

dustalov 2 авг 2016 в 16:41

Не совсем так, см. выше. Применение машинного обучения полезно в задаче определения пола. Правда, в упомянутом примере используются не нейронные сети, а логистическая регрессия: http://research.digsolab.com/gender.

0

Посмотреть

Сравнение онлайн-сервисов склонения имен

dustalov 2 авг 2016 в 16:25

Добавлю пару слов по поводу Petrovich.

Библиотека разрабатывалась для решения задачи склонения имён в случаях, когда пол известен. Например, в личных кабинетах и индивидуальных рассылках. Задача автоматического определения пола напрямую не относится к задаче склонения имён, но тоже обсуждается в контексте библиотеки. Среди несложных подходов обратите внимание на анализ окончаний и машинное обучение.

Основная работа в Petrovich велась над открытой базой правил и её репрезентативностью. Правила переносимы и централизованно используются всеми портами. Это же позволяет довольно быстро реагировать на возможные неточности по отчётам и правкам.

Сравнение в данной статье покрывает большое количество существующих инструментов, но является качественным сопоставлением. Очень интересно увидеть и количественный анализ. Например, сравнить аккуратность инструментов на основе набора данных, который используется для автоматического тестирования каждого изменения в правилах Petrovich, или любом другом.

0

Посмотреть

Яндекс.Толока. Как люди помогают обучать машинный интеллект

dustalov 20 июл 2016 в 21:18

Сейчас «Толока» предоставляет только список полученных ответов на каждое задание, при этом вопрос их агрегации остаётся на усмотрение заказчика. Для обработки данных мы с коллегами используем Mechanical Tsar, в котором реализованы вероятностные методы оценки доверия к участникам: ZenCrowd, Dawid-Skene, и др. Применение таких методов обеспечивает более надёжный результат на тех же самых данных по сравнению с простыми эвристиками вроде «голос большинства» или «половина голосов».

На мой взгляд, при использовании «Толоки» очень важно создавать тестовые («золотые») задания. Это неприятно и скучно, но позволяет обучить участников и за счёт этого существенно повысить качество разметки.

+4

Посмотреть

RuSSIR 2015: дедлайн подачи статей приближается

dustalov 21 мар 2015 в 20:13

Распознать.

0

Посмотреть

Вышел Open-source мессенджер для детей-аутистов

dustalov 14 мар 2015 в 17:13

Спасибо за интересный материал!

Представленная задача не является новой, и в этой области всё упирается в две проблемы: 1) доступность размеченного графического материала и 2) технологии обработки текста. Если вы планируете визуализировать более-менее связные тексты на русском языке, то вас ждёт много интересных открытий.

Обратите внимание на две замечательные работы на эту тему:

Jiang Y., Liu J., Lu H. Chat with illustration (2014).
Coyne R. E. et al. Evaluating a Text-to-Scene Generation System as an Aid to Literacy (2011).

+2

Посмотреть

Двухфакторная аутентификация, которой удобно пользоваться

dustalov 4 фев 2015 в 00:16

Очень приятно, что появилась двухфакторная аутентификация: с ней спокойнее. Неужели предложенный подход оказался проще и удобнее, чем привычные SMS с паролями? Этот вопрос заслуживает отдельного поста.

+1

Посмотреть

1

2 3 ...