• Суммаризация текста: подходы, алгоритмы, рекомендации и перспективы
    0
    Модель присваивает каждому слову случайные вектора и далее на каждом шаге обучения, «изучая контекст», корректирует их значения.

    Это жутко медленно. Можно использовать быстрый вариант: разбить w2v на классы (параметр при обучении), каждому слову присвоить класс (число — int), тогда пространство признаков сильно сокращается и сравнение (даже по косинусу) происходит быстро. А если разбивать на классы не встроенным в w2v алгоритмом (k-means), а написать свой, то можно получить пересекающиеся классы, что уже интереснее, и, ес-но, точнее работает.

    Но помимо этого есть методы суммаризации, основанные на эмотивных характеристиках текста, что особенно важно в соц. медиа (да и в СМИ неплохо работает). Учитывается сила сентимента, агрессивность и пр. Получаются неплохие результаты.

    А вот с бредогенераторами текста (даже на трансформерах) пока ничего толкового не видел…
  • Трансформеры как графовые нейронные сети
    0
    Не очень понятно, зачем городить такой огород, если с лингвистическими задачами типа PoS-tagging, NER и пр. прекрасно справляются обычные графовые алгоритмы типа CRF?
  • Как Яндекс научил искусственный интеллект находить ошибки в новостях
    0
    Спасибо за интересный материал. Скажите, а моделью с трансформера не планируете поделиться с обществом?
  • Профессиональный лексический анализ на регулярных выражениях
    0
    дело в том, что регекспы охватывают большой диапазон вариантов, из которых для решения задачи, как правило, нужна лишь небольшая и конкретная часть. Поэтому самописные решения на низкоуровневых языках под конкретную задачу (например, токанизацию) работают на один-два порядков быстрее, чем регекспы.
  • Профессиональный лексический анализ на регулярных выражениях
    +1
    я бы добавил сюда (и даже поставил на первое место) очень низкую скорость работы регекспов, — их разумно использовать только на этапе исследования, а в «боевом» коде регулярки лучше избегать.
  • О барьерах использования знаковых систем в искусственном интеллекте
    +1

    Давайте так: варенье отдельно, мухи отдельно. Вы определите, что такое мышление, и что такое с смысл. И рамках этих определений будете утверждать: это возможно, а это нет. Если говорить о мышлении, как о корковых процессах, то рано или поздно их удастся симулировать. Если говорить о смысле, как о нечеткой категоризации, то это уже реализовано. А вот если мы подключаем эмоции — это уже другой разговор. Эмоции это основа смыслообразования, движок мышления. И чтобы их повторить, нужно что-то типа биоробота, а это уже совсем другая песня. Знаки- это вторичная система, и описывать ими первичную (я про эмоции) нелогично.

  • Финтех-дайджест: блокчейн-смартфон от HTC, определение платежеспособности по марке телефона и регулирование ICO в России
    0
    Вот-вот. Это как посчитать: если в штатах у каждого второго iPhone, то и статистика будет «работать» на них просто потому что их больше.
  • Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка
    0
    объясняем ее предсказания

    — а не могли бы поподробнее, какие предсказания на дискриминационных моделях можно делать?
  • Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Знаки
    0
    под анализом текста понимается главным образом две совершенно практические задачи, связанные либо с извлечением какого-либо контекста, либо перевод текста с одного языка на другой.

    Еще есть отдельная задача генерации текста, которая включает в себя анализ — всякие там боты и пр.
    Является ли эмоция самостоятельным сигналом?

    Я бы сказал больше: эмоции — это то, что служит основой для знаков. Или способствуют порождению знаков.
    Вообще эмоциям уделяется неоправданно мало внимания. То что вы тут приводите — классическое семиотическое описание коммуникации. Теория, ес-но, не нова. Но, к сожалению, до сих пор полезна разве что для умозрительных построений, практически мало осуществимых. Поэтому, как мне кажется, нужна какая-то другая идея. Конечно, можно работать в рамках динамически меняющегося во времени денотата. То есть можно, скажем, построить Марковскую сеть всех знаков (связанный сложный граф) и для каких-то случаев это хорошо заработает. Но связи в языке не статичны, а находятся в постоянной конкуренции друг с другом. И эту динамику как раз и задают эмоции. Как это смоделировать в ИИ — пока не знаю. Да, и понятно, что это в равной степени касается как генерации, так и анализа текста.
  • Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке
    0
    Если у вас приоритет в скорости обработки, то нет смысла использовать нормализацию (даже больше: морфологию). Т.е. работать с плоским текстом. Нормализация почти не дает выигрыша. Ну а если качество — то да, лучше использовать. Иначе согласование и агрегацию одинаковых сущностей будет сделать сложно.
  • Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке
    0
    Тогда вам есть куда расти. Нужно снимать частиречную омонимию (система должна понимать, что «маша» это noun, а не verb) и проверять по словарю имен собственных для работы с регистром (потому, как, например, «Путина» в начале предложения может быть и имя (в род. или вин. падеже) и слово нарицательное (в именительном)) — и таких примеров много. Хорошо бы еще снимать омонимию по морфо признакам. Но это уже чуть сложнее.
  • Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке
    0
    Зачем «людей с трехбуквенными именами»? Это легко лечится правилами на пост обработке.
  • Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке
    0
    Хорошая работа. Правда, на счет
    Для текстов с русскими именами качество получается ~0.95
    — сомневаюсь. Скажем, «Маша мыла Раму» — ничего не находит. Пока есть проблемы со именами собственными, совпадающие с нарицательными.
    А зачем вам нормализация? Она повышает точность не более чем на 1%, а скорость съедает довольно существенно. Нормализация нужна на пост обработке: при согласовании, агрегации, кореференци.
  • Предвыборная гонка глазами поисковых роботов
    0
    Поток — это все, что генериться, например, за сутки: вся текстовая информация в интернете. Не важно это паблишеры или юзеры. Тем более, что в современных реалиях они не различимы: у юзера может быть многотысячная аудитория. Разница только в том, что одни открыты, а другие закрыты для скачивания без регистрации.
  • Предвыборная гонка глазами поисковых роботов
    0
    Вы спрашивали о словах: ~100,000,000 в срезе.

    — примерно такой ежедневный поток (в словах) генерируемых только в русскоязычном секторе. В англоговорящем — на несколько порядков выше. У вас нет распознавания языка: putin практически во всех индо-европейских языках пишется одинаково. Поэтому ваша статистика только с официальных открытых сайтов, типа СМИ — средств массовой информации, причем разделенная не по языку, а только по алфавиту. Вы же не майните твитер, фейсбук, вконтакте и пр. — а соц.сети это до 95% новой информации. Я про это говорил.
  • Предвыборная гонка глазами поисковых роботов
    0
    М — это миллион, миллиард или мегабайт? У вас исследование на русском языке (или нет? вы не указали, какие языки используете). Нет ни слова ни об объеме, ни о презентабельности выборки. Что вы собираете: только СМИ или только соц.медиа. Учитывая, что сбор соц. медиа — задача не из тривиальных, то выборка по русскоязычным СМИ — это не более 5% от общего потока русскоязычных сообщений. Поэтому это либо плохо написанная статья, либо дешевый пиар под выборы.
  • Предвыборная гонка глазами поисковых роботов
    0
    А каков у вас объем выборки (в словах или байтах) и кол-во источников (скажем, за сутки)?
  • Получение параметров команды из человеческой фразы
    0
    Тогда понятно. Сбываются грезы Виктора Олеговича: RCP — random code programming :)! (см. книгу iPhuck 10)
  • Получение параметров команды из человеческой фразы
    +2
    Я прощу прощения, но такие публикации больше напоминают БСДМ: что-то взяли, зачем-то куда-то запихали и получили удовольствие. Нет ни постановки задачи, ни результата. Бессмысленные какие-то действия.
  • Специалист по ИИ утверждает, что ему удалось понять, на каком языке написан манускрипт Войнича
    +3
    Кондракт со своим коллегой перевели Всеобщую декларацию прав человека на 380 языков. Затем, используя специальные алгоритмы, они обучили компьютерную систему распознавать разные языки. И она смогла правильно определить язык в 97 случаях из ста.

    — при таком подходе система в любом случае выплюнет какой-нить результат. Почему 380 современных языков, а не 3800 древних???
    в общем, выглядит сомнительно…
  • Исправляем опечатки с учётом контекста
    +1
    Спасибо, интересная статья. Пару раз я делал подобные сервисы, причем не только исправления орфографии, но пунктуации и стилистики. Идея была немного другая. Сначала работал Hanspell с хорошо переработанными словарями. Но Hanspell выдает несколько вариантов на слово. А вот вариант выбирается языковой моделью. В пунктуации работал алгоритм, похожий на Symspell. До «продакшн» сервисы не дошли. Проблемы: во-первых, слишком неповоротливы (perfect hash я тогда еще не знал, лет 7 назад это было). Во вторых, проблема неизвестных слов. Если слова нарицательные можно учесть почти все, то имена собственные — открытое множество, растущее почти линейно. А система все рано пытается заменить неизвестное слово на ближайшее. Моделями, даже с хорошим сглаживанием, можно убрать наиболее частотные ошибки, но всех комбинаций модель учесть не может. А точность, которую желает видеть потребитель, должна быть не менее 95%.
  • Amazon MTurk и Emotion Miner: краудсорсинг, большие данные, эмоциональные технологии
    +1
    Тема архиинтересная, поскольку, уверен, что эмоции рано и поздно станут основой ИИ. Но хотелось бы побольше именно о технологиях, результатах, прогнозах.
  • Рак: мифы и заблуждения
    0
    Жаль, что нет ни слова про стволовые клетки. Есть данные, что они могут провоцировать возникновение онкологии.
  • Языки России в Интернете
    +1
    умирание языка == умиранию культуры. Напомню, русский язык далеко не первый и не главный в современном мире. Да в принципе, ничего страшного не произойдет, если если его тоже через какое-то время не будет. Для тех, кто на на нем никогда не говорил, разумеется. Да, собсно, и этот спор будет уже бессмыслен.
  • Языки России в Интернете
    –2
    Это, вообще, кому-нибудь нужно ...?

    Ответ в приведенной Вами цитате — глобализация. Чем больше многообразие языков и культур, тем интенсивнее, ярче развивается общество. А когда по телевизору только товарищ киселев, а на компах только виндоуз, — это служит сильным тормозом в желании что либо делать. Отсутствие конкуренции не только в бизнесе, а прежде всего в повседневной жизни, приводит к застойным явлениям с последующими вспышками агрессии.
  • Нечёткое сравнение строк: пойми меня, если сможешь
    0
    Один из самых простых и быстрых алгоритмов нечеткого сравнения строк — сим-хеши на н-граммах (буквенных). Точность выставляется порогами.
    Можно использовать сравнение семантических классов, полученных из w2v. Работает еще быстрее и очень не затратно по ресурсам.
  • Метод формализованных моделей как альтернатива нейронным сетям
    0
    Если ошибаюсь — поправьте.

    Основной причиной неприятия нейростей, как я понял из статьи, является то что «денотаты оказываются без чётких границ». Но, как написано ранее, денотаты это именования «лексем с семантическими классами». Как мне кажется, у денотата по сути не может быть четких границ, т.к. он меняется не только диахроничеки и синхронически. То есть это понятие больше психологическое, нежели семиотическое.
    Формальные модели, десятками разработанные нашими и зарубежными лингвистами за последние лет 50 не показали себя на практике. Как раз по той причине, что либо они были слишком формализованы, либо требовали невероятно запутанных онтологий.
    Но я полностью согласен с постановкой вопроса: нейросети не панацея. Выбор сложности алгоритма зависти от сложности решаемой задачи. И если морфологические или синтаксические задачи хорошо решаются стандартными стат.методами (наивным Байесом, случайными Марковскими полями и пр.; да и даже формальными моделями), то семантика требует более сложных вещей. Это не обязательно могут нейросети, но их скорость и качество оптимизации семантического пространства все-таки лучше, чем обычных стат.методов. И как раз главное их преимущество, что денотат нечеткий, его можно регулировать, варьируя параметры и корректируя обучающую выборку, и что важно — выборку без семантической разметки.
    И, пожалуй, еще бы отметил в качестве размышления: не встречал ни одну формальную модель, учитывающую лексические эмоциональные составляющие (эмотивы). Как я понял, те же дискретные и непрерывные денотат-объекты — это либо имеющие плавающую эмотивную составляющую, либо нет (непрерывные). Эмоции «расшатывают» и даже меняют денотат. Неросети, к сожалению, это тоже пока не могут (я не говорю про сентимент-анализ — это на уровне классификации лексики, а не оценки эмоций). Поэтому здесь вопрос поиска алгоритма пока открытый.
  • Векторные модели и русская литература
    0
    Нет, я работаю с русским. Качество зависит от объема обучающей выборки. Вот, например, верх такого класса из w2v на объеме около 10Г:
    кроху
    дочку
    мамочку
    дочу
    детку
    родню
    младшую
    сестренку
    жену
    малышку
    — растащить по частям речи и можно использовать, все уже в нужной форме. Еще можно попробовать присоединять предлоги к словам. Это увеличит словарь процентов на 20%, но улучшит качество классов.
  • Векторные модели и русская литература
    0
    Вопрос: а зачем использовать нормализацию? W2V прекрасно работает с плоским текстом и выдает хороший результат. Только для обучения потребуется больше материала.
    И я бы называл это не «семантически похожие слова», а ассоциативно-семантические. Так более правильно, поскольку в ассоциативный класс входят и антонимы (тут ничего удивительного, как правило, это одна и та же эмотивная шкала).
  • Делаем спеллчекер на фонетических алгоритмах своими руками
    0
    Примерно половина описанных вами ошибок лечится коррекцией словаря того же hunspell, но вот с фонетическими коррелятами бороться сложно. Интересно, какова скорость работы алгоритма (ибо Левенштейн — не быстрый алгоритм)?
    Кстати, могу добавить ссылочку на реализацию DMSoundex.
  • Технологический стек классификации текстов на естественных языках
    0
    Все верно. Я бы назвал это не семантической близостью, а ассоциативной (ассоциативно-семантической, ассоциативно-синтаксической). По этому принципу работает не только «понимание», но и распознавание речи, например, модель когорты. Мышление не алгоритмично, потому что не логично в рамках формальной логики. Но дело не только в «первообразах», но и причине их выбора из множества почти одинаковых. Неокортекс отвечает за отработку уже обозначенной доминанты, причина возникновения которой уже где-то в паралимбической области (про это книга Свердлик: Как эмоции влияют на абстрактное мышление ...). Т.е. кора — это необходимое условие мышления, но далеко не достаточное.
  • Технологический стек классификации текстов на естественных языках
    0
    Вопрос:
    2.5 млн. токенов словарь ужимается до 256 элементов вектора действительных чисел;

    — это принудительно сжать, типа k-mean-ом? Или более хитро?
  • Технологический стек классификации текстов на естественных языках
    +6
    Мне кажется, будет актуально:
  • Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)
    –1
    Спасибо, с ваши публикации читал, разумеется.
    1 — пробовал, но выбрал другой вариант (напишу во второй части), более простой (и более быстрый). А поскольку результат удовлетворил, то на том пока и остановился.
    2 — именно это и является главным. Если в вкратце: для нормализации использовал df и дисперсию (или sd — без разницы).
    3 — интересная мысль, но это уже будет классификация, наподобие обучения с учителем. А нужна чистая кластеризация: идет поток сообщений по всем популярным источникам (сотни сообщений в секунду), нужно поймать основные кластеры, скажем, за четверть часа…
  • Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)
    0
    Алгоритм, действительно, прост и его достаточно описать на словах. Интереснее само получение моделей. Во второй части будут и формулы, картинки и примеры. Возможно, что-то выложу в гит.
    И да — как я понимаю — обучал word2vec на наборе текстов и кластеризовал полученные вектора? Было бы интересно получить набор кластеров (ну и вектора word2vec, для которых он составлен, конечно).

    Да, обучал на большом объеме текстов, но не кластеризовал, а использовал при обучении параметр "-classes", например:
    time $BIN_DIR/word2vec -train $TEXT_DATA -output $CLASSES_DATA -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500
    — там уже вшит k-mean.
  • Обзор сервиса Grammarly для улучшения письменной речи на английском языке
    0
    Как раз не так давно тестировал этот сервис (на новостях bbc & cnn). По моему, он несколько избыточен, т.е. часто показывает не ошибки, в частности, это касается артиклей; иногда пропускает ошибки согласования и множественного числа.
    Расскажите лучше об используемых алгоритмах. Например, как быстро их «перенести» на другой язык?
  • Синтаксический анализ текстов с помощью SyntaxNet
    0
    Спасибо, интересная вещь. А что со скоростью, можно ли на поток ставить?
  • Искусственный интеллект, вызовы и риски – глазами инженера
    +1
    Вы хотите, чтобы микроволновка могла на вас обидеться и отказаться работать?

    Если мы говорим о полноценном ИИ, то да. А если как о частичной замене человека — то зачем эмитировать мышление? Большинство машинных задач, причем даже и семантических, не имеют к мышлению никакого отношения.
    P.S. Я говорил не о эмуляции эмоций, а порождении языка «на эмоциях» (в ключе генеративной грамматики и пр., только еще глубже :). Это немножко сложнее, чем Байес.
  • Искусственный интеллект, вызовы и риски – глазами инженера
    +1
    Тогда какой смысл в неросетках, если я те же результаты получаю стандартными стат. методами, обучаясь на небольших датасетах?
    Не уверен, что человеческое мышление можно повторить, поскольку оно не логично, а скорее мифо-логично. Да и зависит от состояния паралимбической области мозга в данный момент времени, т.е. определяется эмоциональным состоянием, а логикой обучения.

    По поводу больших датасетов: ИМХО внедрение новейших технологий гуглом ухудшило поиск — теперь сложно получить ответ на специфический запрос, выходящий за пределы парадигмы. Поэтому дело не только в данных, но и «гибкости» решения.
  • Искусственный интеллект, вызовы и риски – глазами инженера
    +1
    Согласен, что нейросетки достигли определенного прогресса в распознавание образов и речи (те же образы, только спектральные). Но в лингвистике увы и ах (за исключением простых задач, типа классификации текста). Ибо главная задача нейросети — минимизировать ошибку распознавания образа. Но в лингвистике образ семантический, который можно передать тысячами способами словесных цепочек. Технологии, позволяющие вынимать смысловой образ из текста, пока в зачаточной стадии развития (я не беру в рассмотрение тяжелые и туманные LSA или LDA). Поэтому я не спешу быть в тренде и переводить целиком систему на нейросети. Скорее использовать локально, для оптимизации промежуточных результатов.