Pull to refresh

Comments 21

Почти сработало даже с именами кошек:


у меня есть две кошки кисель и пушинчик я их очень люблю
У меня есть две кошки — Кисель и пушинчик. Я их очень люблю.
на завтрак я сегодня хавал темную энергию укутавшись в незримую материю вселенной и запивая молоком гравитационных волн разлитых звездами которых давно нет я перевариваю боль вселенной я здесь живу веками во тьме построенной из сгустков атомов рожденных смертью света и сотканных в агонии случайных встреч а теперь я должен сидеть и смотреть на твое тупорылое хлебало

Местами очень хорошо, местами лулзово:


На завтрак! Я сегодня хавал темную энергию, укутавшись в незримую материю Вселенной и запивая молоком гравитационных волн, разлитых звездами которых давно нет. Я перевариваю боль Вселенной. Я здесь живу веками во тьме, построенной из сгустков атомов, рожденных смертью света и сотканных в агонии случайных встреч. А теперь я должен сидеть и смотреть на твое тупорылое хлебало.

Оно не очень-то работает...почти работает

Не совсем понимаю, откуда такой вывод. Уже пару недель крутится модель (ее прошлая версия) в нашем боте и работает прекрасно.


На большинстве предложений без изысков тоже работает. Моменты возникают, когда хочешь пострессовать модель на каких-то особых предложениях.

UFO just landed and posted this here
тогда в детстве всё было по-другому и дни длиннее и земля больше и хлеб не привозной мне нравились попутчики завораживало таинство их жизни открытое мне случайно как бы мимоходом вот чистенькая старушка разворачивает газетку в которой аккуратно сложены перья лука пирожки с капустной начинкой и яйца сваренные вкрутую вот небритый папаша укачивает сидящую у него на коленях маленькую дочку и столько нежности в том осторожном движении которым этот мужик корявый и неловкий прикрывает девочку полой своего потрёпанного пиджака вот пьют водку расхристанные дембеля вроде бы ошалев от счастья они вразнобой гогочут братаются но внезапно будто что-то вспомнив начинают драться потом плачут от невозможности выразить непонятное им страдание снова обнимаются и поют песни только через много лет я понял как черствеет душа когда долго живёшь не дома

Получилось:


Тогда в детстве всё было по-другому и дни длиннее, и земля больше и хлеб не привозной. Мне нравились попутчики завораживало таинство их жизни открытое мне случайно, как бы мимоходом. Вот чистенькая старушка разворачивает газетку, в которой аккуратно сложены перья лука, пирожки с капустной начинкой и яйца сваренные вкрутую. Вот небритый папаша укачивает сидящую у него на коленях маленькую дочку и столько нежности. В том осторожном движении, которым этот мужик, корявый и неловкий прикрывает девочку полой своего потрёпанного пиджака. Вот пьют водку, расхристанные дембеля вроде бы ошалев от счастья. Они вразнобой гогочут братаются, но внезапно будто, что-то вспомнив начинают драться потом плачут от невозможности выразить непонятное им страдание снова обнимаются и поют песни только через много лет. Я понял, как черствеет душа, когда долго живёшь не дома.

Вы не приложили результат работы сетки. Чтобы у публики не было сомнений насчет качества решения — вот то, что выдает сетка. Пусть каждый судит сам.


Вообще когда люди читают диктант там:


  • За 1 любую ошибку оценку снижают на 1 балл;
  • Много пунктуации является авторской и диктор часто помогает людям, "намекая" интонацией, потому что он читает с листа;
  • Тут классические русские предложения длиной в абзац и некоторые редкие знаки препинания нами специально не обрабатываются;

Поэтому лично кажется, что сетка справилась великолепно.

Лично мне кажется, что результат работы сети, специально предназначенной для расстановки знаков препинания, в этом случае очень посредственный. И авторская пунктуация тут ни при чём — ошибки обыкновенные. Конечно, по меркам интернет-общения это уже норма, но грамотному человеку, не дислексику, глаз режет.

Даже не знаю, что здесь ответить.
Ну будет коммерческий заказ, чтобы сделать именно идеально на всех краевых кейсах для сложных текстов — конечно сделаем.
Но в таком случае заказчик может не пожелать, чтобы такую сетку выкладывали.

Я не читал исходный текст, только проверил результат нейросети на ошибки. Четыре лишних знака препинания, шестнадцать недостающих, четырнадцать правильных. Некоторые из ошибок даже MS Word подчёркивает, хотя его система проверки откровенно слаба и сама часто вводит в заблуждение.

Очевидно, что литературная речь со сколько-нибудь сложными конструкциями не являлась вашей целью. А что за корпус текстов вы использовали? Записи в блогах и посты из соцсетей?

Ну тут важно понимать, что Ворд работает на письменном тексте, где уже и так скорее всего стоят точки. И ищет речевые обороты внутри этих предложений. Если подать ему простыню, то скорее всего ничего хорошего не будет. Понять где начинается и заканчивается мысль это нетривиально.

Попробовал ради прикола, ну да конечно, раньше деревья были больше:


Обновили модель в своих ботах до актуальной версии. Работать стало гораздо лучше. С разделением на предложения - гораздо удобнее, да и в целом качество повысилось. Спасибо!

Наши "корпоративные" боты AlterCPATalkBot (русский) и AlterCPAChatBot. Изначально были помощниками в чатах - спам по CAS фильтровать, состояние серверов и доменов проверять. Потом добавили в них распознавалку голоса на базе vosk, чтобы голосовые от заказчиков расшифровывать. Так мы пытались отучить заказчиков использовать голосовухи - принципиально делали не как сказано в самом сообщении, а как бот его расшифровал. С первой версией модели пунктуации от Silero добавили и её - тексты стали гораздо осмысленнее. А со второй версией модели Silero и базами Vosk версии 0.22 бот стал распознавать голосовые слишком хорошо ;)

Вы можете просто использовать наш бот @silero_audio_bot — там качество скорее всего сильно лучше, и модели пунктуации уже встроены.


Плюс мы там крутим самую качественную коммерческую модель, которой нет в паблике.

Ваш бот конечно классный, тестировали его - всё понравилось) Но поймите меня правильно, это же не интересно ;) Хочется самому покопаться, написать своё решение. К тому же, распознавание голоса - это всего лишь забавный побочный функционал для тех ботов, не более того. Им нельзя работать слишком качественно, иначе заказчики так и не перестанут пользоваться голосовыми.

Ну, если цель чисто "поковырять по фану", могу предложить вам другой функционал — возьмите наш VAD — https://github.com/snakers4/silero-vad — считайте им длину речи в голосовухе и пишите в чат "мы насчитали столько-то секунд речи, ее послушают N человек, суммарно потратив N времени".


Ну и конечно лайк, шер, репост, если используете наши решения. А то там что-то мало звездочек.

Ну сетка очевидно решила что его имя Мистер, а фамилия — Андерсен.
В других языках такой проблемы нет, вероятно т.к. слово мистер или сокращение чаще используется.

почему-то падает на скобках

input_text = "в данной статье на самом то деле очень красиво и интересно (без сарказма) рассказывается о продвижениии под НЧ и микроНЧ запросы как бы опять же ничего нового но статья может помочь понять и понять систему этого процесса и как его настроить у себя  "

с ошибкой "IndexError: string index out of range"

Почему-то делает замену букв на амперсанды

Input: в данной статье на самом то деле очень красиво и интересно без сарказма рассказывается о продвижениии под НЧ и микроНЧ запросы как бы опять же ничего нового но статья может помочь понять и понять систему этого процесса и как его настроить у себя

Output: В данной статье на самом то деле очень красиво и интересно без сарказма. Рассказывается о продвижениии под && и микро&& запросы как бы опять же ничего нового, но статья может помочь понять и понять систему этого процесса и как его настроить у себя.

Надо вот так:


Input:
в данной статье на самом то деле очень красиво и интересно без сарказма рассказывается о продвижениии под нч и микронч запросы как бы опять же ничего нового но статья может помочь понять и понять систему этого процесса и как его настроить у себя

Получается


Output:
В данной статье на самом то деле очень красиво и интересно, без сарказма рассказывается о продвижениии под НЧ и микронч запросы как бы опять же ничего нового, Но статья может помочь понять и понять систему этого процесса и как его настроить у себя.

Edge кейсы в виде смешенных кейсов внутри одного слова и "учета" авторской пунктуации мы не делали, показалось избыточным и очень зависимым от конкретного примера.


Если это прямо обязательно, в принципе под ваш кейс легко пишется костыль, но предполагаю, что таких кейсов сотни.

Sign up to leave a comment.

Articles