gluck59 Oct 17 2016 at 14:31

Telegram боты: в помощь редактору

6 min

32K

Instant Messaging*Programming*Algorithms*API*

+32

Comments 49

k12th Oct 17 2016 at 14:58

О, наконец-то реально полезный бот:)

gluck59 Oct 19 2016 at 12:52

Спасибо, буду рад если он кому-то поможет.

nihlete Oct 17 2016 at 15:00

Почему ограничено число синонимов? Слово «провод» выдает 13 результатов и многоточие. Узнать что скрыто за многоточием невозможно.

gluck59 Oct 17 2016 at 15:02

Там GET, у него есть ограничение на длину запроса.

Наверное правильнее будет переписать это в POST дабы иметь запас по размеру отправляемого текста, но в моем случае вполне хватает и этого: все-таки мессенджеры не предназначены для лонгридов.

Переделаю, если бот окажется востробованным.

beaverBox Oct 17 2016 at 17:24

Вестимо, он станет более востребованным когда переделаете.

gluck59 Nov 2 2016 at 22:38

Вчера переделал. Теперь, если синонимов слишком много, бот показывает кнопку «Далее».

mihmig Oct 17 2016 at 16:43

Пользуясь случаем спрошу:
Каковы лимиты отправки сообщений ботами? В официальной документации сказано
https://core.telegram.org/bots/faq#my-bot-is-hitting-limits-how-do-i-avoid-this
что:
1. Скорость отправки particular chat (юзер или группа?) — не более 1 сообщения/сек. С небольшим burst.
2. При массовой рассылке — не более 30 сообщений/сек.
3. При отправке в группу — не более 20 сообщений/мин. — не не понятно 20 сообщений за календарную минуту или «скользящее среднее»?

Пишу свой игровой бот и иногда, при активной игре бот упирается в лимиты…

UFO just landed and posted this here

beaverBox Oct 17 2016 at 17:29

Щас к бумажной газете аналоговые идентификаторы попросят припостить… =)

Cuthbertnogood Oct 17 2016 at 17:39

На слово привет — выдает синоним — водка.

Напомните, у нас была водка *привет*? Не помню такой.

k12th Oct 17 2016 at 21:31

А как же! 30 рублей стоила в 1999. Продавщиц очень радовало, когда просовывается в окошко этакая личность и празднично произносит «Привет!».

TimsTims Oct 17 2016 at 17:40

> 0. Вы устанавливаете вебхук
Дам небольшое предостережение от вебхуков:
1) Если телеграм до вашего сервера не сможет достучаться, то после нескольких (сотен?) попыток в течение довольно короткого вебхук отключается. Ваш бот будет *мёртв*.
2) Не достучаться может по разным причинам — истёк сертификат, либо сервер недоступен. Либо ваш бот затупил и не смог подключиться к перегруженной общей базе данных. Это всё относится к тем ботам, которые хостятся на слабеньких или простеньких хостингах.
3) Из этого следует, что более-менее правильный вариант — писать Long-pooling бота, с запуском через Cron, избавляющий сразу от большой головной боли.

gluck59 Oct 17 2016 at 17:56

«Long-polling» скорее.
У меня есть небольшой проектик, получающий апдейты по этой технологии… таки я скажу вам шо это кошмар и я мечтаю переселить его на вебхуки или SSE. Пока не придумал как — там есть одна весьма толстая тонкость.

Кстати если хостинг пробудет все время этих нескольких (сотен?) попыток в дауне — ожидает ли бота та же участь?

Крон можно использовать и сейчас. Если вдруг вебхук отключится, он будет поднимать его снова.

Saffron Oct 17 2016 at 17:54

Не надоело ещё переизобретать dictd и dict протокол?

-5

4eyes Oct 17 2016 at 18:28

В качестве замены бесплатного сервиса проверки орфографии могу предложить NaturalNode/spellcheck. Он инициализируется словарем любого языка, работает хорошо и более-менее шустро

Пример на github

gluck59 Oct 18 2016 at 00:02

Вах, боюсь что это слишком сложно для чайника-самоучки…

4eyes Oct 18 2016 at 13:48

Реализация по-моему насколько интересная, настолько же и сложная, да.
Но в использовании всё просто, у меня она используется так, например:

var natural = require('natural'), 
    dictionary = require('./single-words-354984.json'),  // нагугленный словарь, вручную перекованный на ["слово1", "слово2", ... ]
    spellcheck = new natural.Spellcheck(dictionary);

var topic = "swapign";
if (!spellcheck.isCorrect(topic))
{
    // исправление
    var MAX_DISTANCE = 1;
    var corrections = spellcheck.getCorrections(topic, MAX_DISTANCE);
    if (corrections.length > 0)
        topic = corrections[0];
}

// topic == "swaping"

gluck59 Oct 18 2016 at 16:13

Любопытства ради: а сколько (примерно) весит этот ваш jsonчик?

4eyes Oct 18 2016 at 18:47

В районе 6 мегабайт.

gluck59 Oct 18 2016 at 18:48

Понял, сохранил, мерсибо!

svboobnov Oct 18 2016 at 00:50

Ух ты!!! Классная библиотека! Но сложная очень.

svboobnov Oct 17 2016 at 23:22

На:

Буду благодарен за подсказку: требуется бесплатный сервис проверки орфографии в русском языке с API.

Скажите, плиз, а почему Вас не устраивают Aspell или Hunspell?

gluck59 Oct 18 2016 at 00:01

Нельзя сказать — устраивают или нет, я не видел их раньше…
У них ведь заточка под английский язык, верно?

svboobnov Oct 18 2016 at 00:46

Aspell недавно переточили под сложные (флективные) языки (русский и другие), а hunspell изначально написан румыном (hungarian spell checker), сейчас его спонсирует датская компания. В общем, hunspell изначально ковался под сложные языки. И для обоих чекеров есть русскоязычные словари.

gluck59 Oct 18 2016 at 01:36

Мерси, почитаю о них обязательно.

svboobnov Oct 17 2016 at 23:27

И вот ещё накопал: Академик.
Предлагают бесплатно установить на свой сайт. Если есть APi для PHP, значит и в Вашем языке можно будет что-то сварганить.

mihmig Oct 18 2016 at 08:40

А не видел ли кто сервисов/словарей переносов?
У меня есть задача сформировать изображения из текста, хотелось бы форматировать с переносами…

svboobnov Oct 18 2016 at 10:09

Думаю, надо покопаться во внутренностях OpenOffice / LibreOffice, они же как-то ставят переносы.

k12th Oct 18 2016 at 11:24

Есть такой алгоритм: http://xpoint.ru/know-how/VebAlgoritmyi/RabotaSTekstami/RasstanovkaPerenosov
Но мне кто-то говорил, что в каком-то граничном кейсе там есть ошибка.

kdenisk Oct 18 2016 at 12:15

Практически любой алгоритм расстановки переносов будет лишь частично верным, т.к. правила переноса в некоторых случаях учитывают морфемный состав слова.

Tenqz Oct 18 2016 at 10:37

Не знаю как насчет синонимов, но заметил тенденции на афоризмы. Как вариант ты боту слово, а он тебе 5 :)
Мне кажется чтобы этот продукт стал массовым, ему надо больше функционала. Вот несколько идей, которые можно включить в базу…

1. Правила русского языка.
2. Подбор рифм на слово.
3. Синонимы (и так уже есть)
4. Антонимы.
5. Омонимы.
6. Умное слово на каждый день.

И так далее. Тогда такой продукт станет сильнее.

gluck59 Oct 18 2016 at 10:45

Это уже будет комбайн с настройками на два экрана и UX ниже плинтуса.
А вот рифмы отдельным ботом — это прикольно. Мерси за идею, надо подумать как их искать. И главное где.

webdiez Oct 19 2016 at 12:50

Хороший бот, ждем бота еще с описанием слов по словарю Ожегова.

gluck59 Oct 19 2016 at 12:51

Спасибо.
Не думаю, что читать словарные статьи (они бывают довольно объемны) на экранчике смартфона это хорошая идея.

gluck59 Oct 19 2016 at 12:51

kuyantus Oct 19 2016 at 15:19

Вещь интересная. У меня другая мечта была, запилить бота, который бы делал проверки на правильность слов (брал данные с gramota.ru, например). Но, так как я не программист, это так и осталось мечтой.

kdenisk Oct 19 2016 at 15:38

Расскажите про идею, если не жалко. Мы занимаемся смежными областями, будет интересно послушать.

svboobnov Oct 20 2016 at 10:29

Дык явно же спеллчекер, тот же hunspell с большим словарём прикрутить — и порядок.

kdenisk Oct 20 2016 at 11:19

Если посмотреть на реальную базу ошибок, то иногда делаешь очень интересные открытия. Например:

— очень частая ошибка *робота (вместо рАбота), хотя существует словоформа робота (У меня нет робота, а так хочется. <вместо> Нужно идти на работу, а так не хочется.)

— есть случаи, когда без контекста никак — например воспитаНая и воспитаННая. Обе словоформы могут иметь место в соответствующих контекстах.

— есть ошибки, которые по расстоянию отловить сложно, нужно учитывать фонетические особенности русского языка. Например: *хочица (хочется)

— популярное -тся/-ться в ряде случает опять же требует контекста или пояснения

— паронимы: невежа — невежда, тоже стоит учитывать

В общем работы много, как раз сейчас этим занимаемся :)

Firues Oct 20 2016 at 12:40

Где-нибудь можно следить за ходом работы? Будете ли выкатывать продукт в свободный доступ? :)

kdenisk Oct 20 2016 at 14:45

Нет, дев-блога нет. Насчёт открытого доступа не скажу — слишком много есть заброшенных проектов, которые никто не поддерживает, потому что реалистично силы не оценили. Плодить их ни к чему.

То, что реалистично сделать, и то, что мы знаем как и зачем поддерживать — это актуальный словарь русской морфологии (слова, словоформы, морфометки). Начнём с этого, посмотрим насколько востребовано, а потом можно будет дальше думать дальше и строить планы.

Apatic Oct 19 2016 at 18:44

Добавили бы в раздел ссылки ссылку на бота, а то так сразу и не найдешь.

gluck59 Oct 20 2016 at 00:55

Понял, исправился.

Firues Oct 20 2016 at 13:24

Не могу упустить возможность и не задать вопрос по схожей тематике:
кто-нибудь из присутствующих пробовал syntaxnet от google?
Если да, то был ли опыт с русской моделью?

gluck59 Nov 2 2016 at 22:48

UPD: Вчера переписал кое-что.

— Теперь, если синонимов слишком много и они не пролезают по размеру в Telegram API, бот не обрезает ответ, а формирует гарантированно пролезающий ответ и показывает кнопку «Далее». Проверочное слово — «слово», сорри за каламбур.

— Если введенное пользователем слово имеет синонимы, и запрос и ответ складываются в кэш, уменьшая нагрузку на большой словарь.

meetreech Dec 25 2016 at 17:54

В приветствии два раза дублируется текст «я бот синоним...»

gluck59 Dec 25 2016 at 18:01

Привет
Перечитал, не нашел. Прикрутите плиз скрин с багом.

meetreech Dec 25 2016 at 18:16

gluck59 Dec 25 2016 at 19:11

Хм, интересно… А как вы этого добились?

Show the best of all time