Как видно, расширению уже почти два с половиной года, по возможности я реализовал большинство просьб пользователей (более двух тысяч комментариев в теме на трекере). Могу лишь перечислить те причины, по которым мне приходится парсить страницы. Было бы, конечно, намного удобнее, если бы это можно было делать при помощи API, как я делаю в другом своём расширении по отношению к Живому Журналу.
1. Получение структурированного списка форумов и подфорумов (чтобы составлять в будущем запросы о новостях, а также узнавать обновления в структуре сайта), причём как всех форумов, так и форумов только для раздач. Сейчас мне для этого приходится парсить списки в формах поиска соответственно по форуму и трекеру.
2. Получение новых раздач в реальном времени по выбранным форумам (приходится парсить выдачу поиска по трекеру с опцией новых раздач с последнего посещения и с пометкой затем всех форумов как прочитанных при помощи кук). Единственный способ получать все новые раздачи без задержки и в полном объёме (с возможностью сразу автоматически загружать нужные торрент-файлы).
3. Суррогат подписки на комментарии при помощи разбора последней страницы темы и идентификаторов комментариев на ней — или старницы моих сообщений для слежения за темами, в которых отметился пользователь (что более экономно, поскольку одной страницей получаем последние комментарии в десятках тем).
4. Статистика пользователя при помощи парсинга профиля.
5. Наличие новых сообщений парсингом шапки на любой странице.
6. Получение UID пользователя парсингом ссылки на профиль.
7. Пользователи просили о возможности добавлять задания для автозагрузки на домашний компьютер из других мест (когда это почему-либо не хочется делать через веб-интерфейс к торрент-клиенту). Чаще всего они делают это, добавляя раздачи на страницу будущих раздач, потом расширение парсит эту страницу и передаёт торрент-файлы в папку автозагрузки клиента. Возможно, и для этой страницы можно было бы сделать API.
8. Думаю, полезным было бы также получать список раздач по UID пользователя.
6. Парсинг торрент-файлов для получения содержаний раздач.
Возможность добавления уже обнадёживает, спасибо. Возможно дело в том, что нужно и правда обучать шаблон, так как по умолчанию программа не видит параллелей между особенной графикой и расширенным символом. Но это очень долго, нужно двигаться буква за буквой, пока весь возможный набор комбинаций не будет перебран. И, к сожалению, для многих книг нужно будет это повторять. Так что не смею больше вас обременять, главное я узнал. Не мучайтесь. Разве что в вас проснётся спортивный интерес и упрямство)
В том то и дело, что лет пять назад я пробовал воспользоваться редактором языков для обучения, но, насколько я помню, даже добавить гласные с диакритиками, изображённые на рисунке выше, я не смог (в наборах символов не было расширенных диапазонов) К сожалению, не помню, какой версией FR я пользовался. Так как в указанной вами статье никаких конкретных иллюстраций, относящихся именно к греческой политонике, нет, остаётся вопрос: действительно ли в десятой/одиннадцатой версии можно создать язык со всем тем набором «двухсот возможных сочетаний», чтобы обучение шаблона смогло заработать?
Да я ведь без всяких претензий и подозрений, простите, если что не так. Да и к компании ABBYY никаких претензий, они ведь в первую очередь учитывают запросы большинства.
К сожалению, почти ничего не изменилось (это, конечно, не ваша вина): ни подписных йот (крючочки под гласными), ни придыханий (такие маленькие скобочки над гласными), ни облечённых или тупых ударений (волнистые линии и ударения, направленные слева направо), ни знаков сокращений (тоже маленькие скобочки, только после букв), ни сочетаний этих знаков так и не появилось, хотя они все есть в тех абзацах оригинала, которые вы выбрали. Всё свелось к новогреческому острому ударению, за незначительным исключением.
На всякий случай, если вина на мне и я плохо объяснил: добавлять нужно было вот эти буквы (они есть не в каждом шрифте, только с расширенным юникодом, и возможно сами механизмы добавления новых знаков в FineReader не позволяют их добавить:
Спасибо. В общем, всё как и раньше: есть только новогреческий, с одним видом ударения, к тему и сводятся все диакритики. Жаль, потому что даже в книгах на новых языках древнегреческий встречается очень часто: не только в виде пространных цитат, но и в виде многочисленных вкраплений древнегреческих вариантов терминологии (философской, богословской, лингвистической, психологической, исторической и так далее).
А нельзя ли сейчас создать новый язык и наполнить его расширенной греческой страницей из юникода, со всеми вариантами гласных с диакритиками? Конечно, это довольно утомительное занятие, так что не сомневаясь отказывайтесь, если нет времени, я пойму. И так большое спасибо.
У меня сейчас, к сожалению, нет под рукой сканера. Но, может быть, вы сможете сделать снимок экрана и распознать его? Например, начала диалога Платона:
Можете сделать сколько угодно крупный шрифт, там проблема была принципиальная, качество не играло роли, просто все диакритики игнорировались или путались с другими буквами.
А в распознавании языков с диакритиками там ничего не изменилось? Помню, безнадёжной затеей было заставить FineReader распознавать древнегреческий, даже новый язык нельзя было создать со всеми комбинациями юникода «гласная+придыхание/ударение».
Но это существенно усложнит и увеличит код: во-первых, у запроса доступной высоты свои проблемы с кроссбраузерностью, во-вторых это лишняя логика и пересчёты. Впрочем, для тех, кто действительно так уж часто меняет размеры окна для одного и того же документа, это, наверное, выход.
Да, конечно, это не удобно. Но я ведь и не ратую за принудительное сохранение позиций. А сохранять сессии — мне кажется, это сложнее. Впрочем, это всё дело вкуса и личных предпочтений. Наверняка найдутся те, кому удобнее то или другое.
Ну, всё же и для Оперы можно найти применение. Не всегда ведь удобно держать все страницы открытыми. Я, например, параллельно могу читать несколько текстов, некоторые — понемногу каждый день. Сначала открываю все, получается своеобразный план на день. По ходу прочтения нормы закрываю вкладки.
rutracker.org/forum/viewtopic.php?t=1877183
addons.mozilla.org/ru/firefox/addon/rutrackerorg-addons/
habrahabr.ru/blogs/p2p/94240/ (статья немного устарела).
Как видно, расширению уже почти два с половиной года, по возможности я реализовал большинство просьб пользователей (более двух тысяч комментариев в теме на трекере). Могу лишь перечислить те причины, по которым мне приходится парсить страницы. Было бы, конечно, намного удобнее, если бы это можно было делать при помощи API, как я делаю в другом своём расширении по отношению к Живому Журналу.
1. Получение структурированного списка форумов и подфорумов (чтобы составлять в будущем запросы о новостях, а также узнавать обновления в структуре сайта), причём как всех форумов, так и форумов только для раздач. Сейчас мне для этого приходится парсить списки в формах поиска соответственно по форуму и трекеру.
2. Получение новых раздач в реальном времени по выбранным форумам (приходится парсить выдачу поиска по трекеру с опцией новых раздач с последнего посещения и с пометкой затем всех форумов как прочитанных при помощи кук). Единственный способ получать все новые раздачи без задержки и в полном объёме (с возможностью сразу автоматически загружать нужные торрент-файлы).
3. Суррогат подписки на комментарии при помощи разбора последней страницы темы и идентификаторов комментариев на ней — или старницы моих сообщений для слежения за темами, в которых отметился пользователь (что более экономно, поскольку одной страницей получаем последние комментарии в десятках тем).
4. Статистика пользователя при помощи парсинга профиля.
5. Наличие новых сообщений парсингом шапки на любой странице.
6. Получение UID пользователя парсингом ссылки на профиль.
7. Пользователи просили о возможности добавлять задания для автозагрузки на домашний компьютер из других мест (когда это почему-либо не хочется делать через веб-интерфейс к торрент-клиенту). Чаще всего они делают это, добавляя раздачи на страницу будущих раздач, потом расширение парсит эту страницу и передаёт торрент-файлы в папку автозагрузки клиента. Возможно, и для этой страницы можно было бы сделать API.
8. Думаю, полезным было бы также получать список раздач по UID пользователя.
6. Парсинг торрент-файлов для получения содержаний раздач.
К сожалению, почти ничего не изменилось (это, конечно, не ваша вина): ни подписных йот (крючочки под гласными), ни придыханий (такие маленькие скобочки над гласными), ни облечённых или тупых ударений (волнистые линии и ударения, направленные слева направо), ни знаков сокращений (тоже маленькие скобочки, только после букв), ни сочетаний этих знаков так и не появилось, хотя они все есть в тех абзацах оригинала, которые вы выбрали. Всё свелось к новогреческому острому ударению, за незначительным исключением.
На всякий случай, если вина на мне и я плохо объяснил: добавлять нужно было вот эти буквы (они есть не в каждом шрифте, только с расширенным юникодом, и возможно сами механизмы добавления новых знаков в FineReader не позволяют их добавить:
Большое спасибо за ваше время.
А нельзя ли сейчас создать новый язык и наполнить его расширенной греческой страницей из юникода, со всеми вариантами гласных с диакритиками? Конечно, это довольно утомительное занятие, так что не сомневаясь отказывайтесь, если нет времени, я пойму. И так большое спасибо.
el.wikisource.org/wiki/%CE%A6%CE%B1%CE%AF%CE%B4%CF%89%CE%BD
Можете сделать сколько угодно крупный шрифт, там проблема была принципиальная, качество не играло роли, просто все диакритики игнорировались или путались с другими буквами.
Удачи в разработке.
www.quirksmode.org/dom/w3c_cssom.html#t36