В прошлом году я написал о том, что самый большой армяно-русский словарь изданный еще в Советском Союзы оцифрован и сверстан в формат dict для использования в StarDict или GoldenDict.
Мы этим занимаемся в свободное от основной работы время, поэтому изменения бывают, но не то чтобы очень часто.
За это время было 4 «релиза», полгода назад вышла версия 1.20. Были исправлены сотни ошибок в сортировке, орфографии, просто опечатки. Много ошибок было обнаружено в самом печатном издании, и они тоже были исправлены в цифровой версии. Пользователи составили версию для программы Lingvo на основе dict файлов.
И наконец самое главное изменение, недавно АРС был размещен в онлайне и можно переводить прямо с сайта.
Недавно был завершен процесс оцифровки армяно — русского словаря словаря, изданного тиражом 100 000 штук в 1985 г. Академией Наук АССР. Работа над словарем заняла более 20-и лет и стало важным событием для маленькой республики. В словаре собраны слова из многих наречий армянского языка а также наиболее употребляемые слова и значения западно-армянского, на котором говорят жители Диаспоры: в основном стран США, Франции, Ирана.
Мы взялись за его оцифровку несколько лет назад, занимались этим в свободное от работы время и поэтому закончили только сейчас, хотя по моим подсчётам, на всё, про всё мы потратили не более 600 человеко-часов. Первоочередной целью было создать dict-версию для программ типа StarDict или GoldenDict. Этот этап завершен а в дальнейшем планируем составить хорошо отформатированный xdxf файл и наконец на последнем этапе переведем полностью в интернет для переводов онлайн.
Привет всем!
Я учу английский и всячески упрощаю этот процесс. Как-то мне потребовалось получить список слов вместе с переводом и транскрипцией для определенного текста. Задача не была сложной, и я принялась за дело. Чуть позднее был написан скрипт на python, все это умеющий, и даже умеющий чуть больше, поскольку мне захотелось получить еще и частотный словарь из всех файлов с английским текстом внутри. Так вышел маленький набор скриптов, о котором я и хотела бы рассказать.
Работа скрипта заключается в распарсивании файлов, выделении английских слов, нормализации их, подсчете и выдачи первыx countWord слов из всего получившегося списка английских слов.
В итоговом файле слово записывается в виде: [число повторений] [само слово] [перевод слова]
О чем будет дальше:
Мы начнем с получения списка английских слов из файла (используя регулярные выражения);
Дальше начнем нормализовывать слова, то есть приводить их с естественной формы в тот вид, в котором они хранятся в словарях (тут мы немного изучим формат WordNet);
Затем мы подсчитаем количество вхождений у всех нормализованных слов (это быстро и просто);
Дальше мы углубимся в формат StarDict, потому что именно с помощью него получим переводы и транскрипцию.
Ну и в самом конце мы куда-нибудь запишем результат (я выбрала файл формата Excel).
Очень уж мне нравится смотреть сериалы, а еще я учу с их помощью языки. И если раньше я прилежно останавливал видео на непонятном месте, перематывал назад, включал субтитры и забивал незнакомые слова в Анки, то сейчас я делаю то же самое. Разве что лень заставила этот процесс автоматизировать, что привело к созданию расширения Say It Again для проигрывателя VLC со следующими особенностями:
Навигация по субтитрам (переход к предыдущей, следующей фразе) — клавиши y, u;
Сохранение слова, его транскрипции и перевода вместе с контекстом (см. скриншот) — клавиша i;
Функция «Еще раз»: переход к предыдущей фразе, показ субтитра и пауза — клавиша backspace;
Подключение любых словарей в формате Stardict (в сети лежат словари из Lingvo x3);
Экспорт в Anki или другую программу, понимающую файлы в формате csv;
Одной из самых полезных программ на ПК и смартфоне в моем понимании является электронный словарь. В те стародавние времена, когда я учил иностранный язык, каждое слово приходилось искать в бумажном словаре. Эту тривиальную операцию я проделывал сотни раз, а некоторые зловредные слова приходилось смотреть снова и снова, так как я успевал забыть их значение. Как это было обидно! То ли дело сейчас, вжух и перевод перед глазами на экране монитора. История поиска, на случай, если искомое слово не перешло из области кратковременной памяти в долгосрочную.
Давайте своими силами создадим электронный словарь для программ StarDict / GoldenDict. Для этого может понадобится много, или мало человеко-часов, в зависимости от качества исходного материала.