Pull to refresh

Comments 8

Подозреваю, что ссылка на сайт отсутствует из-за правил Хабра, тогда бы пришлось отправлять статью в «Я писарюсь». Но не думаю, что будет что-то страшное, если я размещу для всех интересующихся её здесь https://tr-ex.me/

Интересно, можно ли пополнять вашу базу параллельных текстов, если допустим у меня есть такие и они под CC BY-NC-SA 3.0?

В названии лицензии присутствует NonCommercial, а на сайте есть реклама, подозреваю, что могут быть проблемы. Мне нужно время, чтобы выяснить точнее.

Наш опыт создания контекстного переводчика
Нашли context.reverso.net и linguee.com.

Я не понял, это адреса ваших или чужих сайтов? Или нужно ориентироваться на адрес https://tr-ex.me/ в комментариях?

Поскольку других веб-адресов я в статье не нашел, то проверил, по этим ссылкам, контекстный перевод для фразы, которая давно вызывает у меня вопросы. Дело в том, что я тоже интересуюсь «буквальным контекстным переводом», как я его называю. Пример такого перевода можно посмотреть в моем комментарии: https://habr.com/ru/articles/669178/#comment_24460452 . Там есть фраза, на французском, из произведения Анатоля Франса «Красная лилия»:

«Comme elles, les statuettes de terre cuite élevées sur des colonnettes, les groupes de vieux Saxe et les peintures de Sèvres, étagées dans les vitrines, disaient des choses passées.»

Буквальный перевод:

«Как (будто) они, статуэтки (из) глины обожженной (терракотовые) приподнятые на колоннах, группы старой Саксонии и картины (расписные изображения) Севра, выставленные (нагроможденные друг на друга) в витринах, говорили (о) вещах прошлого.»

Какие такие «группы старой Саксонии»? Может быть, имеется в виду «фарфоровые изделия старой Саксонии», о которых говорится в художественном переводе, найденном в Интернете? Но такого значения у данного французского слова (les groupes) нет.

Хорошо, context.reverso.net переводит «les groupes de vieux Saxe» (всю фразу перевести у него нет сил) как «старая Саксония группы». Второй сайт, linguee.com, с французского на русский перевести не может. А третий, tr-ex.me, тоже не работает по французско-русскому направлению.

В общем, я полностью обломался на вашем «контекстном переводчике».

Поскольку, похоже, вы запустили стартап, то я могу написать свои «записки постороннего», так как тоже опубликовал свой персональный пет-проект ( https://habr.com/ru/articles/848836/ ), назвать его «стартапом» будет, наверное, слишком громко.

В моем понимании, «буквальный контекстный перевод» (а переводил я пример, с французского, как абсолютный ноль в нем) удобен для освоения иностранного языка. Запоминать такой перевод, самодостаточными фразами минимальной длины, достаточно эффективно. Свою программу для интерактивной работы с озвученными словами и фразами, я опубликовал в указанной статье. Под эти фразы у меня даже искусственная озвучка есть. Однако голос, созданный ИИ («искусственным идиотом») ужасно раздражает. Куда приятней иметь дело с живыми голосами. Такие демонстрационные файлы данных там тоже есть, по нескольким языкам.

Я это все веду к тому, что вы тоже могли бы выбрать вариант подготовки, озвученных носителями, данных, для интерактивной работы с ними, в обучающей программе. Не обязательно, даже, в моей. Напишите свою. Если у меня, чистого времени, ушло на нее – год, то у вас, шести человек, это получится за пару месяцев. Причем, даже техзадание писать не надо, имея перед глазами готовый прототип.

Думаю, что используя профессиональный подход, в команде, можно получить очень неплохие результаты. По крайней мере, сам я учу французский язык по своей программе, тем более, что подготовка данных для нее, в разы повышает интерес и, думаю, эффективность освоения.

Наш сайт tr-ex.me.

Какие такие «группы старой Саксонии»? Может быть, имеется в виду «фарфоровые изделия старой Саксонии», о которых говорится в художественном переводе, найденном в Интернете? Но такого значения у данного французского слова (les groupes) нет.

Хотя в данном конкретном случае tr-ex.me ничем помочь не смог, примеры с контекстом, в котором употребляется фраза могут быть полезны. Если поискать в google "groupes de vieux Saxe", у меня первым результатом отображается amazon со следующим описанием товара: "Catalogue d'objets d'art et d'ameublement, 4 importants groupes en vieux Saxe: Anciennes Tapisseries de Bruxelles de la Collection de Feu M. L. R. B". Могу предположить, здесь как и в переводимой вами фразе речь идет о серии(группе) работ, объединенных между собой каким-либо образом. Для более распространенных фраз примеры можно найти у нас - это просто быстрей и сразу с переводом.

Насчет произношения слов носителями, где вы их берете? Есть большой проект с базой произношений слов и фраз носителями - forvo.com, но не думаю, что они ими будут с радостью делиться :). По поводу обучающей программы подумаем.

Могу предположить, здесь как и в переводимой вами фразе речь идет о серии(группе) работ, объединенных между собой каким-либо образом. Для более распространенных фраз примеры можно найти у нас - это просто быстрей и сразу с переводом.

Спасибо за объяснение. Похоже, это так и есть. Что касается поиска распространенных фраз, то это, пока, для меня, не очень актуально. До сих пор, вполне хватало обычных поисковиков

Насчет произношения слов носителями, где вы их берете?

В Интернете, естественно! Так, я нашел отличную французскую озвучку, для школьных уроков, на каком-то китайском сайте. Правда, там не было ни слова описания, ничего, абсолютно, только mp3-файлы. Тем не менее, удалось распознать речь с помощью онлайн-сервисов, а с переводом дело было уже проще. Далее стандартная схема: разметка звука в аудио-редакторе, разделение его на отдельные файлы, с помощью собственного скрипта на Питоне. Затем, с помощью другого подобного скрипта, делаю файл данных, формата Sqlite3, для своей программы. Сами эти файлы данных приложены к опубликованной программе.

Второй вариант, это Ютуб. Там масса роликов, которые можно использовать для обучающей программы. Только, озвучиваемых слов и фраз, естественными голосами, очень мало, процентов пять, примерно. Но, кто ищет, всегда найдет!

Можно, конечно, работать и с обычной, живой речью по той же схеме: распознавание / перевод / подготовка файлов данных. Такие данные у меня есть, даже для старой программы на сайте http://scholium.webservis.ru/ . Как вариант можно делать видео-ролики с двуязычными субтитрами. См., например, мои каналы:

https://www.youtube.com/@scholium9807
https://my.mail.ru/mail/emmerald/video/_myvideo
https://dzen.ru/id/66ef0791df72c165d37a34ea

Хотя, если есть встроенные субтитры (не говоря уже о внешних), то их можно распознать с помощью моей программы «МедиаТекст».

Конечно, как вы можете предположить, могут быть претензии со стороны правообладателей. Хотя лично меня очень удивляет, что на том же Ютубе, одна и та же звуковая дорожка может быть упакована в различные видео от разных авторов, которые не делают никаких ссылок друг на друга. И ничего! Никто не возникает!

Есть большой проект с базой произношений слов и фраз носителями - forvo.com, но не думаю, что они ими будут с радостью делиться :).

Первое впечатление от forvo.com не очень. Неудобный и непонятный интерфейс. Может быть, в следующий раз, при повторной попытке, вникну лучше, но сейчас влом разбираться.

По поводу обучающей программы подумаем.

Да, было бы интересно увидеть другой взгляд на это дело. Ладно, я – не профессионал, на которого периодически находит скука и лень, могу забить, на длительное время, на свой проект. Но вы, в команде, не позволите друг другу сильно расслабляться. А обучение иностранным языкам – это вечная тема, для решения которой пока не существует идеальных решений.

С русским только 4 языка. На том же context reverso больше. В целом, чем больше таких проектов тем лучше, другие языки надеюсь со временем добавите.

Хотя добавление новых направлений, по уже присутствующим на сайте языкам, особых проблем не доставляет. В первую очередь, хотим добиться большего профита по уже имеющимся. Что для вас в таких проектах наиболее ценно? Над чем работать в первую очередь, чтобы пришли к нам?

В данный момент меня интересует французский, а его у вас нет, так что полноценно протестировать не могу.

Я использую context reverso как вспомогательный инструмент, когда в словаре не находится подходящих по смыслу переводов.

Sign up to leave a comment.

Articles