Интересно, у вас жена никогда не убирала ваши вещи в место, которое нравится ей, или которое она считает более уместным для этих вещей?
А если по аналогии производители машин поменяют местами педали тормоза и газа - тоже сглотнёте всякую муйню про прогресс или выскажете, всё что думаете, въехав в первое дерево?
Мусор - мусорные сегменты: цифры, обозначения, оригинал=перевод, дубликаты, непереводы, неверно разбитые сегменты. Если вы чистили автоматами - вы могли удалить только мусор типа цифр, обозначений, оригинал=перевод, дубликаты.
Я поверху посмотрел 3 корпуса - ООН - самый качественный. Там 2 проблемы — наличие в части документов исправлений в обеих частях, и плохая сегментация (разбиение текста на единицы перевода - т.е. на предложения). Навскидку - таких сегментов там около процента. Wiki — там непереводы сразу попадаются на глаза - и таких в начальной части - несколько процентов.
База МП текстов с сайтов (ибо внутри есть параметры оценки по различным алгоритмам и много интернет ссылок) - общим объёмом 34 GB — ГОВНО - там нормальных переводов 10-20% навскидку.
Часть мусора можно очистить автоматикой Olifant - гуглите. Логический мусор - непереводы очистить можно только вручную.... (частично - при наличии некоторых ключевых идентификаторов - слова, имеющие только один перевод, числа, даты, ФИО, имена собственные — такие сегменты можно вычистить по ним/повторному МП ———— это относится к базе Вики).
Но беда с сырьём — это сейчас проблема почти всех, кто работает с Big-data.... Только программисты готовы делать из говна непонятно что. В любых реальных отраслях есть жёсткие требования к качеству исходного сырья и материалов.
Написал я то, что материалы для работы ненадлежащие. По тому, что вижу, реальным путём повышения качества может быть простая очистка баз от всякого мусора и повторное обучение.
ТМХ по Вики вообще странная - многие русские статьи в Вики являются не переводами, а самостоятельными статьями по теме оригинальной английской статьи, с другими привязками, литературой и т.п. Поэтому даже по поверхностному взгляду в ней полно неадекватных сегментов типа
By the 11th century, London was beyond all comparison the largest town in England.=== XVIII—XIX века === К 1700 году Лондон превратился в крупнейший город Европы.
An emigration department was created in 1906 at the ministry of agriculture. === Сельское хозяйство России в 1905 году ===Общие экономические показатели.
St. Mary, St. Nicholas, St. Andrew, St. George, St. Alexander Nevsky, St. Sergius of Radonezh and St. Seraphim of Sarov are Russia's patron saints.
Сайт Комиссии при Президенте Российской Федерации по модернизации и технологическому развитию экономики России.
Короче, как очень часто последнее время в IT — исходным данным и их качеству просто не уделяется достаточное внимание.
Не всякий мусор предобработка очистит -- в ООНовских базах есть большие фрагменты текстов, которые правились в режиме рецензирования с обеих сторон, предложений, разбитых на части, в которых одни слова в силу различия построения фраз на языках находятся в разных сегментах.....
China Delicates Laundry Bag China Manufacturers & Suppliers & Factory Китай Мешок Прачечного Сетки Производители & Поставщики & Фабрика
2 years ago 03:47 ShemaleZ huge dildo Huge Dildo Pounding 2 года назад 03:47 ShemaleZ огромный дилдо
-gives protection towards the action of solar radiation dangerous; -дает защиту на действие солнечного излучения опасные;
From the flat water of the scale to the attic of the apartment of 36m2, the minimum height of 230cm with 1 king size bedroom, marble bathroom, living room, air conditioning, a large covered terrace of 36m2 with barbecue and magnificent sea views.
От плоской воды шкалы до чердака квартиры 36 м2, минимальная высота 230 см с 1 кроватью размера “king-size”, мраморной ванной комнатой, гостиной, кондиционером, большой крытой террасой 36 м2 с барбекю и великолепным видом на море.
И это только по поверхностному взгляду.... В принципе, этого достаточно, чтобы сделать заключение, что самая большая по размеру ТМ - ГОВНО (или отравлена, как говорят в ИТ).
Невысокая скорость может быть обусловлена перегруженностью ТМХ мусором. Просмотрел 33 ГБ ТМХ там 95% мусор - типа ссылок на исходные файлы - которые, видимо, сопоставлялись автоматическими алгоритмами...
Так вот пока и не могу попользоваться. При установке ругается — не устанавливается. Однозначного решения у проблемы нет, но не исключаю, что проблема из-за непоследней версии Питона.... Поэтому бы и хотелось погонять оффлайн инструмент. Не менее интересно было бы попробовать его ещё на одной паре, под которую, наверное смог бы наковырять тыс 500 сегментов.....
Еще момент - по описанию машину можно натренировать на собственных/отобранных переводах, что позволит дополнительно сократить затраты времени на стилистических правках...
В случае перевода важна больше не открытость проекта, а его оффлайновость. Никто не хочет сильно заморачиваться, сначала вычищая из оригинала конфиденциальную инфу, а затем вставляя её в перевод.
Не понимая языка хотя бы на базовом уровне, обучать модель - идея так себе. К тому же я даже не уверен в наличии достаточного количества качественно переведённых материалов в России
W7 на данный момент отличается необходимой стабильностью и работой нужного софта. К чему тогда W10 и W11, за годы существования которых я уже наслушался столько — ой после обновления что-то перестало работать, сколько наверное не слышал за всё время со времён MS-DOS. Для 90% людей опыт соскока из привычной среды на непривычную без безальтернативных вариантов заканчивается возвратом, и чувством «В какое же говно я влез». Как раз сегодня немного полистал на реддите топик «Пользователи Android - почему, кроме цены, вы не переходите на IOS». Ставить Линух ради одного Аргуса — идея так себе....
А что в гугле одни гении работают? Глядя на некоторые книги «digitized by Google» — таких рукожопов ещё надо поискать...
Гугл сейчас во многих вещах - у семи нянек дитя без глазу..... — Говёнские хромбуки, деградация с Пикселем, Edge начинает превосходить Хром, Дипл с его гораздо меньшими ресурсами, но направленными на одну цель тоже обошёл гугл...... Типичная беда больших компаний.... Осталось дождаться, когда китайцы развернутся во всю мощь и просто перестанут ставить андроид на свои смарты.....Дальше начнётся медленное забивание гвоздей в гроб гугля.
Почему гугл не может также прогнать нейросеткой и улучшить свой перевод
Объяснений может быть масса 1) Состав контрольного датасета - чем сильнее он отличается от датасета для натаскивания - тем хуже будет результат
2) Более совершенные алгоритмы. Русский язык довольно проблемный для МП и наличие в команде грамотных русских специалистов легко может вывести команду вперёд именно на данном направлении, что мы видим по Finereader - по качеству распознавания, по работе с восточными языками, по разным откликам, он уже уступает конкурентам, но для работы с русским языком он пока остаётся лучшим.
3) В разной степени неудачные датасеты для тренировки МП, а может намеренно испорченные или «отравленные» (poisoned -как говорят в ИТ). Про проблемы датасетов, полученных от переводческих компаний я уже писал.
Если вы воспитаны на советской литературе - МП, натаскиваемый в большинстве своём на более слабых современных переводах, может и вообще не зайти.
4) А судьи кто - кому-то нравится Блок, кому-то Маяковский.... Под такой русский и будут затачивать МП создатели. И вот представьте - вы поклонник Блока, сталкиваетесь с МП, натасканной поклонником Маяковского...
Зачем делать? Ситуацию сегодняшнего дня вы прекрасно видите... Качество МП, если еще не идеальное, то уже можно сказать - годное для работы/обработки и сокращающее затраты времени на перевод. В технике МП часто даёт результат лучше, чем выпускники ИИЯ. Поэтому интерес к нему растёт, но не всех устраивают ОНЛАЙН-платформы МП из-за проблем с конфиденциальностью. Поэтому есть довольно большой интерес к ОФФЛАЙН МП... Полагаю подготовка датасета РУС-КИТ и натаскивание МП на нём сегодня является очень актуальной и, вероятнр коммерчески выгодной, задачей....
Deepl ..... ощутимо лучше чем яндекс или гугл — Опять таки чисто на ваших примерах и под ваше понимание ХОРОШЕГО РУССКОГО ЯЗЫКА.
Я когда-то сравнивал Гугл с Диплом на абзаце из технической книжки - и кардинальных отличий не заметил. Где-то гугл угадал терминологию, где-то Дипл. Построение предложений в обеих системах было одинаковым....
Если хотите посмотреть, как лажают обе системы - возьмите образцы с длинными - на 5-10 строк предложениями с множественными причинно-следственными обстоятельствами и многоуровневым подчинением, которое порой даже с одного прочтения не улавливается однозначно...
Чёт я вас не понимаю - модель для перевода EN-RU - англо-русский? У гугля эта пара давно есть. Была и обратная (насколько помню по использованию Qtranslate)...
Поэтому первое, что можно/нужно сделать — тщательно проверить ТМХ и очистить их от дубликатов и мусора. Учитывая то, что менеджментом копилок переводов часто занимаются люди, очень слабо понимающие суть вопроса, я не видел больших беспроблемных TMX.
Второе - учитывая разную стилистику разнотипных документов - художка, инструкции/руководства, стандарты, научпоп, реклама, локализация софта — очевидно необходимо развести эти специализации/направления, как сделано в Промт. Очевидно - разработкой некоторых направлений, например - стандартов - можно заинтересовать серьёзных госзаказчиков.... Насколько знаю - сейчас в Росатоме занимаются чем-то подобным для оффлайна/ЛВС, начиная от распознавания изображений и до перевода.
Третье - для контроля/выявления слабых мест - крайне желательно привести GUI приложения к стандартному табличному виду большинства CAT-tools (или добавить такой вид) и добавить поддержку основных обменных форматов - 2-колоночного RTF и Xliff во всех его разновидностях, либо написать плагины для CAT - для выявления огрехов/пополнения баз в процессе работы.
По опыту с CAT - огромную роль для правильного перевода играет правильная сегментация - разбивка текста на самодостаточные для перевода логические единицы - обычно предложения... ТМХы как раз часто содержат переводы предложений, разбитых абы как.... Опять таки - табличный вид позволяет лучше видеть эту проблему...
Учитывая сегодняшнюю ситуацию - особый интерес представляет разработка моделей для восточных языков - в первую очередь китайского и арабского.... Но специалистов по ним не много, и сейчас они без работы не сидят.
А гуйный портабельный (exe) вариант Аргуса для W7 - можно как-то или где-то увидеть? А то не силён я во всём этом, особенно учитывая то, что последние версии Питона на W7 уже не ставятся...
Вы абсолютно всё правильно пишете. Но наверное как-то неправильно сравнивать вырезки в газете с медицинской диссертацией, в которой есть чёткая гипотеза, ясно описанный метод и приведены НЕ ЕДИНИЧНЫЕ успешные истории лечения тяжёлых случаев, демонстрирующие её правоту. Тем более что сам автор пишет, что его метод не панацея от всех бед... Врачи, тем более НЕ НАСМОТРЕННЫЕ, такие же люди, как и все - они тоже могут делать ошибки, подобные вашей.... А вот опыта и знаний у них явно не хватает. И где им его брать - увеличивать кладбище ускоренными темпами? Замечания по поводу насмотренного доктора хорошо — НО ГДЕ ЕГО ИСКАТЬ, когда наверное кроме Москвабада и Питера в остальных местах нехватка специалистов от острой до очень острой, да при этом часть молодых врачей занимается зарабатыванием денег на медицинской стезе (о чём тут кстати уже писали применительно к стоматологии)..... И по вашему со смертью насмотренного врача должны бесследно пропадать и его наработки и достижения?
Вы правильно диагностировали проблему, а пытаетесь решить её странным образом....
Если есть GARBAGE IN, может проще, работая с родным языком, настроить его алгоритмы на типизирование основных характеристик, которые ваша система переводит сносно, а весь остальной кастом в отдельное поле с правилами, что и как лучше написать, чтобы оно более или менее правильно перевелось существующим движком на другие языки для покупателей из других стран.....
Честно говоря, смотрю я на все потуги разработчиков МП скрестить ежа и ужа, чтобы он всякий мусор переводил во вменяемое и смеюсь..... Не проще ли таких писателей посылать на хутор, и требовать грамотно написанные по правилам тексты...... Почему нигде в жизни из мусора или некачественного сырья качественный продукт не делают, а в софте - сплошь и рядом - попытки объять необъятное (самые разнородные и нестандартизированные данные) приводят к разрастанию размеров без заметных признаков улучшения, а часто и наоборот к появлению тормозов, лагов и т.п.
Вы не поняли. Мир после внедрения солюшена в ваших примерах не улучшится. Все современные документы организации, разумно подходящие к организации труда, и так принимают только в цифровом виде.....
Гибкость и адаптивность к чему? К старым полуслепым советским синькам, отсканированным сотрудниками, абсолютно не понимающими, что с изображениями будет дальше (типа проекта оцифровки библиотек Гуглем - я такого треша не видал даже у самых безруких сканировщиков начала века). Не смешите мои тапки. Технологии OCR Абби застыли на уровне 2000-2005, обработки изображений с целью подготовки к OCR (по FR) также далеки даже он фришных творений одиночек - типа Сканкромсатор.... Поэтому всё, что остаётся - просто максимальная типизация - расположения блоков, их структуры и т.п. с автоматизацией. Благо в наличии все исходники....... Все обучение тут, насколько понимаю - рассортировка документов по неким признакам (что они сейчас рекламируют в мобильном приложении), проверка стабильности расположения блоков информации на листах после выравнивания и подгонки сканов по реперам, и выведение контрольных шаблонов для информации в блоках..... Всё это можно было сделать в 8-9 FineReader, о чем тут тоже некоторые писали... И решение такое по цене наверняка было бы дешевле на пару порядков точно.....
По поводу там-тут — Учитывая разницу в задачах и качестве сырья там и тут, я абсолютно не уверен, что те решения будут эффективными тут. Хороший пример подхода — сохранение лидерства Абби в OCR русского языка просто потому, что компания русская и её сотрудники понимают специфику этого языка гораздо лучше конкурентов.
МО на стороне пользователя — насколько знаю, белорусский разработчик машинного перевода Lingvanex вроде как предлагал клиентам развёртывание системы МП с возможностью дрессировки машины на оборудовании клиента. Недешёвое это было удовольствие и до биткойнового хайпа - а после него - для выхода в плюс нужны просто гигантские объёмы последующего перевода... Раньше голь была на выдумку хитра и искала решения - а сейчас всё тупо пытаются мощой процессорной задавить и получается то, что мы видим...
Подытоживая - статья слабенькая Для специалистов неинформативная, для потенциальной клиентуры — вообще ни о чём - нет в ней ничего цепляющего, с нарушением всех правил заморских учебников о создании продуктов, которые должны продавать сами себя.... Остаётся только пожелать успеха....
Интересно, у вас жена никогда не убирала ваши вещи в место, которое нравится ей, или которое она считает более уместным для этих вещей?
А если по аналогии производители машин поменяют местами педали тормоза и газа - тоже сглотнёте всякую муйню про прогресс или выскажете, всё что думаете, въехав в первое дерево?
Затем, что речь идёт о базах для обучения модели. И если вы оставите в них говно, это говно потом будет преследовать вас всю дальнейшую жизнь.....
Мусор - мусорные сегменты: цифры, обозначения, оригинал=перевод, дубликаты, непереводы, неверно разбитые сегменты. Если вы чистили автоматами - вы могли удалить только мусор типа цифр, обозначений, оригинал=перевод, дубликаты.
Я поверху посмотрел 3 корпуса - ООН - самый качественный. Там 2 проблемы — наличие в части документов исправлений в обеих частях, и плохая сегментация (разбиение текста на единицы перевода - т.е. на предложения). Навскидку - таких сегментов там около процента. Wiki — там непереводы сразу попадаются на глаза - и таких в начальной части - несколько процентов.
База МП текстов с сайтов (ибо внутри есть параметры оценки по различным алгоритмам и много интернет ссылок) - общим объёмом 34 GB — ГОВНО - там нормальных переводов 10-20% навскидку.
Часть мусора можно очистить автоматикой Olifant - гуглите. Логический мусор - непереводы очистить можно только вручную.... (частично - при наличии некоторых ключевых идентификаторов - слова, имеющие только один перевод, числа, даты, ФИО, имена собственные — такие сегменты можно вычистить по ним/повторному МП ———— это относится к базе Вики).
Но беда с сырьём — это сейчас проблема почти всех, кто работает с Big-data.... Только программисты готовы делать из говна непонятно что. В любых реальных отраслях есть жёсткие требования к качеству исходного сырья и материалов.
Написал я то, что материалы для работы ненадлежащие. По тому, что вижу, реальным путём повышения качества может быть простая очистка баз от всякого мусора и повторное обучение.
Добавлю.
ТМХ по Вики вообще странная - многие русские статьи в Вики являются не переводами, а самостоятельными статьями по теме оригинальной английской статьи, с другими привязками, литературой и т.п. Поэтому даже по поверхностному взгляду в ней полно неадекватных сегментов типа
By the 11th century, London was beyond all comparison the largest town in England.=== XVIII—XIX века ===
К 1700 году Лондон превратился в крупнейший город Европы.
An emigration department was created in 1906 at the ministry of agriculture.
=== Сельское хозяйство России в 1905 году ===Общие экономические показатели.
St. Mary, St. Nicholas, St. Andrew, St. George, St. Alexander Nevsky, St. Sergius of Radonezh and St. Seraphim of Sarov are Russia's patron saints.
Сайт Комиссии при Президенте Российской Федерации по модернизации и технологическому развитию экономики России.
Короче, как очень часто последнее время в IT — исходным данным и их качеству просто не уделяется достаточное внимание.
Не всякий мусор предобработка очистит -- в ООНовских базах есть большие фрагменты текстов, которые правились в режиме рецензирования с обеих сторон, предложений, разбитых на части, в которых одни слова в силу различия построения фраз на языках находятся в разных сегментах.....
Несколько примеров из ТМ
China Delicates Laundry Bag China Manufacturers & Suppliers & Factory
Китай Мешок Прачечного Сетки Производители & Поставщики & Фабрика
2 years ago 03:47 ShemaleZ huge dildo Huge Dildo Pounding
2 года назад 03:47 ShemaleZ огромный дилдо
-gives protection towards the action of solar radiation dangerous;
-дает защиту на действие солнечного излучения опасные;
From the flat water of the scale to the attic of the apartment of 36m2, the minimum height of 230cm with 1 king size bedroom, marble bathroom, living room, air conditioning, a large covered terrace of 36m2 with barbecue and magnificent sea views.
От плоской воды шкалы до чердака квартиры 36 м2, минимальная высота 230 см с 1 кроватью размера “king-size”, мраморной ванной комнатой, гостиной, кондиционером, большой крытой террасой 36 м2 с барбекю и великолепным видом на море.
И это только по поверхностному взгляду.... В принципе, этого достаточно, чтобы сделать заключение, что самая большая по размеру ТМ - ГОВНО (или отравлена, как говорят в ИТ).
Невысокая скорость может быть обусловлена перегруженностью ТМХ мусором. Просмотрел 33 ГБ ТМХ там 95% мусор - типа ссылок на исходные файлы - которые, видимо, сопоставлялись автоматическими алгоритмами...
Так вот пока и не могу попользоваться. При установке ругается — не устанавливается. Однозначного решения у проблемы нет, но не исключаю, что проблема из-за непоследней версии Питона....
Поэтому бы и хотелось погонять оффлайн инструмент. Не менее интересно было бы попробовать его ещё на одной паре, под которую, наверное смог бы наковырять тыс 500 сегментов.....
Еще момент - по описанию машину можно натренировать на собственных/отобранных переводах, что позволит дополнительно сократить затраты времени на стилистических правках...
В случае перевода важна больше не открытость проекта, а его оффлайновость. Никто не хочет сильно заморачиваться, сначала вычищая из оригинала конфиденциальную инфу, а затем вставляя её в перевод.
Не понимая языка хотя бы на базовом уровне, обучать модель - идея так себе. К тому же я даже не уверен в наличии достаточного количества качественно переведённых материалов в России
W7 на данный момент отличается необходимой стабильностью и работой нужного софта. К чему тогда W10 и W11, за годы существования которых я уже наслушался столько — ой после обновления что-то перестало работать, сколько наверное не слышал за всё время со времён MS-DOS.
Для 90% людей опыт соскока из привычной среды на непривычную без безальтернативных вариантов заканчивается возвратом, и чувством «В какое же говно я влез». Как раз сегодня немного полистал на реддите топик «Пользователи Android - почему, кроме цены, вы не переходите на IOS». Ставить Линух ради одного Аргуса — идея так себе....
А что в гугле одни гении работают? Глядя на некоторые книги «digitized by Google» — таких рукожопов ещё надо поискать...
Гугл сейчас во многих вещах - у семи нянек дитя без глазу..... — Говёнские хромбуки, деградация с Пикселем, Edge начинает превосходить Хром, Дипл с его гораздо меньшими ресурсами, но направленными на одну цель тоже обошёл гугл......
Типичная беда больших компаний....
Осталось дождаться, когда китайцы развернутся во всю мощь и просто перестанут ставить андроид на свои смарты.....Дальше начнётся медленное забивание гвоздей в гроб гугля.
Почему гугл не может также прогнать нейросеткой и улучшить свой перевод
Объяснений может быть масса
1) Состав контрольного датасета - чем сильнее он отличается от датасета для натаскивания - тем хуже будет результат
2) Более совершенные алгоритмы. Русский язык довольно проблемный для МП и наличие в команде грамотных русских специалистов легко может вывести команду вперёд именно на данном направлении, что мы видим по Finereader - по качеству распознавания, по работе с восточными языками, по разным откликам, он уже уступает конкурентам, но для работы с русским языком он пока остаётся лучшим.
3) В разной степени неудачные датасеты для тренировки МП, а может намеренно испорченные или «отравленные» (poisoned -как говорят в ИТ). Про проблемы датасетов, полученных от переводческих компаний я уже писал.
Если вы воспитаны на советской литературе - МП, натаскиваемый в большинстве своём на более слабых современных переводах, может и вообще не зайти.
4) А судьи кто - кому-то нравится Блок, кому-то Маяковский.... Под такой русский и будут затачивать МП создатели. И вот представьте - вы поклонник Блока, сталкиваетесь с МП, натасканной поклонником Маяковского...
Зачем делать? Ситуацию сегодняшнего дня вы прекрасно видите... Качество МП, если еще не идеальное, то уже можно сказать - годное для работы/обработки и сокращающее затраты времени на перевод. В технике МП часто даёт результат лучше, чем выпускники ИИЯ. Поэтому интерес к нему растёт, но не всех устраивают ОНЛАЙН-платформы МП из-за проблем с конфиденциальностью. Поэтому есть довольно большой интерес к ОФФЛАЙН МП...
Полагаю подготовка датасета РУС-КИТ и натаскивание МП на нём сегодня является очень актуальной и, вероятнр коммерчески выгодной, задачей....
Deepl ..... ощутимо лучше чем яндекс или гугл — Опять таки чисто на ваших примерах и под ваше понимание ХОРОШЕГО РУССКОГО ЯЗЫКА.
Я когда-то сравнивал Гугл с Диплом на абзаце из технической книжки - и кардинальных отличий не заметил. Где-то гугл угадал терминологию, где-то Дипл. Построение предложений в обеих системах было одинаковым....
Если хотите посмотреть, как лажают обе системы - возьмите образцы с длинными - на 5-10 строк предложениями с множественными причинно-следственными обстоятельствами и многоуровневым подчинением, которое порой даже с одного прочтения не улавливается однозначно...
Чёт я вас не понимаю - модель для перевода EN-RU - англо-русский? У гугля эта пара давно есть. Была и обратная (насколько помню по использованию Qtranslate)...
Сможет. Нужно только датасет и обучить машину. Как вариант датасета - реверс текущего
Скачал и посмотрел несколько TMX из набора - и первое, не трогая алгоритмы — исходное сырьё не очень... Я с коллегой веду топик по техническим ТМХ здесь http://forum.ru-board.com/topic.cgi?forum=93&topic=4071&start=100#lt. Можете заходить пообщаться.
Поэтому первое, что можно/нужно сделать — тщательно проверить ТМХ и очистить их от дубликатов и мусора. Учитывая то, что менеджментом копилок переводов часто занимаются люди, очень слабо понимающие суть вопроса, я не видел больших беспроблемных TMX.
Второе - учитывая разную стилистику разнотипных документов - художка, инструкции/руководства, стандарты, научпоп, реклама, локализация софта — очевидно необходимо развести эти специализации/направления, как сделано в Промт.
Очевидно - разработкой некоторых направлений, например - стандартов - можно заинтересовать серьёзных госзаказчиков.... Насколько знаю - сейчас в Росатоме занимаются чем-то подобным для оффлайна/ЛВС, начиная от распознавания изображений и до перевода.
Третье - для контроля/выявления слабых мест - крайне желательно привести GUI приложения к стандартному табличному виду большинства CAT-tools (или добавить такой вид) и добавить поддержку основных обменных форматов - 2-колоночного RTF и Xliff во всех его разновидностях, либо написать плагины для CAT - для выявления огрехов/пополнения баз в процессе работы.
По опыту с CAT - огромную роль для правильного перевода играет правильная сегментация - разбивка текста на самодостаточные для перевода логические единицы - обычно предложения... ТМХы как раз часто содержат переводы предложений, разбитых абы как.... Опять таки - табличный вид позволяет лучше видеть эту проблему...
Учитывая сегодняшнюю ситуацию - особый интерес представляет разработка моделей для восточных языков - в первую очередь китайского и арабского.... Но специалистов по ним не много, и сейчас они без работы не сидят.
А гуйный портабельный (exe) вариант Аргуса для W7 - можно как-то или где-то увидеть? А то не силён я во всём этом, особенно учитывая то, что последние версии Питона на W7 уже не ставятся...
Вы абсолютно всё правильно пишете. Но наверное как-то неправильно сравнивать вырезки в газете с медицинской диссертацией, в которой есть чёткая гипотеза, ясно описанный метод и приведены НЕ ЕДИНИЧНЫЕ успешные истории лечения тяжёлых случаев, демонстрирующие её правоту. Тем более что сам автор пишет, что его метод не панацея от всех бед...
Врачи, тем более НЕ НАСМОТРЕННЫЕ, такие же люди, как и все - они тоже могут делать ошибки, подобные вашей.... А вот опыта и знаний у них явно не хватает. И где им его брать - увеличивать кладбище ускоренными темпами?
Замечания по поводу насмотренного доктора хорошо — НО ГДЕ ЕГО ИСКАТЬ, когда наверное кроме Москвабада и Питера в остальных местах нехватка специалистов от острой до очень острой, да при этом часть молодых врачей занимается зарабатыванием денег на медицинской стезе (о чём тут кстати уже писали применительно к стоматологии).....
И по вашему со смертью насмотренного врача должны бесследно пропадать и его наработки и достижения?
Почитайте http://www.lib.ru/URIKOVA/METAMED/SAMOHOCKIJ/
Там есть опыт успешного лечения экземы... По моим прикидкам метод может оказаться эффективным и от псориаза...
Вы правильно диагностировали проблему, а пытаетесь решить её странным образом....
Если есть GARBAGE IN, может проще, работая с родным языком, настроить его алгоритмы на типизирование основных характеристик, которые ваша система переводит сносно, а весь остальной кастом в отдельное поле с правилами, что и как лучше написать, чтобы оно более или менее правильно перевелось существующим движком на другие языки для покупателей из других стран.....
Честно говоря, смотрю я на все потуги разработчиков МП скрестить ежа и ужа, чтобы он всякий мусор переводил во вменяемое и смеюсь..... Не проще ли таких писателей посылать на хутор, и требовать грамотно написанные по правилам тексты......
Почему нигде в жизни из мусора или некачественного сырья качественный продукт не делают, а в софте - сплошь и рядом - попытки объять необъятное (самые разнородные и нестандартизированные данные) приводят к разрастанию размеров без заметных признаков улучшения, а часто и наоборот к появлению тормозов, лагов и т.п.
Можете выложить ссылку на деморолик?
Вы не поняли. Мир после внедрения солюшена в ваших примерах не улучшится. Все современные документы организации, разумно подходящие к организации труда, и так принимают только в цифровом виде.....
Гибкость и адаптивность к чему? К старым полуслепым советским синькам, отсканированным сотрудниками, абсолютно не понимающими, что с изображениями будет дальше (типа проекта оцифровки библиотек Гуглем - я такого треша не видал даже у самых безруких сканировщиков начала века). Не смешите мои тапки.
Технологии OCR Абби застыли на уровне 2000-2005, обработки изображений с целью подготовки к OCR (по FR) также далеки даже он фришных творений одиночек - типа Сканкромсатор.... Поэтому всё, что остаётся - просто максимальная типизация - расположения блоков, их структуры и т.п. с автоматизацией. Благо в наличии все исходники.......
Все обучение тут, насколько понимаю - рассортировка документов по неким признакам (что они сейчас рекламируют в мобильном приложении), проверка стабильности расположения блоков информации на листах после выравнивания и подгонки сканов по реперам, и выведение контрольных шаблонов для информации в блоках..... Всё это можно было сделать в 8-9 FineReader, о чем тут тоже некоторые писали... И решение такое по цене наверняка было бы дешевле на пару порядков точно.....
По поводу там-тут — Учитывая разницу в задачах и качестве сырья там и тут, я абсолютно не уверен, что те решения будут эффективными тут. Хороший пример подхода — сохранение лидерства Абби в OCR русского языка просто потому, что компания русская и её сотрудники понимают специфику этого языка гораздо лучше конкурентов.
МО на стороне пользователя — насколько знаю, белорусский разработчик машинного перевода Lingvanex вроде как предлагал клиентам развёртывание системы МП с возможностью дрессировки машины на оборудовании клиента. Недешёвое это было удовольствие и до биткойнового хайпа - а после него - для выхода в плюс нужны просто гигантские объёмы последующего перевода...
Раньше голь была на выдумку хитра и искала решения - а сейчас всё тупо пытаются мощой процессорной задавить и получается то, что мы видим...
Подытоживая - статья слабенькая Для специалистов неинформативная, для потенциальной клиентуры — вообще ни о чём - нет в ней ничего цепляющего, с нарушением всех правил заморских учебников о создании продуктов, которые должны продавать сами себя.... Остаётся только пожелать успеха....