Pull to refresh
-21
0
Send message

какая дыра для безопасности появляется... Пора начинать приземлять это спутники

Как сказать. Если их за многие годы не решили/доказали математически, где гарантия, что это смогут сделать в обозримом будущем, учитывая общий уровень падения грамотности?
За это же время суперкомпьютеры наверняка смогут обсчитать все варианты в каком-либо умозримом диапазоне, лезть дальше которого практического смысла нет.....

Контрпримеры часто тоже находятся только перебором.

Задачи конечно интересные, но чтобы их начали решать, находя приёмы, имеющие практическое значение, а не брать грубой вычислительной мощностью, математикам надо оставить доступ к компьютерам только для проверки верности или неверности их гипотез....

И исправьте ошибку в тексте
Однако чётвертое условие не выполняется: 240^2 + 117^2 + 44^2 не является целым числом.????

Ну с бенчмарками, спеллчеками, датасетами лучше вообще про русский язык ничего не писать...

А в качестве одной из наиболее часто встречающихся задач добавить в качестве теста проверку орфографии и очистку от мусора распознанного текста, например небольшой книжки, журнала, вполне можно было бы.

Из простых задач, с которыми часто приходится сталкиваться пользователям - добавьте в тест задание на автоматическое исправление распознанного текста - например художественной или научно-популярной книги.

Описана история застоя, по сути... По отзывам на руборде реальных улучшений в качестве распознавания у Файнридера не наблюдается уже лет 15, несмотря на появление нейронных сетей, рост мощности компов и т.п.
Интерфейс, спроектированный под моники 2:3, уже совсем не так хорош на 16:9....
Всякие удобные мелочи, типа перезагрузки картинки страницы, программисты файнридера считают видимо ниже своего достоинства разрабатывать....Это же мелочи, а не приличный кусок коричневой субстанции, называемый «редактор изображений...»
Скорость работы - т.е. возможность начать работать с результатами сразу после распознавания 1-й страницы в последних версиях хуже, чем в 8, несмотря на i9, SSD и кучу памяти.....
Только добавились несколько языков да новых форматов.... За 15 лет.... Прогресс однако....

Алёна
1. Когда говорят приняты, подразумевают некий документ, которым они приняты, например терминологический стандарт. Пока уместнее говорить о терминологии, используемой в вашей компании или русскоязычном сообществе разработчиков ИИ.
2. Хабр - скорее околонаучное сообщество, примерно как в советское время подписчики журнала «Наука и жизнь». Почитайте его на досуге хотя бы для общего развития.
3.Для сравнения с другими системами есть наборы тестов. Это понятно... Но речь идёт о датасетах для тренировки/обучения модели... Получить из одних наборов данных с примерно одинаковыми подходами и квалификацией кардинально разные результаты - надо постараться. Скорее всего борьба будет за проценты и доли процентов, которые пользователи не заметят (пример - проценты улучшения распознавания в новых версиях Файнридер уже 15 лет, которые всё никак не достигнут 100%). Чего вы добиваетесь? Не сизифов ли труд делаете?
4. По поводу принятого для темы, которую стали раскручивать меньше года назад, я бы рекомендовал использовать другое слово - используемые.
5. Скажите, зачем пользователям пробовать ваши решения для ваших задач? Пользователям нужно решать свои задачи. Вот поэтому я и спрашиваю, а какая работа проделана с потенциальными пользователями в плане определения их задач, допустимой цены и условий их решения, и какие шаги предпринимаются для удовлетворения потенциальных пользователей, а не соревнований непонятно с кем в циферках?

Как я вижу, подобные системы могли бы быть очень эффективны в автоматическом исправлении орфографических ошибок / ошибок распознавания в тексте за счёт огромной базы, покрывающей все возможные варианты. Если ошибка в слове может быть исправлена 3 способами, то расширение охвата проверки на словосочетание позволит исключить большинство неверных альтернативных вариантов...

Но опять-таки, учитывая закат ОРФО-Информатика и невысокий потенциальный интерес к такой функции онлайн (кто захочет проверять свои документы, отправляя их непонятно кому) я не вижу здесь даже таких финансовых перспектив, которые бы позволили окупить разработку на текущем уровне (даже купить пару H100)
Второе, что вижу, как уже написал - изложение/рерайтинг для антиплагиата и написания текста/перевода на русский неносителями.... Тоже ниша так себе....

Напишите - для решения каких пользовательских (причём желательно без наличия RTX4090) задач вы разрабатываете продукт и какие понятные цели (не циферки с процентиками) вы планируете достичь?

PS. Мне тут минусцов накидали, поэтому могу писать только 1 пост в сутки. Поэтому если дискуссия продолжится, она не будет особо активной.

Алёна, я бы посоветовал переписать статью на нормальном русском языке, раз уж о нём речь, вместо кривого, с кучей заимствований, с которыми вы боретесь, «типа-русского» языка итишников.
Рерайтинг - в советской школе на уроках русского языка это называлось изложением.
Суммаризатор - аннотатор; суммаризирование — аннотирование, резюмирование
Симплификация — упрощение, упрощённое изложение, лаконичное изложение
бейзлайн ??? (обычно говорят и пишут через «с»). Да и тут это заимствование совсем не оправдано.
претрейн — подготовка
Было бы интересно посмотреть на то, как ваша система исправит вашу статью от англицизмов и заимствований.

Во-вторых, я конечно понимаю смысл слова «генеративный» но изложение другого материала частично другими словами не является созданием.... Это скорее инструмент плагиаторов и прочих бумагомарателей для обеспечения соответствия требованиям к уникальности текста.....

В-третьих, меряние достоинствами для кого-то здорово, для кого-то глупо, но хотелось бы увидеть примеры решения с вашей системой реальных задач? Помните цитату, приписываемую Фейнману «Если вы ... не можете ... объяснить ... ребёнку, чем вы занимаетесь, — вы шарлатан.
Без реальных практических задач, кроме «облагораживания» плагиата, ваша статья напоминает типичную шарлатанскую шумиху вокруг ИИ.

В-четвёртых, пример с архиепископом не совсем удачный. Система исказила смысл в принципе несложного предложения (архиепископом пострижен кто-то и архиепископ принял постриг), что поднимает массу вопросов к реальной зрелости технологии ...


Все. Сенсации конец. Сами создатели признались в фальсификации.

Опечатки
Иногда упоминается, что удачный образец получился в треснувшей ..... пробиркИ и, соответственно, попаданию (????) кислорода.

Современные вычислительные методы позволяют обсчитывать самые чудные структуры - проблема как всегда в синтезе и стабильности получаемых материалов и их свойств... Интересно, а что наши учёные не проверяют достижения китайских коллег?
И вроде как сегодня уже была где-то заметка, что американцам удалось воспроизвести достижения китайцев.

Посмотрите низкопрофильные Redragon (Apas; 618), Keychron (K1).

ContentReader — одно из лучших решений? Да вы смеетесь. Хотя наверное нет... Вспоминая анонсы Finereader, Lingvo - там в каждой версии всё становилось лучше на десятки процентов, правда, что лучше, где лучше так никто и не понял...

Скажите, сколько лет вы занимались приведением в нормальный вид различных PDF? Какого типа, на каких языках, с какими проблемами и целями?
В этом деле нет лучших программ. Есть программы, в которых какая-то полезная функция реализована лучше...
Если бы лучшая программа была - все другие бы уже умерли....
Я недавно направил вам пример - попробуйте привести в нормальный вид True PDF Медицинский словарь Dorlands, 32 изд.
(добиться правильного распознавания буллетов, делящих слова на слоги и делающие невозможным поиск, апострофов в транскрипциях и примерах, которые почему-то в любом режиме (извлечения текста или распознавания картинки, распознаются верхнеиндексными нулями),
разобраться, почему между текстом разного формата и цвета часть абзацев непонятно с чего заменяется на разрывы строки и т.д. и т.п., места не хватит перечислять)
Ваши разработчики откроют для себя много нового о том, что раньше им казалось лучшим....

Я так понимаю поиск/замена по кругу, а не отдельно вперёд/назад, поддержка регвыров/оформления текста и пакетной замены несловарных слов/типичных ошибок настолько трудны для реализации, что за 30 лет «развития» программы так и не были реализованы?
Сохранение блоков при обработке картинок в редакторе вы соизволили сделать частично (только для простейших операций редактирования изображений) ТОЛЬКО В 16 версии, после указания на это с выхода 9!!!! версии.
(Если раньше она вам была не нужна, после того как начиная с 9 версии ластик уехал в редактор изображений (««««грамотнейшее»»»» решение) - ВЫ ПРОСТО СОВСЕМ НЕ ПОЛЬЗУЕТЕСЬ ПРОГРАММОЙ ДЛЯ РЕАЛЬНОЙ РАБОТЫ, А ВАШИ ТЕСТ ПАТТЕРНЫ ДАВНО И БЕЗНАДЁЖНО УСТАРЕЛИ).
И мне даже интересно, как, не имея опыта в использовании своей программы, не используя её постоянно для решения РАЗНООБРАЗНЫХ задач: а) вы можете правильно её оценить б) вы можете её улучшать?

Касательно качества реализации - сравните свои опции подготовки/обработки/сохранения сканов/pdf своих поделок, типа встроенного граф. редактора FinePDF с возможностями SkanKromsator.
Я как-то знатно удивился недавно, решив добавить текст в 40 МБ PDF, сделанный в кромсаторе.... FR15 стал моим чемпионом - 600 МБ - вот это КАЧЕСТВО РЕАЛИЗАЦИИ. Уважаю.
В данном случае вы, видимо, как и Филиппов в Карнавальной ночи про звёздочки коньяка, считаете, что больше - это лучше. Разочарую вас - это не так.

Касательно русских PDF с кривым маппингом - тоже не вижу у вас адекватного решения, когда нужно на 100% сохранить оригинальный текст со вставками греческого, латиницы, Symbols, а не разрушить это всё распознаванием.
Вроде компания то ли русская, то ли с русскими корнями - а проблема так и не решена, хотя по релизам одни сплошные улучшения.....

Несовместимость версий вниз даже по РУЧНОЙ РАБОТЕ - наложению блоков - это вообще как?
Удивляюсь, что никто из корпоративных заказчиков с зоопарком версий FR до сих пор не настучал вам по голове.

Что касается рукописного текста:

Какие типы документов в вашем обучающем датасете? (Школьные тетради, паспорта, ТЕХНИЧЕСКИЕ конспекты со вставками латиницы и греческого, личные/судебные дела, врачебные выписки с латинскими вставками)
Сколько конкретно видов почерка/человек? (10-20-10000)
На каких языках?

С Леной Мишиной результат приятно удивляет, хотя Леня и Мишина - это ваш хвалёный ИИ сочетает мужское имя и женскую фамилию?
Касательно генеалогической информации - Огромнейший пласт этой информации по западным районам Российской империи был оцифрован, частично распознан или перенабран вручную американскими мормонами и выложен на сайте https://www.familysearch.org
А сколько еще неоцифрованного в наших архивах - трудно представить.

Nadella, судя по ситуации c MS продуктами, очень загорелая снежинка. «A» сейчас заходит в то же крутое пике, что и «W».

Товарищи из КонтентИИ/Абби — вы в FineReader/FinePDF до ума не довели распознавание/исправление/сохранение (возможности пакетного исправления типичных ошибок распознавания незнакомых слов нет, последняя версия из-за структуры пакета на куче ядер и SSD в режиме постраничного исправления/перераспознавания/правки работает медленнее старой версии на XP с HDD, версии не поддерживают импорт пакетов старых версий с исправленными вручную результатами распознавания (это примерно как если бы ворды 2007-2021 не поддерживали doc), планов развития продуктов нет, продукты бросаются, а потом пользователи посылаются в пешее эротическое, из-за того, что версии больше 3 лет уже, бумажные анонсы которые не доходят до выпуска и т.д. и т.п.
Предлагаете верить вашим сказкам (красивым демкам) тут, учитывая всё то разнообразие человеческих почерков, которые встречаются? Смешно и наивно... Даже в рамках одной организации при смене ручных составителей документации, где это практикуется, будут возникать большие проблемы.....
И я так понимаю, что ограничена эта вещь пока чисто определённым набором стандартных документов, написанных узким кругом людей, более/менее правильным рукописным почерком.... Поле с пропиской в паспортах - это образец по сравнению со старыми метрическими записями, да и с учётом наличия географической информации о населённых пунктах, можно сказать вообще не является проблемой.....
Еще одной проблемой станет практическая трудность коммерциализации, т.к. сегодня с рукописными документами сталкиваются единицы, и часто это попытки углубиться в генеалогию....

Не вырастут. В узких областях, как я уже сказал, модели заточенные на небольших, качественных датасетах конкретно по теме дают лучшие результаты....
Метрика качества для текста - вещь вообще весьма условная. Кому-то нравится Блок, кому-то Маяковский. И вы никогда не убедите первого, что результаты модели 2 даже с метриками 100% будут идеальными.

Но я спрашиваю О КОНКРЕТНЫХ ЗАДАЧАХ (например, разработка истребителя 7 поколения), которые ЭКОНОМИЧЕСКИ ОПРАВДАННО решает конкретно ваша ИИ....Иначе знаете что это напоминает? Побросали в котёл всё что было, греем на огне, и ждём что получится - а получается у всех разное - кто жижу выловит, кто картофелину, а кто мяса кусок.... А предложение встраивать, куда хотите - эй подходи кто хочет со своим черпаком - и черпай....
Для серьёзного рабочего инструмента такое едва годится.....

Общий размер датасета около 300 Гб и состоит он из Википедии, новостей, книг, части очищенного CommonCrawl и т. д. 


Не увидел ничего про корпус....Но это, видимо, особенности синонимичности конкретно вашего изложения.... Не боитесь, кстати, того, что публичные датасеты могут быть намеренно и искусно отравлены (poisoned) - специалистов в данной области пока нет, алгоритмы, софт, метрики и прочее тоже не ваша разработка и вы едва ли понимаете его до конца....
Несходимость это пила в конце обучения....Кстати фактор выше - еще одна из причин недостижимости идеальных метрик.
И кстати а вы проверили, на каких принципах построены эти метрики? Опыт подсказывает, что иностранцы не очень понимают некоторые важные моменты русского языка. Здесь, наверное, это важно.

Нравятся мне такие публикации - ни целей, желательно экономически оправданных по-капиталистически, ни гипотезы. Только циферки и констатация.

Вопросы:
1. Для решения каких дорогостоящих или нерешённых на сегодняшний день, например из-за нехватки выч. мощностей, задач создаётся такая модель?
Какие конкретно цели, помимо циферок в тестах стоят?

Судя по хайпу вокруг ИИ-систем — этакая новая разновидность биткоина - куча шума, куча сил, куча бабла для Нвидии, и что-то близкое к пшику по итогу.

2. Чем обусловлен выбор такого сомнительного источника как Вики вместо, например БСЭ, большой технической энциклопедии и т.п.?

А теперь из собственного опыта ИИ-МП - малые качественные модели, максимально близкие к той области задач, для которой они нужны, требуют гораздо меньше сил, а результаты дают нередко лучше...
Несходимость на графике обучения может быть обусловлена следующими факторами — мусором в датасетах, вариативностью/синонимичностью языка.

Считать вы можете, что хотите, но конструкторам самолётов мнение лётчиков-испытателей ГОРАЗДО важнее мнения уборщиков взлётно-посадочной полосы (ВПП). А что будет, если конструкторы самолётов начнут уделять время уборщикам ВПП столько же, сколько и лётчикам-испытателям, я думаю вы и сами понимаете...

1. Если вы берёте привычные вещи и просто переносите их в ОО, тогда о чём статья... У MS уже давно все более или менее названо и стало более-менее привычным.
2. Про какие ожидания пользователей вы говорите. Нигде про такие желания не читал и даже никогда не слыхивал.... Зато постоянно слышу про то, как реальные желания пользователей засовываются в долгий ящик, потому что их реализация сложна, затратна и еще 110 других причин от продакшена (как это у вас говорится).
В стремлении «впихнуть невпихуемое» всегда приходится идти на компромиссы. И графика - один из лучших, тем более что он устраняет все проблемы, связанные с локализацией.
3. А какие нарушения могут быть с кнопками? Есть привычная дефективность стиля наименования кнопок (в вашем окне кнопка Отменить, вместо Отмена - смотрелась бы более органично). Поэтому определитесь - вы стараетесь сделать всё привычно или отлично, хотя во втором случае к вам будут претензии от сторонников привычного.
4. Кем утверждены эти заимствования, которые вам кажутся привычными. В словарях русского языка их нет. Институт русского языка такие слова вроде тоже не утверждал.
О редполитика!!! (Наконец то правда). Так может надо было начать с её анализа и проверить, насколько она отвечает заявленным вами целям (и недавно принятому закону об ограничении заимствований)?
5. Каким образом вы оцениваете прозрачность и понятность для пользователей вещей, до которых приличное количество пользователей просто не доходит? У вас есть пул из хотя бы 5-10 десятков опытных пользователей, верстающих в ОО сложные документы? По опыту знаю, что, скорее всего, НЕТ. Судя по тому, что указанный вариант вам не знаком, ГОСТы серий ЕСКД, ЕСТД, ЕСПД вам тоже знакомы плохо. По вашему это, вероятно, талмуды ветхих старикашек. Зачем их читать, если есть Бирман и Егерев...
То, что не считаете, ваше право. Я вообще смотрю, нынешняя молодёжь любит походить по граблям, поломать работающее потому, что это старый код (или по вашему легаси), в котором уже никто не разбирается, и проще написать взамен что-то ужасное с точки зрения эргономики и скорости работы (откуда другое то при отсутствии жизненного опыта и хотя бы 5-10 летнего опыта использования программы). Но это ваше право, конечно.
Мир меняется как декорации в театре. В софте это хорошо заметно, особенно на MS - перерисовываются интерфейсы, иконки, окна, а программы особо лучше не становятся, да и рост быстродействия ДАЛЕКО не такой, как заявляют производители железа...
Вот только люди, на которых в театр и ходят, остаются....

Честно говоря, когда мне говорят, что люди, не являющиеся ПРОФЕССИОНАЛЬНЫМИ И ОЧЕНЬ ВЫСОКОКВАЛИФИЦИРОВАННЫМИ ПОЛЬЗОВАТЕЛЯМИ продуктов, могут реально что -то улучшить, кроме разве что мелких исправлений, мне становится смешно....

Но как же тяжело это просто признать и написать вместо
Писатель должен уметь смотреть глазами пользователя — причем не только на текст, но и на контекст: нужно учитывать, где человек находится, в какой обстановке использует приложение, какие цели и задачи решает.

Писатель ДОЛЖЕН БЫТЬ суперпользователем, на голову выше остальных.

Недостатки, противоречия и нарушения здравого смысла в ваших рассуждениях.
1. Имя бывает у того, кто может именоваться (сам себя назвать). У остального бывают названия.
2. Вместо e-mail, чтобы не разводить надписи на пол-листа, давно уже пора использовать соответствующий символ юникода или значок....
3. Отмена Удалить — Существительное и глагол. Даже несмотря на распространённость данного огреха благодаря MS - это признак плохого языка... В хорошем русском языке все названия в интерфейсе должны быть в однотипной манере - Существительные (словосчетания с существительными) или глаголы (глагольные словосочетания), но никак не смешиваться в кучу....И тут действительно часто надо очень сильно думать и тщательно смотреть.
4. Рассуждаете о вытеснении из интерфейса английского и пишете «фичей», «кейс», «нейминга» ? Вы действительно хорошо знаете русский язык и способны справиться с поставленной задачей?
5. События ваши уже давно называются «Листом/ведомостью учёта изменений». Длинно, можно подумать, как сократить, но называть изменения СОБЫТИЯМИ очень странно...ИМХО, это нарушение вашего же правила «текст в интерфейсе должен быть абсолютно прозрачным, сущности и команды должны называться своими именами»

В очередной раз чувство, что вчерашние студенты, вместо того, чтобы изучить опыт своих отцов, начинают изобретать велосипед на пустом месте....

1
23 ...

Information

Rating
Does not participate
Registered
Activity