Comments / Profile of niccolo2019 / Habr

How to become an author

User

ProfileArticlesPostsNewsComments152

Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

niccolo2019 Dec 24 2024 at 14:24

И во сколько это обошлось заказчику, если не секрет? А то кажется, что затраты примерно сопоставимы с ручным трудом, особенно если датасет диалогов не огромадный.

Как загрузить, установить Office 2024 LTSC с сайта Microsoft и активировать навсегда?

niccolo2019 Oct 30 2024 at 18:35

Публике интересно, как правильно устанавливать Office 2019 на Windows 7. Пишите

«Искусство схемотехники»: отзыв о русскоязычной версии третьего оригинального издания

niccolo2019 May 1 2024 at 12:49

В моём варианте перевода (на базе старого, 2-й редакции), в вычитанной части фрагмент 3 главы выглядит так.....
https://ibb.co/bJN0FgH

Хотелось бы конечно побыстрее закончить хотя бы первые 3 главы, но в одиночку как-то тяжко да и времени особо нет.... Если толока грамотных людей соберётся - оно бы конечно можно было и быстрее, и качественнее всё сделать....

Книга хорошая. Отечественных альтернатив ей, учитывая отсутствие собственной элементной базы и загибание электроники в целом в пост-СССРовские годы, нет.
Среди импортных учебников еще хвалят Полупроводниковую схемотехнику Тицше-Шенка....

Starlink и мобильная связь: SMS уже протестировали. Как это работает?

niccolo2019 Jan 19 2024 at 18:42

какая дыра для безопасности появляется... Пора начинать приземлять это спутники

5 известных нерешённых задач, условие которых нетрудно понять

niccolo2019 Oct 31 2023 at 10:49

Как сказать. Если их за многие годы не решили/доказали математически, где гарантия, что это смогут сделать в обозримом будущем, учитывая общий уровень падения грамотности?
За это же время суперкомпьютеры наверняка смогут обсчитать все варианты в каком-либо умозримом диапазоне, лезть дальше которого практического смысла нет.....

5 известных нерешённых задач, условие которых нетрудно понять

niccolo2019 Oct 29 2023 at 12:16

Контрпримеры часто тоже находятся только перебором.

5 известных нерешённых задач, условие которых нетрудно понять

niccolo2019 Oct 28 2023 at 09:32

Задачи конечно интересные, но чтобы их начали решать, находя приёмы, имеющие практическое значение, а не брать грубой вычислительной мощностью, математикам надо оставить доступ к компьютерам только для проверки верности или неверности их гипотез....

И исправьте ошибку в тексте
Однако чётвертое условие не выполняется: не является целым числом.????

SAGE: коррекция орфографии с помощью языковых моделей

niccolo2019 Oct 9 2023 at 12:03

Ну с бенчмарками, спеллчеками, датасетами лучше вообще про русский язык ничего не писать...

А в качестве одной из наиболее часто встречающихся задач добавить в качестве теста проверку орфографии и очистку от мусора распознанного текста, например небольшой книжки, журнала, вполне можно было бы.

SAGE: коррекция орфографии с помощью языковых моделей

niccolo2019 Oct 6 2023 at 19:38

Из простых задач, с которыми часто приходится сталкиваться пользователям - добавьте в тест задание на автоматическое исправление распознанного текста - например художественной или научно-популярной книги.

История FineReader: так создавалась легенда (часть II)

niccolo2019 Sep 28 2023 at 18:12

Описана история застоя, по сути... По отзывам на руборде реальных улучшений в качестве распознавания у Файнридера не наблюдается уже лет 15, несмотря на появление нейронных сетей, рост мощности компов и т.п.
Интерфейс, спроектированный под моники 2:3, уже совсем не так хорош на 16:9....
Всякие удобные мелочи, типа перезагрузки картинки страницы, программисты файнридера считают видимо ниже своего достоинства разрабатывать....Это же мелочи, а не приличный кусок коричневой субстанции, называемый «редактор изображений...»
Скорость работы - т.е. возможность начать работать с результатами сразу после распознавания 1-й страницы в последних версиях хуже, чем в 8, несмотря на i9, SSD и кучу памяти.....
Только добавились несколько языков да новых форматов.... За 15 лет.... Прогресс однако....

GigaChat против всех — тестируем языковую модель на генеративных задачах

niccolo2019 Sep 16 2023 at 19:12

Алёна
1. Когда говорят приняты, подразумевают некий документ, которым они приняты, например терминологический стандарт. Пока уместнее говорить о терминологии, используемой в вашей компании или русскоязычном сообществе разработчиков ИИ.
2. Хабр - скорее околонаучное сообщество, примерно как в советское время подписчики журнала «Наука и жизнь». Почитайте его на досуге хотя бы для общего развития.
3.Для сравнения с другими системами есть наборы тестов. Это понятно... Но речь идёт о датасетах для тренировки/обучения модели... Получить из одних наборов данных с примерно одинаковыми подходами и квалификацией кардинально разные результаты - надо постараться. Скорее всего борьба будет за проценты и доли процентов, которые пользователи не заметят (пример - проценты улучшения распознавания в новых версиях Файнридер уже 15 лет, которые всё никак не достигнут 100%). Чего вы добиваетесь? Не сизифов ли труд делаете?
4. По поводу принятого для темы, которую стали раскручивать меньше года назад, я бы рекомендовал использовать другое слово - используемые.
5. Скажите, зачем пользователям пробовать ваши решения для ваших задач? Пользователям нужно решать свои задачи. Вот поэтому я и спрашиваю, а какая работа проделана с потенциальными пользователями в плане определения их задач, допустимой цены и условий их решения, и какие шаги предпринимаются для удовлетворения потенциальных пользователей, а не соревнований непонятно с кем в циферках?

Как я вижу, подобные системы могли бы быть очень эффективны в автоматическом исправлении орфографических ошибок / ошибок распознавания в тексте за счёт огромной базы, покрывающей все возможные варианты. Если ошибка в слове может быть исправлена 3 способами, то расширение охвата проверки на словосочетание позволит исключить большинство неверных альтернативных вариантов...

Но опять-таки, учитывая закат ОРФО-Информатика и невысокий потенциальный интерес к такой функции онлайн (кто захочет проверять свои документы, отправляя их непонятно кому) я не вижу здесь даже таких финансовых перспектив, которые бы позволили окупить разработку на текущем уровне (даже купить пару H100)
Второе, что вижу, как уже написал - изложение/рерайтинг для антиплагиата и написания текста/перевода на русский неносителями.... Тоже ниша так себе....

Напишите - для решения каких пользовательских (причём желательно без наличия RTX4090) задач вы разрабатываете продукт и какие понятные цели (не циферки с процентиками) вы планируете достичь?

PS. Мне тут минусцов накидали, поэтому могу писать только 1 пост в сутки. Поэтому если дискуссия продолжится, она не будет особо активной.

GigaChat против всех — тестируем языковую модель на генеративных задачах

niccolo2019 Sep 15 2023 at 11:09

Алёна, я бы посоветовал переписать статью на нормальном русском языке, раз уж о нём речь, вместо кривого, с кучей заимствований, с которыми вы боретесь, «типа-русского» языка итишников.
Рерайтинг - в советской школе на уроках русского языка это называлось изложением.
Суммаризатор - аннотатор; суммаризирование — аннотирование, резюмирование
Симплификация — упрощение, упрощённое изложение, лаконичное изложение
бейзлайн ??? (обычно говорят и пишут через «с»). Да и тут это заимствование совсем не оправдано.
претрейн — подготовка
Было бы интересно посмотреть на то, как ваша система исправит вашу статью от англицизмов и заимствований.

Во-вторых, я конечно понимаю смысл слова «генеративный» но изложение другого материала частично другими словами не является созданием.... Это скорее инструмент плагиаторов и прочих бумагомарателей для обеспечения соответствия требованиям к уникальности текста.....

В-третьих, меряние достоинствами для кого-то здорово, для кого-то глупо, но хотелось бы увидеть примеры решения с вашей системой реальных задач? Помните цитату, приписываемую Фейнману «Если вы ... не можете ... объяснить ... ребёнку, чем вы занимаетесь, — вы шарлатан.
Без реальных практических задач, кроме «облагораживания» плагиата, ваша статья напоминает типичную шарлатанскую шумиху вокруг ИИ.

В-четвёртых, пример с архиепископом не совсем удачный. Система исказила смысл в принципе несложного предложения (архиепископом пострижен кто-то и архиепископ принял постриг), что поднимает массу вопросов к реальной зрелости технологии ...

LK-99 — сверхпроводимость при комнатной температуре?

niccolo2019 Aug 10 2023 at 19:13

Все. Сенсации конец. Сами создатели признались в фальсификации.

LK-99 — сверхпроводимость при комнатной температуре?

niccolo2019 Aug 1 2023 at 17:50

Опечатки
Иногда упоминается, что удачный образец получился в треснувшей ..... пробиркИ и, соответственно, попаданию (????) кислорода.

Современные вычислительные методы позволяют обсчитывать самые чудные структуры - проблема как всегда в синтезе и стабильности получаемых материалов и их свойств... Интересно, а что наши учёные не проверяют достижения китайских коллег?
И вроде как сегодня уже была где-то заметка, что американцам удалось воспроизвести достижения китайцев.

6 механических клавиатур, на которые стоит обратить внимание летом 2023 года

niccolo2019 Jul 30 2023 at 16:43

Посмотрите низкопрофильные Redragon (Apas; 618), Keychron (K1).

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

niccolo2019 Jul 26 2023 at 06:36

ContentReader — одно из лучших решений? Да вы смеетесь. Хотя наверное нет... Вспоминая анонсы Finereader, Lingvo - там в каждой версии всё становилось лучше на десятки процентов, правда, что лучше, где лучше так никто и не понял...

Скажите, сколько лет вы занимались приведением в нормальный вид различных PDF? Какого типа, на каких языках, с какими проблемами и целями?
В этом деле нет лучших программ. Есть программы, в которых какая-то полезная функция реализована лучше...
Если бы лучшая программа была - все другие бы уже умерли....
Я недавно направил вам пример - попробуйте привести в нормальный вид True PDF Медицинский словарь Dorlands, 32 изд.
(добиться правильного распознавания буллетов, делящих слова на слоги и делающие невозможным поиск, апострофов в транскрипциях и примерах, которые почему-то в любом режиме (извлечения текста или распознавания картинки, распознаются верхнеиндексными нулями),
разобраться, почему между текстом разного формата и цвета часть абзацев непонятно с чего заменяется на разрывы строки и т.д. и т.п., места не хватит перечислять)
Ваши разработчики откроют для себя много нового о том, что раньше им казалось лучшим....

Я так понимаю поиск/замена по кругу, а не отдельно вперёд/назад, поддержка регвыров/оформления текста и пакетной замены несловарных слов/типичных ошибок настолько трудны для реализации, что за 30 лет «развития» программы так и не были реализованы?
Сохранение блоков при обработке картинок в редакторе вы соизволили сделать частично (только для простейших операций редактирования изображений) ТОЛЬКО В 16 версии, после указания на это с выхода 9!!!! версии.
(Если раньше она вам была не нужна, после того как начиная с 9 версии ластик уехал в редактор изображений (««««грамотнейшее»»»» решение) - ВЫ ПРОСТО СОВСЕМ НЕ ПОЛЬЗУЕТЕСЬ ПРОГРАММОЙ ДЛЯ РЕАЛЬНОЙ РАБОТЫ, А ВАШИ ТЕСТ ПАТТЕРНЫ ДАВНО И БЕЗНАДЁЖНО УСТАРЕЛИ).
И мне даже интересно, как, не имея опыта в использовании своей программы, не используя её постоянно для решения РАЗНООБРАЗНЫХ задач: а) вы можете правильно её оценить б) вы можете её улучшать?

Касательно качества реализации - сравните свои опции подготовки/обработки/сохранения сканов/pdf своих поделок, типа встроенного граф. редактора FinePDF с возможностями SkanKromsator.
Я как-то знатно удивился недавно, решив добавить текст в 40 МБ PDF, сделанный в кромсаторе.... FR15 стал моим чемпионом - 600 МБ - вот это КАЧЕСТВО РЕАЛИЗАЦИИ. Уважаю.
В данном случае вы, видимо, как и Филиппов в Карнавальной ночи про звёздочки коньяка, считаете, что больше - это лучше. Разочарую вас - это не так.

Касательно русских PDF с кривым маппингом - тоже не вижу у вас адекватного решения, когда нужно на 100% сохранить оригинальный текст со вставками греческого, латиницы, Symbols, а не разрушить это всё распознаванием.
Вроде компания то ли русская, то ли с русскими корнями - а проблема так и не решена, хотя по релизам одни сплошные улучшения.....

Несовместимость версий вниз даже по РУЧНОЙ РАБОТЕ - наложению блоков - это вообще как?
Удивляюсь, что никто из корпоративных заказчиков с зоопарком версий FR до сих пор не настучал вам по голове.

Что касается рукописного текста:

Какие типы документов в вашем обучающем датасете? (Школьные тетради, паспорта, ТЕХНИЧЕСКИЕ конспекты со вставками латиницы и греческого, личные/судебные дела, врачебные выписки с латинскими вставками)
Сколько конкретно видов почерка/человек? (10-20-10000)
На каких языках?

С Леной Мишиной результат приятно удивляет, хотя Леня и Мишина - это ваш хвалёный ИИ сочетает мужское имя и женскую фамилию?
Касательно генеалогической информации - Огромнейший пласт этой информации по западным районам Российской империи был оцифрован, частично распознан или перенабран вручную американскими мормонами и выложен на сайте https://www.familysearch.org
А сколько еще неоцифрованного в наших архивах - трудно представить.

Как индусы за русскими софт дописывали

niccolo2019 Jul 25 2023 at 05:14

Nadella, судя по ситуации c MS продуктами, очень загорелая снежинка. «A» сейчас заходит в то же крутое пике, что и «W».

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

niccolo2019 Jul 24 2023 at 20:49

Товарищи из КонтентИИ/Абби — вы в FineReader/FinePDF до ума не довели распознавание/исправление/сохранение (возможности пакетного исправления типичных ошибок распознавания незнакомых слов нет, последняя версия из-за структуры пакета на куче ядер и SSD в режиме постраничного исправления/перераспознавания/правки работает медленнее старой версии на XP с HDD, версии не поддерживают импорт пакетов старых версий с исправленными вручную результатами распознавания (это примерно как если бы ворды 2007-2021 не поддерживали doc), планов развития продуктов нет, продукты бросаются, а потом пользователи посылаются в пешее эротическое, из-за того, что версии больше 3 лет уже, бумажные анонсы которые не доходят до выпуска и т.д. и т.п.
Предлагаете верить вашим сказкам (красивым демкам) тут, учитывая всё то разнообразие человеческих почерков, которые встречаются? Смешно и наивно... Даже в рамках одной организации при смене ручных составителей документации, где это практикуется, будут возникать большие проблемы.....
И я так понимаю, что ограничена эта вещь пока чисто определённым набором стандартных документов, написанных узким кругом людей, более/менее правильным рукописным почерком.... Поле с пропиской в паспортах - это образец по сравнению со старыми метрическими записями, да и с учётом наличия географической информации о населённых пунктах, можно сказать вообще не является проблемой.....
Еще одной проблемой станет практическая трудность коммерциализации, т.к. сегодня с рукописными документами сталкиваются единицы, и часто это попытки углубиться в генеалогию....

FRED-T5. Новая SOTA модель для русского языка от SberDevices

niccolo2019 Apr 20 2023 at 08:32

Не вырастут. В узких областях, как я уже сказал, модели заточенные на небольших, качественных датасетах конкретно по теме дают лучшие результаты....
Метрика качества для текста - вещь вообще весьма условная. Кому-то нравится Блок, кому-то Маяковский. И вы никогда не убедите первого, что результаты модели 2 даже с метриками 100% будут идеальными.

Но я спрашиваю О КОНКРЕТНЫХ ЗАДАЧАХ (например, разработка истребителя 7 поколения), которые ЭКОНОМИЧЕСКИ ОПРАВДАННО решает конкретно ваша ИИ....Иначе знаете что это напоминает? Побросали в котёл всё что было, греем на огне, и ждём что получится - а получается у всех разное - кто жижу выловит, кто картофелину, а кто мяса кусок.... А предложение встраивать, куда хотите - эй подходи кто хочет со своим черпаком - и черпай....
Для серьёзного рабочего инструмента такое едва годится.....

Общий размер датасета около 300 Гб и состоит он из Википедии, новостей, книг, части очищенного CommonCrawl и т. д.

Не увидел ничего про корпус....Но это, видимо, особенности синонимичности конкретно вашего изложения.... Не боитесь, кстати, того, что публичные датасеты могут быть намеренно и искусно отравлены (poisoned) - специалистов в данной области пока нет, алгоритмы, софт, метрики и прочее тоже не ваша разработка и вы едва ли понимаете его до конца....
Несходимость это пила в конце обучения....Кстати фактор выше - еще одна из причин недостижимости идеальных метрик.
И кстати а вы проверили, на каких принципах построены эти метрики? Опыт подсказывает, что иностранцы не очень понимают некоторые важные моменты русского языка. Здесь, наверное, это важно.

FRED-T5. Новая SOTA модель для русского языка от SberDevices

niccolo2019 Apr 20 2023 at 06:59

Нравятся мне такие публикации - ни целей, желательно экономически оправданных по-капиталистически, ни гипотезы. Только циферки и констатация.

Вопросы:
1. Для решения каких дорогостоящих или нерешённых на сегодняшний день, например из-за нехватки выч. мощностей, задач создаётся такая модель?
Какие конкретно цели, помимо циферок в тестах стоят?

Судя по хайпу вокруг ИИ-систем — этакая новая разновидность биткоина - куча шума, куча сил, куча бабла для Нвидии, и что-то близкое к пшику по итогу.

2. Чем обусловлен выбор такого сомнительного источника как Вики вместо, например БСЭ, большой технической энциклопедии и т.п.?

А теперь из собственного опыта ИИ-МП - малые качественные модели, максимально близкие к той области задач, для которой они нужны, требуют гораздо меньше сил, а результаты дают нередко лучше...
Несходимость на графике обучения может быть обусловлена следующими факторами — мусором в датасетах, вариативностью/синонимичностью языка.

1

2 3 ...