Как Яндекс научился распознавать, что написано в рукописных архивах

Привет, Хабр. Меня зовут Саша, в прошлый раз я рассказывал сообществу про поиск организаций в Яндексе. В этот раз мы вновь поговорим про поиск, но уже совершенно другого рода. Сегодня расскажем про «Поиск по архивам». Этот проект вырос из моего личного интереса к истокам семьи, но в итоге (хочется верить!) поможет тысячам других таких же пользователей чуть больше узнать о своих корнях.
Генеалогическое исследование — очень трудоёмкий процесс. Информация о родственниках разбросана по разным архивам, запросы на получение данных могут обрабатываться долго, а доступ даже в открытые архивы ограничен. Несмотря на то что оцифровка архивных документов ведётся уже более десяти лет, по ним не так-то просто искать — придётся отсматривать вручную множество сканов в надежде найти фамилию предка.
Чтобы упростить этот процесс, мы научились превращать в текст сканы архивных документов. Основная сложность этой задачки заключалась в том, что текст в архивах написан от руки. Машинописный текст всё-таки создан по предсказуемым правилам: автор использует набор уже известных шрифтов. А рукописный текст уникальный, потому что каждый человек пишет по-своему. Кроме того, архивные документы написаны не просто от руки, но и на дореволюционном русском языке, который существенно отличается от современного.
Решению этой задачи мы и посвятим историю. А поможет мне с ней Таня @miryable из команды, которая уже много лет развивает в Яндексе технологию оптического распознавания символов (OCR).
Эволюция требований к тестировщикам: что было 5 лет назад и что ждать в будущем?

В мире разработки программного обеспечения изменения происходят быстро. Какие-то технологии вспыхивают и исчезают, другие становятся незаменимыми составляющими нашей повседневной жизни. Мир тестирования программного обеспечения, как и любая другая сфера, не стоит на месте. За последние пять лет мы наблюдали не только новые требования к тестировщикам, но и эволюцию самих методов и подходов. В этой статье взглянем на то, какие требования предъявлялись к тестировщикам пять лет назад, то, как они отличались от требований сегодняшнего дня и что нам ожидать в будущем.
Flutter и фриланс в школе

Меня зовут Вася, это моя первая статья тут, поэтому не удивляйтесь куче всяких кривых цитат и спойлеров, я учусь в 11 классе, с августа 2020 года работаю с Flutter, а с марта прошлого года занимаюсь коммерческой разработкой мобильных приложений на фрилансе. Сегодня хочу рассказать о том, как я совмещаю подработку с учебой в школе и какие у этого есть последствия
Определяем оптимальный размер групп при множественном А/Б тестировании

Привет, Хабр! В этой статье мы затронем один из аспектов множественного тестирования, а именно определение оптимальных размеров групп в случае общей контрольной группы. Докажем теоретически, что предлагаемый способ является оптимальным и сравним его с другими популярными подходами.
Unity: сквозь тернии к importing assets

Небольшая заметка по итогу многих лет работы с движком: проблемы, баги, странности и краши.
С движком работаю в той или иной мере с 4 версии, поэтом накопилось довольно много различных нюансов.
Совершенствуем UX. Разговоры о серьёзном с администраторами

Чтобы развивать наши продукты осмысленно, мы регулярно проводим исследования с участием пользователей. И на этот раз пообщались с людьми, чей опыт работы с ПО заслуживает отдельного внимания — администраторами приложений.
Разумеется, администратор — это не конечный пользователь, и далеко не всегда его мнение соответствует общему мнению о продукте. Вместе с тем он ключевая фигура в работе ИТ-системы: то, насколько успешно он справляется с задачами по её настройке и обслуживанию, влияет на комфорт и эффективность остальных пользователей. Значит, сделав что-то хорошее для администратора, мы помогаем в работе многим другим.
Мы провели наше первое исследование среди администраторов и не избежали ряда ошибок. Но также сделали важные выводы — и составили чеклист, который в будущем поможет планировать подобные исследования на более качественном уровне.
Под катом делимся полученными знаниями: возможно, с их помощью вы не наступите на те же грабли, что и мы.
Деловая репутация? Не, в этом году не

У нас тут удивительная ситуация, когда в энтерпрайзе впервые стало пофиг на деловую репутацию. Если речь про зарубежную компанию — то подход простой: «Гендиректор русский? Да он даже не гражданин!» А если в России — то уже другой: «Куда ты с подлодки-то денешься?»
Свежий пример. Декабрь, самый активный месяц российской экономики. Распродажи, купи-продай, кибератаки, подарки на Новый год, вот это всё.
В этот самый декабрь банк СМП решает, что надо слиться и поглотиться об ПСБ. В момент слияния двух банков в экстазе меняются реквизиты. Как реквизиты меняла Точка: предупредили за полгода, потом ещё полгода со старых реквизитов стоял форвард денег на новый счёт. Как менял реквизиты банк СМП: прислал письмо счастья, что вот ваш новый счёт.
Старый перестанет работать 29 декабря, реквизиты нового есть, но деньги туда принять нельзя.
Разошлите всем, но обязательно скажите, чтобы ничего не оплачивали, пока переходный период.
А у нас там 500 юрлиц платит.
А, и да, кстати, зарплату вы с этого счёта тоже выплатить сотрудникам не сможете, потому что для его активации надо пойти в отделение. А отделение работает с 9 января. Оплаты за железо, за лицензии, зарплаты? Ну вы там держитесь.
Доступность игр для людей с ограниченными возможностями: проблемы и их решения

Видеоигры — это прекрасно. Они есть для любой возрастной категории, самых разных жанров. Однако далеко не все игры доступны каждому: слишком много преград для людей с ограниченными возможностями. Большинство из нас имеют нормальный слух, зрение и здоровую опорно-двигательную систему. Мы не отказываем себе в прохождении самых разных игр — от простых казуалок на экране смартфона до серьёзных стратегий с кучей текста или авто- и авиасимуляторов — лишь бы денег хватало на контроллеры. Но что, если я вам скажу, что в мире, по данным ВОЗ, живёт 1,3 миллиарда человек с инвалидностью?
Многие разработчики стремятся сделать графику более реалистичной. Современные движки и игры, разрабатываемые на них, требуют всё больше ресурсов. Однако людям, у которых есть проблемы со зрением, в целом без разницы, насколько красиво выглядит игра — главное, чтобы в неё было комфортно играть. И к сожалению, большинство разработчиков даже не пытается сделать свои проекты более доступными для людей с ОВЗ.
«Синий» путь: инструменты, обучение и Open SOC

Всем привет! На связи Макар Ляхнов, аналитик по информационной безопасности в Innostage. Продолжаем наш цикл статей по глобальным направлениям ИБ. Сегодня мы погрузимся в мир blue team и посмотрим, как подготовиться защитнику, сделав упор на эффективные инструменты, обучение и создание открытого Security Operations Center (SOC).
Ваших соседей пошифровали! Прямой репортаж с места событий

Такие истории редко оказываются публичными: мало кто любит хвастаться тем, как их пошифровали (даже если это хэппиэнд). Но пора признать — эти истории есть, они ближе, чем мы думаем, и их абсолютно точно в разы больше, чем все привыкли считать. Шифровальщики все еще остаются в топе угроз среди атак на организации. Одну из таких атак сумела запечатлеть система поведенческого анализа сетевого трафика PT Network Attack Discovery (PT NAD), которая в это время пилотировалась в компании. И если бы только оператор SOC обратил внимание на алерты в интерфейсе новой системы… но история не терпит сослагательного наклонения.
Изнутри: Swift макрос — #Preview

Макрос #Preview
в языке Swift предоставляет удобный способ создания и предварительного просмотра компонентов пользовательского интерфейса. Он позволяет разработчикам быстро и легко создавать превью для своих View, чтобы визуально оценить, как они выглядят и взаимодействуют.
Сейчас доступно много информации о том, как писать макросы, много примеров и на удивление хорошая документация. Сегодня мы будем не создавать свой макрос, а подробно рассмотрим приватные макросы, предоставляемые Apple, а именно #Preview
.
Kontron Electronic IP Lite: что внутри у промышленного переносного компьютера из 90-х
Яндекс Музей уже давно стал домом для многих интересных образцов компьютерной техники из разных эпох. Иногда к нам попадают уникальные вещи, которые вряд ли были доступны рядовым пользователям. Логично, что такие экземпляры представляют особый интерес. Мы бережно их восстанавливаем и настраиваем, а потом даем возможность любому желающему прикоснуться к истории. И сегодня мы поговорим про один из таких экспонатов.
Иногда лучше делать, а не планировать

Пожилой рабочий на строительстве «Эмпайр-стейт-билдинг» в 1930 г., источник. Вся стройка от подготовки стройплощадки до торжественного запуска лифтов заняла 410 дней
В последнее время часто приходится слышать про новую модель управления — избыток административных кадров, не имеющих отношения к основному производству. К сожалению, это особенно ярко проявляется в IT-индустрии, где количество менеджеров среднего звена сильно превышает стандартные показатели. Например, в компании Google доля менеджеров уже достигла 15% от общей численности персонала, то есть по одному менеджеру на пять-шесть работников. Это заметно превышает средний показатель в сфере услуг 1 к 15.
Избыток менеджеров в компании ведёт к негативным последствиям:
- засилье KPI с последующей деградацией продукта, которое по менеджерской логике должно увеличивать DAU;
- деградация корпоративной культуры из-за офисных интриг и карьеризма;
- снижение продуктивности разработчиков из-за бесконечных совещаний, созвонов, отчётности и использования ПО для «повышения эффективности» (таск-трекеры, тайм-трекеры, календари и проч.);
- цифровое истощение и выгорание сотрудников.
Это стандартные издержки от переизбытка менеджеров. Иногда даже единственный менеджер приносит больше вреда, чем пользы.
Название имеет значение: как получить оптимизацию, переименовав браузер

Всем привет! Меня зовут Максим Смирнов, я руковожу командой, которая работает над производительностью Яндекс Браузера и отвечает за его графическую подсистему. В этой статье я расскажу об одном неочевидном улучшении, которое наша команда внедрила в Браузер для Windows. Если описать его в двух словах, то нам удалось улучшить стабильность и производительность браузера, убедив драйверы видеокарт, что наше приложение — это Google Chrome.
Биологическая система управления человеческим телом. Человек или челобот?

Что такое человек? Как работает человеческий мозг? Как устроена биологическая система управления человеческим телом? Является ли человек машиной, как считал Ламетри? Можно ли назвать человека челоботом?
Обзор подходов к проблеме шероховатости фольги при проектировании высокоскоростных плат

На работу высокоскоростных интерфейсов в печатных платах влияют множество параметров: свойства препрега и ядра, температура разложения материалов, тангенс угла диэлектрических потерь и шероховатость медной фольги. Вклад последней в общую картину потерь целостности сигналов может быть довольно существенным, в чем мы далее убедимся. Для снижения потерь применяют специальные модели влияния шероховатости фольги: они позволяют получать лучшие результаты на производстве, сократить время на разработку и повысить показатели надежности изделия.
Меня зовут Петр Беляев, я старший системный архитектор в YADRO. Один из многочисленных аспектов деятельности команды, в которой я работаю, — проектирование многослойных высокоскоростных печатных плат. В статье я расскажу о моделях влияния шероховатости фольги на высокочастотные модели в проводнике и приведу пример их применимости при разработке серверной материнской платы, целевой процессор которой поддерживает PCIe Gen5. Но сначала дам контекст, который подробнее ответит на вопрос о том, зачем это все нужно.
Ламповый дисплей для компьютера, часть 5: коллектор, видеоусилитель и изображение
- Часть 1 – обзор существующих концепций для построения необычных дисплейных устройств и выбор своей собственной
- Часть 2 – запуск ЭЛТ и фокусировка электронного пучка в ней
- Часть 3 – описание блоков синхронизации и кадровой развертки
- Часть 4 – описание финальной сборки блока питания и блока разверток, получение растра на экране

Руководство по проектированию интерфейсов с Drag and Drop

Всем привет! Меня зовут Александр Григоренко, я фронтенд-разработчик, и я часто сталкиваюсь с разработкой веб-интерфейсов с использованием Drag and Drop. В своей предыдущей статье про Drag and Drop я рассказывал про историю появления и развития этого подхода: появившись в первом в мире графическом интерфейсе, Drag and Drop продолжает быть одной из самых актуальных технологий и на сегодняшний день. В этой статье я хочу поговорить об особенностях проектирования дизайна и юзабилити интерфейсов с Drag and Drop. В первую очередь, я буду приводить примеры и говорить об особенностях Drag and Drop в рамках сложившихся практик в современных веб-интерфейсах, но многое из этого будет справедливо и для интерфейсов классических настольных приложений.
Как КОТы помогают слонам или как прикрыть уязвимости PostgreSQL

Привет, Хабр. В этой статье ведущий аналитик СУБД Jatoba Андрей Никель на примерах разберет уязвимости СУБД PostgreSQL 2023 года: CVE-2023-2454 и CVE-2023-2455. Благодаря рекомендациям в материале вы сможете сами проверить, как они работают против нас. Собрать стенд на виртуалке, запустить PоstgreSQL в контейнере и посмотреть глазами пентестера, как это может происходить, а мы предложим несколько вариантов - как защищаться от этих неприятностей.
Внимание! Статья имеет ознакомительный характер и предназначена для специалистов по обеспечению информационной безопасности. Автор не несёт ответственности за любой вред, причиненный с применением изложенной информации. Помните, распространение вредоносных программ, нарушение работы систем и тайны переписки преследуются по закону.
Список сокращений
КОТ — компенсирующие организационно‑технические мероприятия
Слон — сленговое, устоявшееся в узких кругах именование СУБД PostgreSQL.
Мышь — сленг, который мы будем использовать в статье, заменяя им слово уязвимости.
______________
В мае 2023 появилась новость о двух новых уязвимостях, найденных в PostgreSQL.