Как стать автором
Обновить
18.81

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга

Таблица соответствия кодов всех регионов России

Коды регионов зашифрованы повсеместно: в документах, автомобильных номерах, телефонах, адресах. Например, обычно первые две цифры в серии паспорта соответствуют коду ОКАТО. Но есть исключения: так, в паспортах Ямало-Ненецкого АО и ряда других регионов вместо него используется другой индекс.  

Мы подготовили таблицу соответствия кодов по всем регионам России — посмотреть и скачать ее можно здесь.

В таблице отражена связь между:

  • кодами ФНС,

  • кодами подразделений, выдающих паспорта,

  • кодами в серии паспорта,

  • первыми автомобильными кодами,

  • кодами Росстата.

На что обратить внимание

  1. Автомобильные коды быстро меняются, и во многих регионах сразу несколько кодов. В таблице приведены только первые.

  2. Телефоны и почтовые индексы тоже начинаются на свой код региона. Причем один код может использоваться в разных регионах, а в одном регионе может использоваться несколько кодов. 

  3. В серии паспорта могут встречаться два универсальных кода — 09 и 39 — они не привязаны к конкретным регионам России.

  4. В классификаторах Росстата ОКАТО и ОКТМО группы субъектов идут в следующем порядке:

    • края, 

    • области, 

    • автономные округа, 

    • республики,

    • автономные области.

  5. Внутри групп субъекты РФ упорядочены по алфавиту. Но это правило верно не всегда: со временем регионы переименовываются, меняется их статус и появляются новые, а менять каждый раз код было бы неудобно. Поэтому:

    • Камчатский край до 2007 года был областью — в списке регионов он среди областей с кодом 30. Аналогичная ситуация у Пермского края;

    • Республика Алтай в этом порядке считается начинающейся на Р, а не на А, как Адыгея;

    • Часть автономных округов по ОКАТО/ОКТМО относится к другим субъектам.

  6. Интересно, что в 65-й статье Конституции РФ субъекты перечислены в ином порядке: республики, края, области, города федерального значения, автономные области и автономные округа.

 

Теги:
+2
Комментарии1

Разведка по 2GIS: как отзывы выдают ваши секреты

Перед тем как пойти в новое место, многие лезут в отзывы. Казалось бы — обычное дело. Но что, если я скажу, что ваш безобидный отзыв на шаурму у метро может раскрыть о вас гораздо больше, чем вы думаете?

Сегодня разберём, почему стоит дважды подумать, прежде чем писать отзывы, если вам важна приватность. И заодно — как эти отзывы могут использовать злоумышленники.

Причем здесь 2GIS?
В приложении у каждого авторизованного пользователя есть профиль, на который можно подписаться и следить за всеми отзывами. Многие думают: «Ну и что? Я же под ником "Аноним Анонимов"!»

Но вот в чём подвох:
➜ Если кто-то добавит ваш номер телефона в контакты, 2GIS подсветит ваш профиль — со всеми отзывами, фотками и активностью.

Что можно узнать из ваших отзывов?
1️⃣ Интересы — кафе, бары, магазины, кинотеатры… Всё, что вы оцениваете, рисует ваш цифровой портрет.
2️⃣ Место жительства — некоторые пишут отзывы на свои ЖК, ТЦ рядом с домом и даже на подъезды.
3️⃣ Круг общения — если вы и ваши друзья ходите в одни и те же места и оставляете отзывы, связь легко отследить.
4️⃣ Фотографии — машина, питомец, случайно попавшие в кадр документы… Мелочи, которые могут стоить дорого.

Вывод

Интернет ничего не забывает. Даже невинный отзыв может стать кусочком пазла, который сложит вашу жизнь перед злоумышленником.

Больше контента в моем авторском telegram-канале: https://t.me/ru_vm (BritLab)

Теги:
+4
Комментарии4

Как автоматизировать распознавание текста с изображений?

В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.

Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
➖Плохо справлялась с разными шрифтами
➖Теряла точность на низкокачественных изображениях
➖Путала языки, если текст был мультиязычным

Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.

В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.

Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.

Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки

Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе

Но есть важный нюанс: сервис не работает с российскими IP

Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа

Примеры скриптов выложил на github (https://github.com/vmtest439/britalb_ocr)

Если вам понравился пост и вы хотите читать больше подобного контента, то можете подписаться на мой авторский Telegram-канал BritLab!

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии3

Как я снова отравилась из-за океана — и при чём тут аналитика данных

  1. Температура, тошнота, диарея — это происходит со мной каждый раз после серфинга в дождливый сезон, когда в море сливается всё, что угодно — от мусора до банальных 💩.

  2. В северной части Тихого океана, на полпути между Гавайями и Калифорнией, вращается 100 000 тонн пластикового мусора. Добро пожаловать в Большое мусорное пятно — область, втрое больше Франции. Оно выглядит так же катастрофично, как и звучит: сверху напоминает гигантский пластиковый суп.

И это лишь 2 примера, подтверждающие: мусор в океане — это глобальный кризис, а не локальная история. Скоро мы вообще не зайдём в океан?

Ежегодно в океаны, реки и озёра попадает 19–23 млн тонн пластика — как если бы каждую минуту в воду сбрасывали 2 000 мусоровозов.

На поверхности океанов плавает около 170 трлн пластиковых частиц, а на дне может быть в 10 000 раз больше.

Ежегодно из-за мусора в океане погибают 100 миллионов морских животных. Страдают и морские растения, которые участвуют в производстве 70% кислорода.

В исследовании микропластик нашли в 99% морепродуктов. Это вызывает тревогу из-за возможного влияния на пищеварительную, эндокринную и другие системы организма.

Все ссылки на исследования опубликовала тут.

Чем помогает аналитика в этой проблеме?

В мире есть некоммерческие и частные организации, борющиеся с загрязнением. Например, The Ocean Cleanup очищает океаны от пластика с помощью инновационных технологий.

1. Определяют источники загрязнения, чтобы “поймать проблему на старте”

💡 80% пластика попадает в океан через ~1000 рек.

Чтобы найти эти «артерии загрязнения», анализируют спутниковые данные, гидрологические карты, поведение мусора в воде, данные о населении и инфраструктуре. Это позволяет не просто «ловить мусор в океане», а перехватывать его у истока — в реках.

2. Предсказывают, куда поплывёт мусор, чтобы точнее планировать очистку

— Камеры на мостах фиксируют мусор в реках
— GPS-буи и радары отслеживают его путь в океане
— ИИ-модели показывают, где и когда он соберётся в “мусорные вихри”

Это помогает запускать очистку точно там и тогда, где она даст максимальный эффект.

3. Визуализация, которая не оставляет равнодушным

Цифры — это важно, но именно визуализация заставляет почувствовать масштаб. Данные превращают в наглядные дашборды, которые:
— Показывают, где океан «захлёбывается» от пластика
— Делают проблему видимой и понятной
— Помогают влиять на решения политиков и доноров

Дашборды по загрязнению пластиком можно посмотреть тут.

4. Прогнозы на будущее и машинное обучение

Чтобы не просто тушить пожары, а предотвращать их, аналитики обучают модели, которые помогают заглянуть вперёд:
— Что будет с океаном, если мы продолжим жить «как обычно»?
— А что изменится, если сократим пластик хотя бы на 20%?
— Где появятся новые точки бедствия через 5 лет?

Такие организации нанимают аналитиков данных и стажёров — есть вакансии по визуализации, машинному обучению, компьютерному зрению, анализу временных рядов (ссылки на вакансии опубликовала тут).

Или можно стать гражданским учёным и внести свой вклад, документируя пластиковое загрязнение с помощью специальных приложений (Ocean Cleanup Survey App или Debris Tracker).

Теги:
Всего голосов 6: ↑5 и ↓1+6
Комментарии2

Охота за файлами в VK

Поиск по документам в VK
Поиск по документам в VK

Сегодня расскажу про "хитрушку" VK, которую активно обсуждали около 10 лет назад. Со временем о ней стали забывать, хотя она до сих пор не потеряла актуальности.

К сути
Уже много лет во «ВКонтакте» существует встроенный инструмент для поиска файлов, доступный каждому пользователю. Поиск по документам может открыть доступ к уникальным данным, которые не найти в обычных поисковиках.

Как это работает?
1️⃣ Переходим в раздел «Файлы» → vk.com/docs
2️⃣ Вводим запрос (например, «ответы на ЕГЭ 2025», «внутренние инструкции», «отчет 2024»)
3️⃣ PROFIT!

Из личного опыта:
В студенчестве с помощью этого метода я находил ответы на экзамены, которые загружал кто-то из предшествующих потоков.

Где пригодится?
Поиск учебных материалов, анализ цифрового следа, журналистские расследования, … — возможности огромны!

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал!

Теги:
Всего голосов 4: ↑3 и ↓1+3
Комментарии1

Как автоматизированно извлекать текст из видео на YouTube?

Пример кода
Пример кода

Знакомо: нашёл на YouTube ролики, в которых есть тонна полезной информации, а тратить часы на просмотр — нет времени?

В 2018 году появился проект youtube-transcript-api (GitHub) — Python-модуль, который за пару секунд извлекает субтитры из видео.

Но есть нюансы:
⚠️ Требует сетевого доступа к YouTube (может не работать в некоторых странах)
⚠️ Использует неофициальное API
Вот что пишет создатель проекта:

Этот код использует недокументированную часть API YouTube, которая вызывается веб-клиентом YouTube. Поэтому нет гарантии, что он не перестанет работать завтра, если они изменят то, как все работает. Однако я сделаю все возможное, чтобы все заработало как можно скорее, если это произойдет. Так что если он перестанет работать, дайте мне знать!

Как использовать?
1️⃣ Установить библиотеку youtube-transcript-api (PYPI)
2️⃣ Взять ID интересующего видео (поддается автоматизации)
3️⃣ Запустить скрипт (📖 официальная документация)

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал BritLab!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Как подделывают голос?

Каждую неделю появляются новости о мошенниках, которые с помощью подделанного голоса крадут деньги. Но если спросить: «Как именно они это делают?», в СМИ чаще всего встречаются общие фразы вроде «используют ИИ». [1] [2] [3] [4]

Многих устраивает такой ответ, но давайте все-таки разберемся, как именно происходит эта "подделка"?


В 2022 году, на 5-м курсе, я писал научно-исследовательскую работу (НИР) на тему «Атаки на систему верификации диктора по голосу».

Мне дали экспериментальную систему верификации диктора по голосу (СВДГ), и задача была проста: сгенерировать образцы аудио, которые обманут эту систему.

После долгих поисков я наткнулся на проект DiffVC — реализацию диффузионной модели для преобразования голоса. Этот код выложили в открытый доступ буквально за несколько дней до начала моей работы, что было особенно ценно, так как тогда это была действительно передовая технология.

Как это работает (если упростить)?
1. Берем два аудиофайла:
- Голос А (человек 1 говорит фразу X)
- Голос B (человек 2 говорит фразу Y)
2. Подаем их в модель
3. На выходе получаем аудио, где человек 1 говорит фразу Y голосом человека 2

Генерация одной записи занимала ~10 секунд (на слабом железе), а качество было почти неотличимо от оригинала — никакого «робоголоса» или шумов.

Эксперимент
Я сгенерировал несколько образцов и прогнал их через СВДГ. Результат:
21,7% успешных атак (из 2256 тестов).

До этого (из предыдущих научных работ, которые я изучал) другие методы давали максимум 5% успешных атак. Cтало ясно, что подделка голоса скоро станет массовой.

Таким образом, аудио и видео по умолчанию уже нельзя считать достоверными, а способы их подделки с каждым годом сильно дешевеют и довольно просты в реализации.

Если кому-то интересно, то полный текст работы закинул в комментарии к соответствующему посту в своем авторском Telegram-канале! .

Теги:
Всего голосов 6: ↑5 и ↓1+5
Комментарии0

Радио-серфинг: как исследовать короткие волны без спецоборудования

http://websdr.ewi.utwente.nl:8901/

В университете Твенте [1] есть коротковолновый приемник, к которому можно подключиться через обычный браузер [ссылка] и исследовать ответы тысяч радиостанций по всему миру (в режиме реального времени).

С помощью ресурса можно:
1️⃣ Слушать радиолюбительские передачи, авиационные каналы, морскую связь и многое другое
2️⃣ Исследовать разные частоты и находить интересные сигналы
3️⃣ Делать записи эфиров, чтобы потом прогонять их через декодеры
4️⃣ Погрузиться в мир радио, даже если у вас нет собственного оборудования

Этот ресурс — настоящий портал в мир радио. Даже если вы, как и я, не станете радиолюбителем, это отличный способ узнать что-то новое.

Вот несколько интересных частот с которых можно начать:
🇳🇱 1008.00 кГц — Radio Twenty Gold (Нидерланды)
🇷🇺 4625.00 кГц — легендарная "Жужжалка" (УВБ-76). Загадочный сигнал, о котором ходят легенды. Подробнее можно почитать здесь (https://www.rbc.ru/base/18/12/2024/6762bb5c9a7947e14d132352)
🇫🇷 9790.00 кГц — Radio France
🇷🇴11930 кГц — Radio Romania International

Если вам понравился пост и вы хотите узнавать больше о подобных инструментах, то можете подписаться на мой авторский Telegram-канал!

P.S. ещё на ресурсе есть онлайн чат, в котором вы можете общаться с другими радиолюбителями

Теги:
Всего голосов 6: ↑6 и ↓0+7
Комментарии1

Будущее сельского хозяйства тесно связано с технологическими достижениями, в отчёте Agritecture Consulting и CEAg World выделили 5 факторов, подчёркивающих растущую роль технологий в агроотрасли.

Улучшение качества и урожайности культур — главное, чего ждут от новых технологий. Улучшение урожайности, даже на уровне 5%, может существенно повлиять на финансовые модели фермеров. Производители придают большое значение использованию технологий для повышения как качества, так и количества своих культур. Современные системы, такие как инструменты точного земледелия, климат-контроль и оптимизированное орошение, помогают максимизировать производство и обеспечивать высокое качество продукции.

Упрощение операций для повышения эффективности. Автоматизация, ИИ и робототехника снижают ручной труд и улучшают рабочие процессы. Для агроотрасли это  минимизация операционных затрат.

Снижение затрат на рабочую силу. Рабочая сила является значительной статьей расходов в сельском хозяйстве, и многие производители ищут технологии для снижения зависимости от человеческого труда. Автоматизация и робототехника рассматриваются как ключевые факторы для сокращения этих затрат при сохранении производительности.

Принятие решений на основе данных. Умение собирать и анализировать данные для более обоснованного принятия решения имеет важное значение для современного сельского хозяйства. Технологии, такие как датчики, IoT и ИИ, предоставляют информацию в реальном времени, помогая производителям оптимизировать свои операции и вносить коррективы на основе данных.

Поддержка устойчивых практик. Многие производители рассматривают технологии как способ достижения большей устойчивости через более эффективное использование воды и энергии или через снижение отходов и выбросов. Сельское хозяйство стремится сбалансировать продуктивность с экологической ответственностью.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

О сколько нам открытий чудных... открытые источники готовят.

И вот очередное подтверждение - глянув на статистику по времени, которое проходит от момента подачи заявки в ФИПС до момента регистрации ПО для ЭВМ можно много чего для себя почерпнуть..

Статистика длительности обработки заявок в ФИПС (в днях) по годам
Статистика длительности обработки заявок в ФИПС (в днях) по годам


Например, вот в раскладке по годам видно, что с 2020 года достигнут рекорд по скорости - минимальная длительность обработки заявки составила 0 дней.
А вот в 2015-м году была обработана самая долгая заявка - 624 дня (правда календарных, не рабочих) - желающие могут убедиться на сайте найдя заявку №2015619410.

Есть еще много чего, что можно вытянуть еще - жаль, что этой статистики не видно на сайте ФИПС... надеюсь хотя бы внутри эта аналитика проводится.

Ну, а если сообществу интересно более подробно - напишите в комментах - подготовлю развернуто в виде статейки ;-)

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Саха, она же Якутия: как мы разбирались с ошибкой в ГАР

Не так давно к нам пришли заказчики с ситуацией. 

  • Адрес, который ожидают в своих системах: «Республика Саха (Якутия), г.о. город Якутск, г Якутск, ул Крупской, д. 9А, кв. 35»

  • Адрес, который возвращается: «Респ. Саха /Якутия/, г. Якутск, ул. Крупской, д. 9А, кв. 35»

Официально в наименованиях субъектов РФ слешей нет. В итоге из-за неверной обработки адреса ведомство отказало гражданину в услуге с формулировкой, что необходимо уточнить адрес. А у другого заказчика слеши сломали сценарии передачи региона в следующие по цепочке вызовов системы.

В Государственном адресном реестре (ГАР) наименование объекта хранится в разных полях в двух ипостасях, а типы объектов хранятся как отдельно, так и вместе с наименованием.

Получается, что в двух местах в ГАР регион называется по-разному, а ещё для Якутии его нельзя сопоставить: полное наименование типа объекта + наименование региона без указания типаполный тип + официальное наименование объекта (региона). В других случаях это возможно: например, «Республика» + «Бурятия» = «Республика Бурятия».

Мы написали письмо в ФНС с просьбой исправить такое разночтение. Это сделали, но технически необычным образом: не добавили новое значение, а просто исправили последнюю запись. Теперь все выглядит, будто так всегда было.

Для себя сделали вывод:  если в ГАР (ФИАС) что-то не так, нужно сразу писать в поддержку ФНС. Есть все шансы, что вопрос будет оперативно решен. 

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Как Spotify добилась успеха на рынке и как аналитика помогает развитию?

Spotify — №1 среди музыкальных стриминговых сервисов по количеству ежемесячных активных пользователей (MAU). По данным компании, более 515 млн человек используют Spotify ежемесячно, а 210 млн — это подписчики на платные версии сервиса.

Пользователи могут слушать любимую музыку и подкасты по подписке или бесплатно с рекламой.

Что стоит за этим успехом?

Эксперименты. В Spotify регулярно проводят эксперименты с интерфейсом, рекомендациями и новыми функциями, чтобы улучшать сервис.
Все статьи про эксперименты

Дашборды. В 2023 году в Spotify создали более 4900 дашбордов в Tableau и Google’s Looker Studio. Чтобы было легче контролировать качество, был разработан Dashboard Quality Framework — чек-лист, который включает пункты, связанные с визуальным дизайном, удобством использования, инсайтами и доверием.
Статья и чек-лист дизайна дашборда

Дата платформа. В Spotify считают, что с ростом объема и сложности данных роль мощной платформы становится критичной для получения ценных инсайтов и стимулирования инноваций.
О платформе данных в Spotify - Часть 1
О платформе данных в Spotify - Часть 2

Машинное обучение. Spotify активно использует машинное обучение для улучшения пользовательского опыта и создания персонализированных музыкальных рекомендаций.
Все статьи Spotify про машинное обучение

Тут писала про 15 бесплатных подкастов по аналитике и не только на английском.

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии1

Всем привет!

Я иногда даю ссылки в своих постах на википедию. Ясное дело, что 100% гарантии достоверности статей в вики никто не даст. Народное творчество. Но в большинстве своем техническая (!) информация верна. Но есть забавные нюансы.

Ищу информацию по алгоритмам, используемым в Rate Limiters. Есть такой алгоритм - Token Bucket. Есть статья по нему https://ru.wikipedia.org/wiki/Алгоритм_текущего_ведра Алгоритм статья описывает в целом верно, хотя и добавляет туда сетевой специфики, видимо автор создал ее разбираясь в работе сетей, например QoS. Но посмотрим на название. Алгоритм текущего ведра. Токен = текущее? Причем проблема не в творческом переводе. У меня уже была ссылка на статью с описанием основных алгоритмов https://habr.com/ru/articles/448438/ Смотрим туда Leaky Bucket - протекающее ведро. Вполне логичный перевод. Но у нас же Token bucket. Или алгоритм маркерной корзины, что собственно мы и видим в первой же строчке статьи вики. Это два разных алгоритма. А статья создана в 2008 году, сразу с неправильным заголовком.

Что в итоге - в итоге путаница. Если "загуглить" заголовок - https://yandex.ru/search/?text=Алгоритм+текущего+ведра то мы увидим условно 5 ссылок на Leaky Bucket и 5 ссылок на Token Bucket, причем последние - это копии статьи с русскоязычной вики в других вики.

Второй вывод - мало просто скопировать википедию...)

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Ближайшие события