Обновить
26.31

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Создаем пет-проект по аналитике в связке с GitHub Actions. Часть 2

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели9.2K

Привет, Хабр! Продолжаю обозревать GitHub Actions на примере пет проекта для аналитика.

Статья будет полезна начинающим аналитикам в поисках хорошего проекта для своего портфолио. В этой части разбираю подход к выбору проекта и источника данных, к сбору и анализу данных и представлении результатов своей работы. 

Читать далее

Новости

Machine Learning в экологии, или где живёт снежный человек

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6.2K

В экологии происходит настоящая ML-революция. 

Число публикаций с использованием матмоделирования растёт по закону Мура, а наличие ML‑моделей и прогнозов становится стандартом в статьях про биологические виды и их будущее.

Появились модели, предсказывающие распространение видов в пространстве и во времени — на 100 лет вперёд или на 6000 лет назад. Экологи начали моделировать взаимодействие видов, сообществ — и целых экосистем. 

Расскажу, почему это произошло, как работают такие модели на практике — и к чему всё это нас приведёт.

Читать далее

Что с рынком труда? Трейсеры индекса headhunter и безработицы

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.8K

Наблюдая сейчас за рынком труда в России, у меня создается ощущение, что на рынке труда то людей не хватает, то внезапно вакансий становится меньше, то зарплаты начинают вести себя как-то странно.

Прикол в том, что рынок труда почти никогда не меняется в один какой-то месяц, он скорее меняет фазы. И если научиться видеть фазу, то дальше в голове появляется некая карта: где мы сейчас, что будет дальше по инерции, и какие решения в найме перестают работать.

Я собрал три графика: динамику hh.индекса и два трейсера — по hh.индексу и по безработице. Первый отвечает больше за температуру рынка со стороны вакансий и резюме, а второй — за контроль: не превращается ли всё это в ухудшение занятости.

Читать далее

STAC: Новая эпоха в работе с данными о Земле (часть 1)

Время на прочтение11 мин
Охват и читатели7.2K

Информационный хаос в геопространственной сфере

Задумывались ли вы, как в эпоху, когда мы можем мгновенно найти любую информацию в интернете, поиск спутникового снимка конкретного поля, леса или города за определённую дату до сих пор напоминает квест? Всего несколько лет назад мир геопространственных данных представлял собой хаотичный ландшафт изолированных архивов, каждый со своим уникальным форматом данных, структурой папок, проприетарным API и системой метаданных. Чтобы проанализировать один и тот же регион по данным разных спутников, учёным и инженерам приходилось тратить до 80% времени не на сам анализ, а на «добычу» и приведение данных к единому виду. Эта проблема интероперабельности (совместимости) была главным тормозом для развития целых направлений: от оперативного мониторинга чрезвычайных ситуаций до долгосрочного изучения климата.

Именно из этой «боли» родилась идея SpatioTemporal Asset Catalog (STAC) — Каталога пространственно‑временных активов. Изначально это была не инициатива госорганов или крупных корпораций, а практический ответ сообщества разработчиков и аналитиков на ежедневные сложности.

Материал будет интересен молодым специалистам в области ДЗЗ — будущим геоинформатикам, экологам, data scientist'ам. Знакомство с STAC перестаёт быть опциональным, это становится базовой цифровой грамотностью в области геоинформатики и наук о Земле, таким же необходимым инструментом, как, например, умение работать с SQL для backend‑разработчика. Это язык, на котором будет говорить «цифровая копия» нашей планеты, и те, кто освоит его первыми, получат ключ к решению самых амбициозных задач XXI века.

Читать далее

Архитектура АИС «Налог-3»: или как работает ФНС на самом деле

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.3K

Вокруг ФНС в последнее время крутится слишком много мифов. Последний из них — история про новогодний стол, икру и якобы контроль налоговой через фотографии в соцсетях.

Этот инфоповод и стал причиной написать статью. Не для того, чтобы обсуждать конкретную «страшилку», а чтобы показать как на самом деле устроен налоговый контроль: что ФНС реально проверяет, на какие данные опирается и почему большинство популярных представлений не имеет отношения к практике.

Я опираюсь не на слухи и пересказы, а на реальный опыт работы с налоговыми проверками и понимание внутренних механизмов ФНС. За плечами — 12 лет работы в налоговой системе в разных направлениях: предпроверочный анализ, камеральные проверки, выездные проверки и курирование отраслевых направлений внутри региона.

Читать далее

Инфляция — это не одна цифра: кто тянет ИПЦ в 2025

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.1K

Индекс потребительских цен (ИПЦ) - это метрика, которая измеряет изменение цен в потребительской корзине, когда в новостях говорят про инфляцию, то обычно имеют в виду темп роста ИПЦ. В этой заметке я разбираю не инфляцию вообще, а то, из каких крупных компонентов складывается изменение ИПЦ: продовольствие, непродовольственные товары и услуги.

Читать далее

Ловись, лид, большой и маленький

Уровень сложностиПростой
Время на прочтение26 мин
Охват и читатели6.4K

Привет, Хабр!

Меня зовут Максим Ломаев, и, перед тем как начать, хочу предупредить, что эта статья — отчасти эксперимент. Честно говоря, даже не уверен, насколько он удачный, и могу предположить, что подобный формат не всем придётся по вкусу. Но всё же я решился на публикацию, потому что хочу поделиться наблюдениями, которые, на мой взгляд, заслуживают внимания, даже если звучат неожиданно или спорно.

Речь пойдёт о новых методах нездоровой конкуренции с использованием больших данных и автоматизированных процессов. Эта статья о том, как ваши конкуренты, анализируя BigData мобильных операторов, получают список потенциальных клиентов, которые к вам уже обращались.

Таких кейсов в публичном поле почти нет, но кража клиентов уже ведётся. Если вам не хочется погружаться в художественную предысторию моего повествования, сразу переходите к главе 3 «Научная». Там — суть проблемы, без прикрас и обёрток.

Читать далее

Москву сжали до 93 МБ. Новый формат данных OpenStreetMap

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели20K

Карты OpenStreetMap ежедневно загружаются на сотни миллионов устройств. На таких объёмах даже маленькая оптимизация на пару процентов даёт существенную экономию трафика, диска, вычислительных ресурсов. А если улучшение в десятки процентов, то это грандиозное достижение.

В октябре 2025 года разработчики представили новый формат хранения данных GOB («Geo-Object Bundle», пакет геообъектов). Это вспомогательный формат для библиотеки GOL (Geo-Object Library), которая была раньше. В новом формате реализовано сжатие zlib и другие оптимизации, что позволило существенно уменьшить размер файлов, скорость загрузки и обработки карт. Работа с нашей Землёй стала гораздо быстрее, если можно так сказать.

Посмотрим, что представляют собой форматы GOL и GOB, как удалось добиться такой оптимизации и как это выглядит в реальных условиях.

Читать далее

Стартап у станка: как бюрократия тормозит «высокотех»

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.5K

В августе 2023 года вступил в силу закон «О развитии технологических компаний в РФ», который ввёл новую категорию — «малая технологическая компания» (МТК). Под неё могут подпасть как заводы, так и ИТ-компании, создающие продукты и технологии, критически важные для обеспечения технологического суверенитета. Уже к концу 2025 года статус МТК получили более 6,4 тысяч организаций.

Наша компания занимается аналитикой для промышленности, и мы формируем большие массивы данных из открытых источников. Нам показалось интересным провести исследование именно на примере заводов, производящих электронику, специальное оборудование, новые материалы, чтобы понять: 1) какие меры поддержки работают на практике; 2) даёт ли статус МТК реальные конкурентные преимущества промышленности.

В каких условиях развивается "высокотех"

Эксперты прокомментировали акселератор «Умный город» в МГТУ им. Н.Э. Баумана

Время на прочтение4 мин
Охват и читатели4.5K

15 декабря в МГТУ им. Н.Э. Баумана (в питчинг-формате) прошел финальный Демо-день акселерационных программ «Умный город» и «Робототехника и беспилотные авиационные системы» (БАС). В течение трех месяцев студенческие команды под руководством опытных наставников последовательно работали над своими проектами. На мероприятии в МГТУ они представляли свои разработки бизнес-сообществу, инвестиционным фондам, институтам развития и другим заинтересованным сторонам, которые способствуют укреплению технологического суверенитета.

Читать далее

Я ещё в 99 раз ускорил генерацию компонентов и свёл расходы к нулю, тёмная магия Perplexity Pro Spaces

Время на прочтение8 мин
Охват и читатели8.5K

Этап первый: Я уверен, что будущее за DEEP CODING, где за кодинг не мы платим — платят нам!

Этап второй: когда я нашёл Perplexity Spaces и всё изменилось

Этап третий: странный ритуал разогрева чата, который звучит как шаманство, но работает как часы

Ребята, давайте честно. Нам продают подделку. Игрушечный код вместо архитектуры. Каждый запрос минус деньги. Мы бесплатно тестируем чужие SaaS-платформы, а они зарабатывают на нашей боли и усталости.

Читать далее

«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.9K

Я обучил небольшую языковую модель, которая отвечает на дореформенном русском как человек из XIX века.

Рассказываю, как подготовил данные, собрал синтетический корпус, обучил tiny-LLM и опубликовал её в виде чат-бота.

Читать далѣе

Как забытый API-ключ открыл нам мир мошенников

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели24K

Сегодня история на грани техники, психологии и детектива. Расскажу о том, как мы (я и мой коллега) попали во внутренние чаты мошенников и что из этого вышло.

Читать далее

Ближайшие события

Тим Бернерс-Ли: как физик из ЦЕРН практически в одиночку написал три главных протокола, чтобы создать Интернет

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели35K

Имя британского инженера-программиста Тима Бернерса-Ли не так на слуху, как у современных IT-гигантов, но именно благодаря его труду интернет стал тем, чем он является сегодня. Он практически в одиночку разработал Всемирную паутину (World Wide Web, WWW) — инструмент, который по значимости стоит в одном ряду с изобретением печатного станка. Без новаторской работы Бернерса-Ли, которая произвела революцию в обмене информацией, все существующие веб-сайты просто не смогли бы работать.

Читать далее

Хабр умирает, и это не кликбейт

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели78K

Блуждая по Хабру, я всё чаще слышу один и тот же рефрен: «Хабр уже не тот». Статьи не набирают, интерес аудитории угас, а в кулуарах DevRel'ы жалуются, что «продвигаться стало невозможно». Но так ли это на самом деле? Или это классическая «раньше трава была зеленее»?

Читать далее

Человек VS трихоплакс: так ли мало у нас общего?

Время на прочтение6 мин
Охват и читатели5K

Привет, дорогой читатель! Представь: ты заходишь в здание, где в каждой лаборатории бьется ключом научная мысль, пытающаяся расшифровать главную загадку природы — наш собственный мозг. Именно так себя ощутили участники студенческого пресс-тура в Институт высшей нервной деятельности и нейрофизиологии (ИВНД и НФ) РАН.

Читать далее

Telegram-бот для дополнения базы знаний: автоматизация без разработчиков

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6K

Чтоб сделать, чтобы базой знаний реально пользовались? Один из путей — дать возможность и наполнения, и получения ответов в привычном интерфейсе, без захода в дополнительные приложения.

Читать далее

Как мы (не) смогли посчитать вакантность жилья в Москве

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.4K

Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.

Читать далее

Минцифры представит закон о доменах: аутентификация через Госуслуги и изъятие для госнужд

Время на прочтение4 мин
Охват и читатели4.4K

Осенью в Госдуму направят на рассмотрение законопроект, который координально может изменить правила игры в российском интернете.

Привет Хабр! Продолжаем серию статей про законодательные инициативы, попробуем разобраться, что именно предлагают чиновники, и порассуждаем про последствия.

Читать далее

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.4K

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база «машин‑актёров» в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать далее
1
23 ...