Обновить
29.8

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Ловись, лид, большой и маленький

Уровень сложностиПростой
Время на прочтение26 мин
Охват и читатели3.3K

Привет, Хабр!

Меня зовут Максим Ломаев, и, перед тем как начать, хочу предупредить, что эта статья — отчасти эксперимент. Честно говоря, даже не уверен, насколько он удачный, и могу предположить, что подобный формат не всем придётся по вкусу. Но всё же я решился на публикацию, потому что хочу поделиться наблюдениями, которые, на мой взгляд, заслуживают внимания, даже если звучат неожиданно или спорно.

Речь пойдёт о новых методах нездоровой конкуренции с использованием больших данных и автоматизированных процессов. Эта статья о том, как ваши конкуренты, анализируя BigData мобильных операторов, получают список потенциальных клиентов, которые к вам уже обращались.

Таких кейсов в публичном поле почти нет, но кража клиентов уже ведётся. Если вам не хочется погружаться в художественную предысторию моего повествования, сразу переходите к главе 3 «Научная». Там — суть проблемы, без прикрас и обёрток.

Читать далее

Новости

Москву сжали до 93 МБ. Новый формат данных OpenStreetMap

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели15K

Карты OpenStreetMap ежедневно загружаются на сотни миллионов устройств. На таких объёмах даже маленькая оптимизация на пару процентов даёт существенную экономию трафика, диска, вычислительных ресурсов. А если улучшение в десятки процентов, то это грандиозное достижение.

В октябре 2025 года разработчики представили новый формат хранения данных GOB («Geo-Object Bundle», пакет геообъектов). Это вспомогательный формат для библиотеки GOL (Geo-Object Library), которая была раньше. В новом формате реализовано сжатие zlib и другие оптимизации, что позволило существенно уменьшить размер файлов, скорость загрузки и обработки карт. Работа с нашей Землёй стала гораздо быстрее, если можно так сказать.

Посмотрим, что представляют собой форматы GOL и GOB, как удалось добиться такой оптимизации и как это выглядит в реальных условиях.

Читать далее

Стартап у станка: как бюрократия тормозит «высокотех»

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.9K

В августе 2023 года вступил в силу закон «О развитии технологических компаний в РФ», который ввёл новую категорию — «малая технологическая компания» (МТК). Под неё могут подпасть как заводы, так и ИТ-компании, создающие продукты и технологии, критически важные для обеспечения технологического суверенитета. Уже к концу 2025 года статус МТК получили более 6,4 тысяч организаций.

Наша компания занимается аналитикой для промышленности, и мы формируем большие массивы данных из открытых источников. Нам показалось интересным провести исследование именно на примере заводов, производящих электронику, специальное оборудование, новые материалы, чтобы понять: 1) какие меры поддержки работают на практике; 2) даёт ли статус МТК реальные конкурентные преимущества промышленности.

В каких условиях развивается "высокотех"

Эксперты прокомментировали акселератор «Умный город» в МГТУ им. Н.Э. Баумана

Время на прочтение4 мин
Охват и читатели4.3K

15 декабря в МГТУ им. Н.Э. Баумана (в питчинг-формате) прошел финальный Демо-день акселерационных программ «Умный город» и «Робототехника и беспилотные авиационные системы» (БАС). В течение трех месяцев студенческие команды под руководством опытных наставников последовательно работали над своими проектами. На мероприятии в МГТУ они представляли свои разработки бизнес-сообществу, инвестиционным фондам, институтам развития и другим заинтересованным сторонам, которые способствуют укреплению технологического суверенитета.

Читать далее

Я ещё в 99 раз ускорил генерацию компонентов и свёл расходы к нулю, тёмная магия Perplexity Pro Spaces

Время на прочтение9 мин
Охват и читатели8.4K

Этап первый: Я уверен, что будущее за DEEP CODING, где за кодинг не мы платим — платят нам!

Этап второй: когда я нашёл Perplexity Spaces и всё изменилось

Этап третий: странный ритуал разогрева чата, который звучит как шаманство, но работает как часы

Ребята, давайте честно. Нам продают подделку. Игрушечный код вместо архитектуры. Каждый запрос минус деньги. Мы бесплатно тестируем чужие SaaS-платформы, а они зарабатывают на нашей боли и усталости.

Читать далее

«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели9.8K

Я обучил небольшую языковую модель, которая отвечает на дореформенном русском как человек из XIX века.

Рассказываю, как подготовил данные, собрал синтетический корпус, обучил tiny-LLM и опубликовал её в виде чат-бота.

Читать далѣе

Как забытый API-ключ открыл нам мир мошенников

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели24K

Сегодня история на грани техники, психологии и детектива. Расскажу о том, как мы (я и мой коллега) попали во внутренние чаты мошенников и что из этого вышло.

Читать далее

Тим Бернерс-Ли: как физик из ЦЕРН практически в одиночку написал три главных протокола, чтобы создать Интернет

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели35K

Имя британского инженера-программиста Тима Бернерса-Ли не так на слуху, как у современных IT-гигантов, но именно благодаря его труду интернет стал тем, чем он является сегодня. Он практически в одиночку разработал Всемирную паутину (World Wide Web, WWW) — инструмент, который по значимости стоит в одном ряду с изобретением печатного станка. Без новаторской работы Бернерса-Ли, которая произвела революцию в обмене информацией, все существующие веб-сайты просто не смогли бы работать.

Читать далее

Хабр умирает, и это не кликбейт

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели77K

Блуждая по Хабру, я всё чаще слышу один и тот же рефрен: «Хабр уже не тот». Статьи не набирают, интерес аудитории угас, а в кулуарах DevRel'ы жалуются, что «продвигаться стало невозможно». Но так ли это на самом деле? Или это классическая «раньше трава была зеленее»?

Читать далее

Человек VS трихоплакс: так ли мало у нас общего?

Время на прочтение6 мин
Охват и читатели5K

Привет, дорогой читатель! Представь: ты заходишь в здание, где в каждой лаборатории бьется ключом научная мысль, пытающаяся расшифровать главную загадку природы — наш собственный мозг. Именно так себя ощутили участники студенческого пресс-тура в Институт высшей нервной деятельности и нейрофизиологии (ИВНД и НФ) РАН.

Читать далее

Telegram-бот для дополнения базы знаний: автоматизация без разработчиков

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.9K

Чтоб сделать, чтобы базой знаний реально пользовались? Один из путей — дать возможность и наполнения, и получения ответов в привычном интерфейсе, без захода в дополнительные приложения.

Читать далее

Как мы (не) смогли посчитать вакантность жилья в Москве

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели6.4K

Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.

Читать далее

Минцифры представит закон о доменах: аутентификация через Госуслуги и изъятие для госнужд

Время на прочтение4 мин
Охват и читатели4.4K

Осенью в Госдуму направят на рассмотрение законопроект, который координально может изменить правила игры в российском интернете.

Привет Хабр! Продолжаем серию статей про законодательные инициативы, попробуем разобраться, что именно предлагают чиновники, и порассуждаем про последствия.

Читать далее

Ближайшие события

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.4K

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база «машин‑актёров» в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать далее

Учебник под микроскопом. Часть 1: из PDF в TXT

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.6K

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

Статистика футбольных матчей

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели6.6K

Недавно рассказывал о многомерном анализе данных временных рядов с помощью Dimension-UI, упоминая простой и удобный интерфейс для доступа к данным, гибкость, интерактивность и другие преимущества. Пришло время проверить, как это работает на практике. В качестве полигона для анализа мы используем статистику футбольных матчей: посмотрим данные по голам, детализированные по командам, статистику по счёту, а также сравним результативность в домашних и гостевых матчах.

Читать далее

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели4K

OpenAI представила результаты масштабного исследования, в котором более тысячи человек со всего мира оценивали поведение языковых моделей в этически сложных ситуациях. Это часть программы по так называемой «коллективной настройке» (collective alignment), цель которой — приблизить ответы ИИ к общественным ожиданиям.

Читать далее

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.9K

Привет, Хабр! Хочу поделиться своей историей того, как я пришла к GitHub Actions в попытках автоматизировать сбор аналитики для личного использования.

Статья будет полезна аналитикам, которые хотят автоматизировать сбор и анализ данных для своих небольших пет‑проектов.

Читать далее

Как работает схема «1 ₽ за пробный период»

Время на прочтение7 мин
Охват и читатели12K

Привет, Хабр!

А теперь представьте, что с вашей карты пытаются списать деньги 💸, даже если сайт уже не существует…

В этой статье хочу рассказать как я оформил “пробный доступ” за 1 ₽ - а спустя время начались попытки списать по 999 ₽. Рассказываю, как это устроено и что показала проверка открытых источников.

Читать далее

— Здравствуйте мошенники, это абитуриент, вам сказать код из СМС? — Нет, спасибо, мы сами

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели26K

Большинство вчерашних школьников, впервые сталкиваются с «госуслугами» при оформлении «заявлений на поступление». Данная статья будет полезна тем, кому «детское абитуриентство» предстоит в следующем году.

В этом году мне посчастливилось быть родителем абитуриента. Глядя на всю суету и волнение, еще весной сказал: «Будь я мошенником — взялся бы за абитуриентов.»
Но, как говорится: «Не один ты такой умный. Поумнее тебя есть, а в колл‑центрах сидят.»

В итоге, у ребенка увели эти самые «госуслуги».

Предвижу первый гневный комментарий: «Он сам сказал код из СМС!!!»

А вот и нет
1
23 ...