Открытые данные *

Данные будут свободны!

132,52

Рейтинг

СтатьиПостыНовостиАвторыКомпании

SecretEditor 8 часов назад

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Простой

4 мин

4.6K

Блог компании MWS AIБлог компании МТСИскусственный интеллектОткрытые данные * Машинное обучение *

Обзор

Каждый, кто пробовал заставить кодинг-LLM написать вменяемый комментарий к коду на русском, знает, какая это боль. Часто модели либо срываются на английский, либо выдают «кальку», либо игнорируют структуру. А всё потому, что они изначально заточены на английский язык. Огрехи встречаются, в частности, в терминологии: модели путают технические заимствования, например «деплой», «коммит», с их буквальным переводом, что делает текст неестественным для разработчика. В структуре тоже не всегда всё гладко: при генерации на русском модели часто «ломают» установленный для Docstring формат (описание, параметры, return, exceptions), из-за чего IDE перестают подхватывать документацию.

Существующие в природе датасеты для обучения кодинг-моделей вроде CodeSearchNet и The Vault либо не содержат русского языка, либо, как MCoNaLa, заточены на поиск, а не на генерацию документации. Именно эту проблему решают ученые из MWS AI: они самостоятельно собрали датасет StRuCom, как раз ориентированный на обучение ИИ генерировать комментарии к коду.

Под катом — история о том, как он был собран.

Data_Lab 11 мая в 14:36

Рабочая сила стареет и немного про ДМС

Простой

5 мин

20K

Открытые данные *

Мнение

ДМС становится все более привлекательной частью оффера при трудоустройстве в компанию. С точки зрения невозможности бесконечного роста оплаты труда, компании всё чаще предлагают дополнительные бонусы, такие как ДМС.

В этой статье я попробую разобрать ДМС через призму рынка труда и старения населения.

174

egorsokolov 7 мая в 15:41

«Судьба рубля»: 20 активов против инфляции за 23 года

Простой

5 мин

12K

Финансы в ITЛайфхаки для гиковВизуализация данных * Открытые данные * Софт

Обзор

Покупательная способность рубля за 23 года упала на 84%, инфляция x6.45 по данным Росстата. Чтобы деньги не обесценились, они должны были вырасти в 6.45 раза — всё, что выросло меньше, в минусе.

При этом ни в одном «денежном» интерфейсе вокруг нас концепт инфляции не фигурирует, её не показывают рядом с доходностью депозитов в банковском приложении, брокер рядом с зелеными цифрами тоже не будет вставлять инфу о том, сколько откусила пройдоха-инфляция.

В результате по моим наблюдениям большинство окружающих людей совершенно неспособны адекватно оценить реальную доходность своих инвестиций и живут в розовом мире номинальной доходности.

Я сделал бесплатный инструмент, который может с этим немного помочь. Подробнее внутри.

+18

aveazazello 7 мая в 11:06

Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

7 мин

6.9K

Социальные сетиОткрытые данные * Законодательство в IT

Аналитика

Из песочницы

Парсинг используют тысячи компаний — для мониторинга цен, сбора контактов, агрегации данных. Большинство уверены: раз информация в открытом доступе, значит, брать её можно. Разбираю, почему это не так, на пяти правовых режимах и семи реальных судебных делах — от ВКонтакте против Double Data до Meta против Bright Data.

Разобрать все пять рисков

Data_Lab 7 мая в 09:18

АвтоВАЗ и рост продаж

2 мин

5.8K

Открытые данные *

Наткнулся на новость о том, что АвтоВАЗ сообщил о росте продаж Lada в РФ в апреле г/г на 6%, до 31 051 шт.

Не то, чтобы я сомневаюсь (разве что чуть-чуть) в том, что АвтоВАЗ улучшает свою продукцию и позиционирование на рынке авто и растит свои продажи, но всё же решил посмотреть немного детальнее.

АвтоВАЗ не публикует свою отчетность, так как является непубличным акционерным обществом. Поэтому возьмем открытые данные, чтобы не ограничиваться одним месячным всплеском и показать полную картину возьмем также не два последних года, а лет 7-8.

-1

Data_Lab 6 мая в 11:58

НДС вырос почти на ставку

Простой

2 мин

11K

Открытые данные *

Мнение

С начала 2026 года базовую ставку НДС повысили с 20% до 22%. Классическая логика: ставка выше - поступлений должно быть больше, здесь не совсем работает.

Но обо всем по порядку. По предварительной оценке Минфина, за январь-март 2026 года поступления НДС по производству и импорту составили 4,05 трлн руб. против 3,67 трлн руб. годом ранее. Рост примерно +10,3%.

Выглядит как хорошая новость, особенно когда нефтегазовые доходы находятся под давлением, а бюджету нужны устойчивые ненефтегазовые источники.

Давайте разберемся, за счет чего был этот рост и ничего ли не забыли при повышении ставки НДС.

Data_Lab 4 мая в 13:17

Спрос в России в ближайшее время

Простой

4 мин

9.1K

Открытые данные *

Мнение

Попробую собрать общую картину по спросу на товары и услуги в России, чтобы ответить на вопрос где мы сейчас и куда вообще всё движется.

Наша экономика в начале 2026 года заметно так замедлилась. По оценке Минэкономразвития, ВВП в январе снизился на 2,1% г/г, в феврале - на 1,5% г/г.

Но тоже важно добавить, что это отчасти было ожидаемо, так как был перекос в 4 квартале 2025 года, потому что бизнес и покупатели адаптировались к налоговым изменениям.

Data_Lab 2 мая в 11:09

Рекрутеры — кто они

Простой

4 мин

8.5K

Открытые данные * Управление персоналом *

Мнение

Начитавшись и наслушавшись некоторых статей и видеороликов у меня складывается впечатление, что рекрутеры в глазах кандидатов это некая роль, задача которой максимально тщательно игнорировать соискателей.

Еще они редко перезванивают. И вообще, такие есть рекрутеры, что и двух слов связать не могут.

Как человек, который около 5 лет анализировал данные подбора в крупной компании, который сидел непосредственно внутри такого улья из порядка 100 человек, я сформировал некоторое представление о роли рекрутера в компании.

И сразу скажу, в данной статье речь не идет про HR специалистов, которые в одном лице и рекрутер, и кадровик, ~~и smm-менеджер~~. Также я разбираю только компании, где есть выделенная функция рекрутмента или эта функция вынесена на аутсорс.

-4

Data_Lab 25 апр в 14:15

Повышение зарплат — быть или не быть

Простой

3 мин

9.8K

Открытые данные *

Мнение

На рынок труда России сейчас лучше не смотреть, а если смотреть, то аккуратно.

С одной стороны, безработица все еще остается на историческом минимуме — 2,1% в феврале 2026 года.

С другой — в данных Банка России уже видно, что рынок труда становится менее перегретым: компаний, которые жалуются на дефицит кадров, стало меньше, а планы по найму и по индексации зарплат стали заметно сдержаннее.

zarazaexe 25 апр в 07:32

Это — всё что вам надо знать о белых списках: как устроены и 6 способов обхода

Средний

10 мин

183K

Информационная безопасность * Сетевые технологии * IT-инфраструктура * Открытые данные * Реверс-инжиниринг *

Аналитика

Думаю, вы уже в курсе, что происходит в РФ с белыми списками: работают белые списки, ТСПУ в режиме drop-all пропускает только одобренные IP + SNI, рунет медленно, но верно становится интранетом

Мы просканировали 46 млн российских IP-адресов, нашли 63 тысячи выживших, разобрали работу ТСПУ. И главное - актуальные методы пробива (от Serverless-функций и покупки VPS с белым IP до туннелей через WebRTC).

+619

245

Data_Lab 19 апр в 13:02

Северсталь: что происходит со спросом на сталь в России

Простой

4 мин

14K

Открытые данные *

Мнение

История Северстали сейчас это может быть одним из неплохих индикаторов того, что происходит в российской промышленности в целом.

В феврале компания показала крайне слабые результаты за 2025 год: выручка снизилась на 14% до 712,9 млрд руб., чистая прибыль рухнула на 79% до 31,99 млрд руб., а свободный денежный поток стал отрицательным.

В компании это связывают со снижением цен и ослаблением внутреннего спроса на сталь. Внутреннее потребление стали в России, кстати, в 2025 году сократилось примерно на 14% год к году.

И всё ведь взаимосвязано, помните, что РЖД продает небоскребы (я про Moscow Tower). Если опустить менеджмент и управленческие решения, и взглянуть лишь на сам рынок, то очевидно, раз той же стальной отрасли не нужно столько перевозить грузов, то и грузооборот РЖД как основного игрока на рынке будет снижаться (подробнее про РЖД было тут, тут и тут).

Крупным гос корпорациям придется перестраиваться, хочется или нет, но текущие условия экономики, рынка труда создают такие условия, что только и остается, что перестраиваться. Как это будет происходить: плавно и постепенно или резко и больно тут уж менеджмент компаний решает сам.

dofin 17 апр в 17:02

Как мы собираем ингушский язык: словарь, корпус и ИИ в одном проекте

Простой

4 мин

6.6K

Искусственный интеллектОткрытые данные * Развитие стартапаИзучение языков

Кейс

Ингушский язык — один из нахских языков кавказской семьи, родной для примерно 400–500 тысяч человек. На нём говорят в Ингушетии, частично в Чечне и диаспоре по всей России. Язык живой и имеет государственный статус, но его цифровое присутствие долго оставалось минимальным: разрозненные PDF-словари, несколько сообществ в соцсетях, почти ничего пригодного для повседневного использования.

Так появился PaydaDosh — открытая лингвистическая платформа, которая сегодня является крупнейшим онлайн-словарём ингушского языка.

Data_Lab 13 апр в 15:39

Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава

Простой

5 мин

38K

Открытые данные *

Мнение

Разбираем нефть Венесуэлы не только с точки зрения возможных запасов нефти, но и с точки зрения сложностей, с которыми сталкивается страна:

- отсутствие качественной нефти;

- санкции;

- финансовые обязательства - часть экспорта идет как возмещение по старым займам.

Также смотрим на цифры, как изменилась добыча нефти в стране (спойлер: идет уверенно в гору) после похищения.

-1

ARSolog 11 апр в 20:35

OSINT-инструменты для анализа профилей VK

Простой

5 мин

11K

Информационная безопасность * Мессенджеры * Открытые данные * Социальные сетиVK API *

Туториал

Вконтакте хранит колоссальный объем цифровых следов и пользовательской информации, но эффективность сбора этих данных во многом может зависеть от применяемых инструментов. Платформа остается в числе самых популярных ресурсов в рунете, так как объединяет в себе не только функции соцсети и мессенджера, но и аудио-видео стриминговой платформы и не только, соответственно, является наиболее логичной отправной точкой для тех, кто решил заняться осинтом.

OSINT - разведка (сбор, анализ и интерпретация) данных по открытым источникам в различных целях, которые находятся в свободном доступе, не предполагающая использования закрытых баз данных, архивов и сведений, незаконных операций и несанкционированного доступа, что делает её законным и доступным каждому занятием, что, несомненно, является серьезным преимуществом. OSINT - дисциплина, фундаментально опирающаяся на общедоступность информации, что делает её чаще всего бесплатной, а отсутствие границ делает её возможности поистине глобальными, что позволяет осинтерам разоблачать даже международные дела.

Еще каких-то лет 10 назад найти данные по открытым источникам, зная только аккаунт VK человека, было практически невозможно - как правило, всё ограничивалось несколькими запросами в поисковиках. Сегодня же интернет предлагает OSINT-инструменты с поистине колоссальными возможностями, которым “по зубам” даже наглухо закрытые аккаунты ВК с самыми суровыми настройками конфиденциальности! Объяснение тому простое: старые сервисы пополняют свои архивы и постоянно развиваются, растет количество разработчиков и энтузиастов, всё больше применяется искусственный интеллект… Далее перейдем к списку лучших OSINT-инструментов широкого спектра, которые позволят выйти далеко за рамки контуров профилей, и сложить целостную картину из разбросанных цифровых следов и обрывков ценной информации.

Data_Lab 10 апр в 18:21

Скрытая оптимизация рынка труда

Простой

5 мин

11K

Открытые данные *

Мнение

Итак, рынок труда вроде как оживает, верно? Или наш пациент оживает перед предстоящими качелями? Вполне всё может быть, человеческий капитал так просто не появляется в стране. А именно с дефицитом оного и ассоциируется сейчас рынок труда.

Сейчас поговорим о том, почему компании все чаще доплачивают за совмещение.

Сразу окунемся в цифры - по данным hh.ru, с начала 2026 года в России было открыто почти 9 тыс. вакансий с доплатой за сверхнагрузку и дополнительные обязанности.

Это на 29% больше, чем за аналогичный период прошлого года. Причем 91% таких вакансий ориентированы на начинающих специалистов, а чаще всего такие предложения встречаются в розничной торговле, пищевой промышленности и медицине.

PaaLadin 4 апр в 16:52

Как РосАтом на чёрном рынке ИИ покупал

Простой

13 мин

40K

Искусственный интеллектИнтернет-маркетинг * Информационная безопасность * Открытые данные * Тестирование веб-сервисов *

Аналитика

«Кроилово ведёт к попадалову» — знает каждый русскоязычный, поляк бы сказал — «Tanie mięso psy jedzą», в британских колониях прозвучит — «Penny wise, pound foolish»...

Это история о том, к чему приводит экономия на SMM персонале и незнание банального
«Quis custodiet ipsos custodes?»

Заглянуть в мешок...

+213

Data_Lab 4 апр в 16:31

Серебряные кадры и демография — почему 50+ всё чаще становятся частью стратегии

Простой

3 мин

62K

Открытые данные *

Мнение

Сейчас на рынке труда появляется новая корпоративная этика.

Когда безработица держится на уровне 2,2% (исторический минимум) — это превращается в ситуацию, когда любая потеря кандидата превращается в издержки, а любая узкая компетенция — в стратегический актив. И именно низкая безработица становится одним из индикаторов перегрева, усиливая борьбу за таланты в 2026–2030.

И вот в этом режиме рынок труда постепенно вспоминает про людей 50+.

+17

nlaik 1 апр в 22:09

Claude Code бесплатно: как использовать ии бесплатно в 2026 году

Средний

4 мин

61K

Искусственный интеллектJavaScript * Открытые данные *

Обзор

31 марта из npm source maps утёк исходный код Claude Code. Через часы появился OpenClaude — форк с OpenAI-совместимым шимом, который позволяет подключить GPT-4o, DeepSeek, Llama через Ollama или любую модель. Разбираю, как это устроено, что реально работает, что нет, и почему «бесплатный Claude Code» — не совсем то, чем кажется.

+14

Data_Lab 31 мар в 18:11

Сохранение джунов и будущее кадровой воронки

Простой

5 мин

6.3K

Открытые данные *

Мнение

Как мы знаем, рынок труда в некоторых сферах сейчас достаточно напряжен для соискателя.

В недавнем материале про рынок ИТ специалистов я показывал, что молодым специалистам достаточно трудно сейчас найти работу, это касается многих офисных профессий.

Компании зажаты между необходимостью расти и при этом не сильно увеличивать тот же ФОТ.

И получается вопрос: зачем нам нужен джун, которого нужно около года учить, и еще не факт, что он останется работать.

TBEPK 28 мар в 10:23

Как я впервые услышал черную дыру: Python и LIGO

Средний

9 мин

6.5K

Открытые данные * Алгоритмы * Data Engineering * Python *

Туториал

Recovery Mode

Привет, Хабр!

Когда речь заходит об обсерватории LIGO, большинство из нас вспоминает классический сценарий: где-то за миллиарды световых лет слились две черные дыры, и через миллионы лет детекторы на Земле зафиксировали гравитационный всплеск, длившийся доли секунды. В классической Общей теории относительности (ОТО) считается, что изолированная или просто поглощающая газ черная дыра гравитационно «нема». Она ничего не излучает.

Но что, если это не так? Что, если гравитационные телескопы способны «слышать» не только редкие катастрофические слияния, но и постоянный, фоновый гул от обычных черных дыр, которые прямо сейчас пожирают материю в нашей галактике? И что, если этот гул может рассказать нам о физическом размере объектов, внутри которых, как нам говорят, находится «бесконечная сингулярность»?

В этой статье я покажу, как концепция механики сплошных сред позволяет предсказать точную частоту такого резонанса. А затем мы откроем Python, подключимся к серверам GWOSC (Gravitational Wave Open Science Center), выкачаем гигабайты сырых тензорных данных LIGO и методами цифровой обработки сигналов (DSP) вытащим этот акустический след из шума.

Спойлер: мы найдем этот гул для трех разных черных дыр. И он совпадет с расчетным до десятых долей процента. Такого анализа (поиск непрерывного гравитационного резонанса от аккреции) еще никто не делал. Это буквально новый метод определения параметров черных дыр.

Слушать черные дыры

2 3 ...

34 35