Как стать автором
Поиск
Написать публикацию
Обновить
15.5

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Как я за год написал шесть больших научных статей и несколько маленьких

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.5K

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

Читать далее

«Надо учить не знанию, а пониманию»

Время на прочтение12 мин
Количество просмотров2.6K

14 февраля в Российском новом университете – сдвоенный праздник: день рождения гениального физика и популяризатора науки Сергея Петровича Капицы и День всех влюблённых. По инициативе Студенческого научного общества он синтезировался в День влюблённых в науку.

Читать далее

7 опорных функций, которые должны быть в вашей системе Data Governance

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1K

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance.

Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения.

Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.

Читать далее

Python для OSINT в Telegram: автоматизация Threat intelligence

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров7.6K

Привет, на связи лаборатория кибербезопасности компании AP Security.

Узнайте, как создать парсер Telegram на Python с использованием Telethon для осинта и сбора данных об угрозах. Пошаговое руководство с практическими примерами.

Читать далее

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

Время на прочтение7 мин
Количество просмотров2.6K

Данный отчет представляет собой аналитическое исследование авиапроисшествий, произошедших в период с 2014 по 2024 годы и расследованных МАК. В основу анализа легли данные о происшествиях, включающие сведения о типах воздушных судов, числе погибших, географическом расположении инцидентов, а также причинах катастроф

Читать далее

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.9K

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства.

Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов. 

Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем. 

В статье расскажу, как мы решаем эту задачу.

Читать далее

Анализ факторов аттрактивности современного изобразительного искусства

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K

Феномен Современного искусства с каждым днём приобретает новые, более широкие рамки и концепции. Но, их понимание и интерпретация для простого зрителя по-прежнему вызывает много вопросов.

Одними из ведущих факторов оценки искусства являются уникальность, сложность и, конечно же – стоимость.

Зачастую, совсем «простые» произведения имеют совсем не малую цену, величина которой порой, кажется, действительно несоизмерима с визуальной составляющей работ.

Наша команда решила разобраться с этим феноменом и провела исследование в области произведений современного искусства (делая особый акцент на изобразительном творчестве). Мы собрали статистические данные из открытых источников в интернете (с ресурсов, представляющих наибольших интерес у коллекционеров, покупателей, галеристов). На основании этих данных можно проследить аттрактивность предметов коллекционирования, их востребованность и ценность.

Среди всех вариантов расчета данных мы выбрали наиболее показательные поля для оценки: регион и год создания, стиль и тема искусства, площадь, ключевые слова, а также тип материала (из которого и на котором выполнено произведение).

Комбинация данных позволили выделить некоторое количество ведущих пунктов, ставших- основой для создания статистики.

Зависимость стоимости от региона (илл.1) показывает самые дорогостоящие произведения из Центральной Америки, цена которых варьируется от 3,5 до 4,8 млн. рублей. Следом за ними - произведения стоимостью от 500 тыс. до 1.5 млн. из Южной Азии и Западно-Африканского региона.

Читать далее

Проанализировал более 260 тысяч футбольных матчей, чтобы поспорить с учёными-статистиками

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров12K

Потратил пару месяцев, чтобы спарсить матчи и понять, насколько футбол хаотичная и непредсказуемая игра. И выводы оказались довольно неоднозначными. Но обо всём по порядку

Читать далее

Спарсил 700к ютуб каналов и построил 16 графиков которые вы навряд ли где-то видели

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров13K

Когда-то я пытался завести ютуб канал и стать знаменитым, но оказалось что для этого нужна харизма, чувство юмора и четкая дикция, а не то что у меня.

Но все же мне удалось нафармить 3,5к подписчиков мучительными душными видео, которые совершенно не понятно зачем терпели мои зрители

Теперь, я принял себя и нашел более подходящую площадку для своей духоты, поэтому представляю вашему вниманию несколько графиков про видео хостинг ютуб, который я парсил в течение 4 месяцев

Смотреть графики

Как научить нейросеть запоминать вас: технология персонального контекста

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.2K

Привет, Хабр!

Если вы, как и я, регулярно общаетесь с нейросетями, то наверняка сталкивались с ситуацией, когда приходится раз за разом объяснять ИИ одни и те же вещи: кто вы, чем занимаетесь, какие у вас предпочтения и цели. Каждый новый чат — это знакомство с чистого листа.

Сегодня я хочу рассказать о технологии, которая решает эту проблему — персональном контексте для LLM. Объясню простыми словами, что это такое, как это работает и почему это важное направление в развитии взаимодействия человека с ИИ.

Как создать цифровую память для нейросети

Как мы искали должников при помощи Pandas

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров9.4K

Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.

Я занимаюсь анализом данных и дата‑журналистикой в газете «Деловой Петербург». Расскажу о том, как объединяли информацию из множества локальных html‑таблиц и приведу примеры кода на «Питоне».

Читать далее

Сбор данных из DHT (как работают агрегаторы)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.5K

После моей прошлой статьи прилетело много фидбэка.Я не эксперт в области торрентов, но благодаря комментариям узнал несколько интересных нюансов. Это вдохновило меня на продолжение предыдущей стати и создания мини-аналога IKnowWhatYouDownload (как оказалось, его можно сделать буквально за пару часов).

Начнем с базы

Разберемся, как работает IKnowWhatYouDownload (и подобные агрегаторы).
Вот что говорят его создатели:
Торрент-файлы попадают в нашу базу данных несколькими способами. Во-первых, мы собираем новинки с популярных торрент-сайтов (как зарубежных, так и российских). Во-вторых, у нас есть компоненты, которые постоянно мониторят DHT-сеть. Если кто-то ищет или анонсирует infohash, мы также добавляем его в базу.

Данные по одному торрент-файлу собираются раз в несколько часов. Чем дольше вы находитесь на раздаче, тем выше вероятность попасть в нашу базу. Данные на сайте обновляются с задержкой в сутки.

Обычно мы решаем другие задачи — отслеживать небольшое количество торрент файлов, получая по ним как можно больше данных.

Как вы понимаете, на сайте идеология другая — получить по большому количеству торрент-файлов как можно больше данных, поэтому применяемые методы могут быть неточными. Да, кроме того, на сайте не отображаются данные старше 4х недель.

Что такое DHT?

DHT (Distributed Hash Table) — это технология, которая используется в торрент-сетях для децентрализованного поиска участников раздачи (пиров) без необходимости подключения к центральному трекеру. Вместо того чтобы полагаться на сервер, DHT позволяет каждому участнику сети хранить и обмениваться информацией о пирах напрямую.

Читать далее

Мои любимые фреймворки для повышения эффективности бизнеса: чем они так хороши?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.4K

Привет, Хабр! Меня зовут Татьяна, в РСХБ-Интех я работаю с данными — помогаю ими управлять. У меня в бэкграунде больше 10 лет работы в сфере ИТ над различными проектами и продуктами, в работе я применяла разные подходы и методики и, конечно, среди них есть мои любимые. В этом материале я рассказываю о трёх фреймворках, к которым  отношусь в высшей степени уважительно и местами трепетно, так как считаю их крайне полезными. В своём роде это лучшее, что придумали для бизнеса, по моему скромному мнению.

Почему я выбрала их? Каждый фреймворк помещается на листе А4, поэтому удобен в использовании, и к тому же обладает универсальной применимостью — ко всем предметным областям и сферам бизнеса. 

Читать далее

Ближайшие события

Как использование торрентов демаскирует тебя в сети?

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров31K

Пользовались ли вы когда-нибудь торрентами? Если да, то у меня для вас плохие новости.

Когда пользователь скачивает или раздаёт файл через торрент, его IP-адрес становится видимым для других участников сети.

Сервис IKnowWhatYouDownload собирает эту информацию, систематизирует и предоставляет возможность поиска по IP-адресу.

Чтобы узнать, какие файлы связаны с конкретным IP, достаточно ввести адрес в поисковую строку на сайте. Сервис покажет список торрентов, которые были загружены или разданы с этого IP. Также можно увидеть дату и время активности.

Пример результата:

Читать далее

Спарсил 240к курсов Udemy и вот что я узнал

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров71K

Привет! Меня зовут Илья, и я увлекаюсь сбором и анализом открытых данных из интернета. Это позволяет мне иногда находить действительно интересные вещи.

Сегодня я подготовил для вас подборку из семи любопытных рейтингов, связанных с онлайн-курсами в России и за рубежом.

Читать далее

Открытый банкинг в России: обязательное внедрение, стандарты и наш новый мониторинговый бот

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров854

Привет! Меня зовут Антон, я руковожу проектом Everypay.io – финтех-платформой, которая предоставляет инфраструктуру и данные для разработки персонализированных финансовых услуг через открытые банковские API. Наша задача – помочь бизнесу и разработчикам легко интегрироваться с банковскими системами, ускоряя запуск инновационных решений и снижая издержки на разработку.

В этой статье я поделюсь, почему наша команда постоянно следит за обновлениями спецификаций открытого банкинга, какие изменения готовит Центробанк РФ, а также расскажу о нашем новом боте, который автоматически мониторит свежие изменения и уведомляет нас буквально в течение часа.

Читать далее

Генерация табличных данных с помощью языковых моделей: делаем правильно

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров2.3K

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности или их полного отсутствия в структурированном виде. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

Читать далее

Практическое применение открытых API: трансформация студенческого проекта в бизнес-решение по оценке контрагентов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2K

Как студенческое исследование по оценке репутации контрагентов с использованием открытых данных переросло в ИТ-решение представителя среднего бизнеса.

История моей ИТ-инициативы началась с университетского проекта по управлению рисками, выполненного на кафедре «Бизнес-информатика» Финансового университета. Совмещая приятное с полезным, одновременно с учебным проектом занимался оценкой благонадежности контрагентов и рисков сотрудничества с ними в реальном бизнесе.

В рамках университетского исследования изучены взаимосвязи между различными корпоративными данными, включая факторы риска, и результатами сотрудничества с контрагентами. В исследованиях выявил взаимозависимость репутационных рисков с банкротствами аффилированных лиц, политическими взглядами учредителей и судебной активностью, при этом благонадёжность определяется устойчивым развитием, участием в госзакупках и политических кампаниях.

Руководству были представлены результаты исследования взаимосвязей между репутацией и благонадёжностью контрагентов. На основе проведённого исследования было принято решение внедрить ИТ-решение по автоматизации анализа и визуализации данных с использованием открытых данных из источников, таких как ФНС, Право.ру и СКБ Контур, доступных через открытые API. Так, функционал этих инструментов начал применяться в реальном бизнесе для оценки благонадёжности контрагентов.

Читать далее

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Время на прочтение14 мин
Количество просмотров1.9K

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

Применение OSINT-техник в сфере юриспруденции

Время на прочтение2 мин
Количество просмотров1.1K

На удивление юристы работают не только с законодательством, бывает, что ответа на вопрос клиента или руководителя просто нет среди законов и кейсов. Тогда юрист превращается в OSINT-исследователя, потому что его работа в том, чтобы найти ответ на вопрос.

— Например, открытые данные помогают проверить контрагента, избежать нарушений законов или найти нужные доказательства для иска. Да и ресерч правовых баз можно отнести к поиску по открытым данным.

Читать далее