Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

KiraD 2 апр в 10:07

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

7 мин

Открытые данные * Визуализация данных * Python * Статистика в IT

Аналитика

Данный отчет представляет собой аналитическое исследование авиапроисшествий, произошедших в период с 2014 по 2024 годы и расследованных МАК. В основу анализа легли данные о происшествиях, включающие сведения о типах воздушных судов, числе погибших, географическом расположении инцидентов, а также причинах катастроф

maximtra 1 апр в 12:00

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Средний

11 мин

2.1K

Блог компании HFLabsОткрытые данные * Big Data * Алгоритмы *

Кейс

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства.

Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов.

Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. ~~Даже жаль, что показать эти примеры не можем.~~

В статье расскажу, как мы решаем эту задачу.

AirinLeo 30 мар в 07:16

Анализ факторов аттрактивности современного изобразительного искусства

Простой

5 мин

1.5K

Веб-аналитика * Визуализация данных * Открытые данные * Научно-популярное

Из песочницы

Феномен Современного искусства с каждым днём приобретает новые, более широкие рамки и концепции. Но, их понимание и интерпретация для простого зрителя по-прежнему вызывает много вопросов.

Одними из ведущих факторов оценки искусства являются уникальность, сложность и, конечно же – стоимость.

Зачастую, совсем «простые» произведения имеют совсем не малую цену, величина которой порой, кажется, действительно несоизмерима с визуальной составляющей работ.

Наша команда решила разобраться с этим феноменом и провела исследование в области произведений современного искусства (делая особый акцент на изобразительном творчестве). Мы собрали статистические данные из открытых источников в интернете (с ресурсов, представляющих наибольших интерес у коллекционеров, покупателей, галеристов). На основании этих данных можно проследить аттрактивность предметов коллекционирования, их востребованность и ценность.

Среди всех вариантов расчета данных мы выбрали наиболее показательные поля для оценки: регион и год создания, стиль и тема искусства, площадь, ключевые слова, а также тип материала (из которого и на котором выполнено произведение).

Комбинация данных позволили выделить некоторое количество ведущих пунктов, ставших- основой для создания статистики.

Зависимость стоимости от региона (илл.1) показывает самые дорогостоящие произведения из Центральной Америки, цена которых варьируется от 3,5 до 4,8 млн. рублей. Следом за ними - произведения стоимостью от 500 тыс. до 1.5 млн. из Южной Азии и Западно-Африканского региона.

LesnoyChelovek 27 мар в 13:02

Проанализировал более 260 тысяч футбольных матчей, чтобы поспорить с учёными-статистиками

Простой

17 мин

15K

Открытые данные * Искусственный интеллектВизуализация данных * Научно-популярноеPython *

Обзор

Потратил пару месяцев, чтобы спарсить матчи и понять, насколько футбол хаотичная и непредсказуемая игра. И выводы оказались довольно неоднозначными. Но обо всём по порядку

+39

sdijfpisdifdf 21 мар в 13:47

Спарсил 700к ютуб каналов и построил 16 графиков которые вы навряд ли где-то видели

Простой

5 мин

14K

Открытые данные * Исследования и прогнозы в IT *

Аналитика

Когда-то я пытался завести ютуб канал и стать знаменитым, но оказалось что для этого нужна харизма, чувство юмора и четкая дикция, а не то что у меня.

Но все же мне удалось нафармить 3,5к подписчиков мучительными душными видео, которые совершенно не понятно зачем терпели мои зрители

Теперь, я принял себя и нашел более подходящую площадку для своей духоты, поэтому представляю вашему вниманию несколько графиков про видео хостинг ютуб, который я парсил в течение 4 месяцев

Смотреть графики

+63

mikhashev 20 мар в 06:01

Как научить нейросеть запоминать вас: технология персонального контекста

Простой

6 мин

2.7K

Искусственный интеллектМашинное обучение * Программирование * Открытые данные *

Кейс

Привет, Хабр!

Если вы, как и я, регулярно общаетесь с нейросетями, то наверняка сталкивались с ситуацией, когда приходится раз за разом объяснять ИИ одни и те же вещи: кто вы, чем занимаетесь, какие у вас предпочтения и цели. Каждый новый чат — это знакомство с чистого листа.

Сегодня я хочу рассказать о технологии, которая решает эту проблему — персональном контексте для LLM. Объясню простыми словами, что это такое, как это работает и почему это важное направление в развитии взаимодействия человека с ИИ.

Как создать цифровую память для нейросети

alfablend 17 мар в 18:12

Как мы искали должников при помощи Pandas

Средний

6 мин

9.4K

SQLite * Открытые данные * УрбанизмBig Data * Python *

Туториал

Петербургский Фонд капитального ремонта опубликовал документы, в которых указана задолженность за каждую квартиру в городе по итогам 2024 года. Мы изучили эти файлы, чтобы ответить на вопрос: где и почему хуже всего платят за ремонт в своём доме.

Я занимаюсь анализом данных и дата‑журналистикой в газете «Деловой Петербург». Расскажу о том, как объединяли информацию из множества локальных html‑таблиц и приведу примеры кода на «Питоне».

+13

Capitan_grach 15 мар в 16:50

Сбор данных из DHT (как работают агрегаторы)

Простой

3 мин

5.2K

Информационная безопасность * Поисковые технологии * Открытые данные * Интернет-маркетинг * Хранение данных *

Туториал

После моей прошлой статьи прилетело много фидбэка.Я не эксперт в области торрентов, но благодаря комментариям узнал несколько интересных нюансов. Это вдохновило меня на продолжение предыдущей стати и создания мини-аналога IKnowWhatYouDownload (как оказалось, его можно сделать буквально за пару часов).

Начнем с базы

Разберемся, как работает IKnowWhatYouDownload (и подобные агрегаторы).
Вот что говорят его создатели:
Торрент-файлы попадают в нашу базу данных несколькими способами. Во-первых, мы собираем новинки с популярных торрент-сайтов (как зарубежных, так и российских). Во-вторых, у нас есть компоненты, которые постоянно мониторят DHT-сеть. Если кто-то ищет или анонсирует infohash, мы также добавляем его в базу.

Данные по одному торрент-файлу собираются раз в несколько часов. Чем дольше вы находитесь на раздаче, тем выше вероятность попасть в нашу базу. Данные на сайте обновляются с задержкой в сутки.

Обычно мы решаем другие задачи — отслеживать небольшое количество торрент файлов, получая по ним как можно больше данных.

Как вы понимаете, на сайте идеология другая — получить по большому количеству торрент-файлов как можно больше данных, поэтому применяемые методы могут быть неточными. Да, кроме того, на сайте не отображаются данные старше 4х недель.

Что такое DHT?

DHT (Distributed Hash Table) — это технология, которая используется в торрент-сетях для децентрализованного поиска участников раздачи (пиров) без необходимости подключения к центральному трекеру. Вместо того чтобы полагаться на сервер, DHT позволяет каждому участнику сети хранить и обмениваться информацией о пирах напрямую.

Tinkao 14 мар в 10:21

Мои любимые фреймворки для повышения эффективности бизнеса: чем они так хороши?

Средний

6 мин

4.7K

Блог компании РСХБ.цифра (Россельхозбанк)Открытые данные * Визуализация данных * Управление проектами * Хранение данных *

Обзор

Привет, Хабр! Меня зовут Татьяна, в РСХБ-Интех я работаю с данными — помогаю ими управлять. У меня в бэкграунде больше 10 лет работы в сфере ИТ над различными проектами и продуктами, в работе я применяла разные подходы и методики и, конечно, среди них есть мои любимые. В этом материале я рассказываю о трёх фреймворках, к которым отношусь в высшей степени уважительно и местами трепетно, так как считаю их крайне полезными. В своём роде это лучшее, что придумали для бизнеса, по моему скромному мнению.

Почему я выбрала их? Каждый фреймворк помещается на листе А4, поэтому удобен в использовании, и к тому же обладает универсальной применимостью — ко всем предметным областям и сферам бизнеса.

+11

Capitan_grach 12 мар в 15:37

Как использование торрентов демаскирует тебя в сети?

Простой

2 мин

32K

Информационная безопасность * Поисковые технологии * Открытые данные * Интернет-маркетинг * Хранение данных *

Кейс

Пользовались ли вы когда-нибудь торрентами? Если да, то у меня для вас плохие новости.

Когда пользователь скачивает или раздаёт файл через торрент, его IP-адрес становится видимым для других участников сети.

Сервис IKnowWhatYouDownload собирает эту информацию, систематизирует и предоставляет возможность поиска по IP-адресу.

Чтобы узнать, какие файлы связаны с конкретным IP, достаточно ввести адрес в поисковую строку на сайте. Сервис покажет список торрентов, которые были загружены или разданы с этого IP. Также можно увидеть дату и время активности.

Пример результата:

101

sdijfpisdifdf 3 мар в 13:52

Спарсил 240к курсов Udemy и вот что я узнал

Простой

2 мин

72K

Открытые данные * Исследования и прогнозы в IT *

Из песочницы

Привет! Меня зовут Илья, и я увлекаюсь сбором и анализом открытых данных из интернета. Это позволяет мне иногда находить действительно интересные вещи.

Сегодня я подготовил для вас подборку из семи любопытных рейтингов, связанных с онлайн-курсами в России и за рубежом.

+93

nons 10 фев в 09:24

Открытый банкинг в России: обязательное внедрение, стандарты и наш новый мониторинговый бот

Простой

4 мин

988

Финансы в ITПроектирование API * Открытые данные *

Обзор

Привет! Меня зовут Антон, я руковожу проектом Everypay.io – финтех-платформой, которая предоставляет инфраструктуру и данные для разработки персонализированных финансовых услуг через открытые банковские API. Наша задача – помочь бизнесу и разработчикам легко интегрироваться с банковскими системами, ускоряя запуск инновационных решений и снижая издержки на разработку.

В этой статье я поделюсь, почему наша команда постоянно следит за обновлениями спецификаций открытого банкинга, какие изменения готовит Центробанк РФ, а также расскажу о нашем новом боте, который автоматически мониторит свежие изменения и уведомляет нас буквально в течение часа.

psitronic 7 фев в 15:49

Генерация табличных данных с помощью языковых моделей: делаем правильно

Простой

13 мин

2.5K

Искусственный интеллектМашинное обучение * Открытые данные *

Туториал

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности или их полного отсутствия в структурированном виде. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

ShilovskyAnton 20 янв в 14:51

Практическое применение открытых API: трансформация студенческого проекта в бизнес-решение по оценке контрагентов

Простой

8 мин

Data Engineering * Microsoft Access * Открытые данные * Проектирование API * Визуализация данных *

Кейс

Как студенческое исследование по оценке репутации контрагентов с использованием открытых данных переросло в ИТ-решение представителя среднего бизнеса.

История моей ИТ-инициативы началась с университетского проекта по управлению рисками, выполненного на кафедре «Бизнес-информатика» Финансового университета. Совмещая приятное с полезным, одновременно с учебным проектом занимался оценкой благонадежности контрагентов и рисков сотрудничества с ними в реальном бизнесе.

В рамках университетского исследования изучены взаимосвязи между различными корпоративными данными, включая факторы риска, и результатами сотрудничества с контрагентами. В исследованиях выявил взаимозависимость репутационных рисков с банкротствами аффилированных лиц, политическими взглядами учредителей и судебной активностью, при этом благонадёжность определяется устойчивым развитием, участием в госзакупках и политических кампаниях.

Руководству были представлены результаты исследования взаимосвязей между репутацией и благонадёжностью контрагентов. На основе проведённого исследования было принято решение внедрить ИТ-решение по автоматизации анализа и визуализации данных с использованием открытых данных из источников, таких как ФНС, Право.ру и СКБ Контур, доступных через открытые API. Так, функционал этих инструментов начал применяться в реальном бизнесе для оценки благонадёжности контрагентов.

art-adept 23 дек 2024 в 10:59

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

14 мин

2.2K

Блог компании HFLabsBig Data * Data Engineering * Открытые данные * Анализ и проектирование систем *

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

+19

stein_osint 23 дек 2024 в 10:11

Применение OSINT-техник в сфере юриспруденции

2 мин

1.1K

Открытые данные * Поисковые технологии * Геоинформационные сервисы *

Мнение

На удивление юристы работают не только с законодательством, бывает, что ответа на вопрос клиента или руководителя просто нет среди законов и кейсов. Тогда юрист превращается в OSINT-исследователя, потому что его работа в том, чтобы найти ответ на вопрос.

— Например, открытые данные помогают проверить контрагента, избежать нарушений законов или найти нужные доказательства для иска. Да и ресерч правовых баз можно отнести к поиску по открытым данным.

FeLkan 9 дек 2024 в 10:55

Обзор недавно выпущенной модели Evo для анализа геномных данных

Простой

6 мин

1.5K

Открытые данные * Машинное обучение * Искусственный интеллектБиологияБиотехнологии

Обзор

Давайте представим, что вы начинающий или опытный биоинформатик, или "простой смертный", который хочет углубиться в анализ биологических данных. Спойлер: биоинформатики тоже смертные! Зачастую, не у каждого хватает ценного времени на проверку огромных последовательностей геномных данных, будь то поиск различных мутаций или прогнозирование структуры белков на основе последовательности аминокислот.

Но не переживайте, в этом вам поможет искусственный интеллект! Да, тот самый ИИ, который чуть ли не через каждую минуту обещает изменить мир и избавить нас от всех проблем — от покупки продуктов до поиска идеальных генетических маркеров для рака. Так вот, давайте разберемся, как ИИ может помочь нам, бедным исследователям, быстро и эффективно работать с данными, которые, казалось бы, невозможно обработать, даже за целую жизнь.

ilusha_sergeevich 5 дек 2024 в 14:40

Коронавирус: долгожданное извержение правды

5 мин

38K

Открытые данные * БиотехнологииНаучно-популярноеЗдоровье

Комитет Палаты представителей США опубликовал 520-страничный отчёт по COVID-19. И это, конечно, нега для людей, на которых в период пандемии навесили ярлык ковид-диссидента. Тобишь для таких как я. Итак, прямые цитаты из анонса на сайте американского правительства...

Про мандаты на маски: «не было убедительных доказательств того, что маски эффективно защищают американцев от COVID-19. Должностные лица органов здравоохранения наперебой рассказывали об эффективности масок, не предоставляя американцам научных данных, что вызвало массовый рост общественного недоверия».

Про социальную изоляцию: «рекомендация по социальной дистанции "6 футов друг от друга", из-за которой по всей стране закрывались школы и малые предприятия, была произвольной и не основанной на научных данных. Во время дачи показаний за закрытыми дверями доктор Фаучи заявил, что руководство "как бы просто появилось"».

Про запретительные меры: «длительные локдауны нанесли неизмеримый ущерб не только американской экономике, но и психическому, а также физическому здоровью американцев, особенно негативно сказавшись на молодых гражданах. Вместо того чтобы уделять первостепенное внимание защите наиболее уязвимых слоев населения, политика федеральных властей и властей штатов вынудила миллионы американцев отказаться от важнейших элементов здоровой и финансово обеспеченной жизни».

Про цензуру: «представители органов здравоохранения распространяли дезинформацию, используя противоречивые сообщения, поспешные реакции и отсутствие прозрачности. Администрация Байдена даже использовала недемократические и, скорее всего, неконституционные методы — в том числе заставляла компании социальных сетей цензурировать определенный контент COVID-19 — для борьбы с тем, что она считала дезинформацией».

+54

473

FeLkan 4 дек 2024 в 11:14

Когда «тихая» ДНК громче гена: как избыточная ДНК регулирует экспрессию, ничего не делая

Средний

6 мин

2.8K

БиотехнологииБиологияPython * Визуализация данных * Открытые данные *

FAQ

Мир биоинформатики полон загадок: что такое избыточная ДНК, почему она занимает половину генома, и как это вообще работает? Кому-то может показаться, что некодирующая ДНК — это просто «балласт», но на деле это, как если бы в вашем коде была сложная инфраструктура, которая отвечает за оптимизацию и поддержание всей системы.

Сегодня мы с вами разберёмся, как эта загадочная некодирующая ДНК умудряется контролировать экспрессию генов, ничего при этом не кодируя. А чтобы вы не заскучали, добавим капельку Python, ведь кода много не бывает!

+15

MarBra 29 ноя 2024 в 14:07

Качественные данные для среднего бизнеса: почему без промышленной платформы интеграции не обойтись?

5 мин

460

Базы данных * Открытые данные * Хранение данных *

Обзор

Качество данных и его значение для среднего бизнеса. Что такое качество данных? Почему качество данных так важно для среднего бизнеса? Кто относится к среднему бизнесу в России? Основные риски низкого качества данных. Основные рекомендации по выбору решений.

1 2

4 5 ...

32 33

Открытые данные *

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Анализ факторов аттрактивности современного изобразительного искусства

Проанализировал более 260 тысяч футбольных матчей, чтобы поспорить с учёными-статистиками

Спарсил 700к ютуб каналов и построил 16 графиков которые вы навряд ли где-то видели

Как научить нейросеть запоминать вас: технология персонального контекста

Как мы искали должников при помощи Pandas

Сбор данных из DHT (как работают агрегаторы)

Мои любимые фреймворки для повышения эффективности бизнеса: чем они так хороши?

Как использование торрентов демаскирует тебя в сети?

Спарсил 240к курсов Udemy и вот что я узнал

Открытый банкинг в России: обязательное внедрение, стандарты и наш новый мониторинговый бот

Генерация табличных данных с помощью языковых моделей: делаем правильно

Ближайшие события

Практическое применение открытых API: трансформация студенческого проекта в бизнес-решение по оценке контрагентов

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Применение OSINT-техник в сфере юриспруденции

Обзор недавно выпущенной модели Evo для анализа геномных данных

Коронавирус: долгожданное извержение правды

Когда «тихая» ДНК громче гена: как избыточная ДНК регулирует экспрессию, ничего не делая

Качественные данные для среднего бизнеса: почему без промышленной платформы интеграции не обойтись?

Вклад авторов