Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

ZeBrains_team 3 июл в 13:38

200 000+ снимков мусора: что мы узнали о датасетах

Простой

11 мин

1.8K

Big Data * Управление проектами * Искусственный интеллектМашинное обучение * Открытые данные *

Мнение

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю.

Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

Neurocore_AI 2 июл в 14:18

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

Простой

3 мин

3.8K

Открытые данные * Машинное обучение * Искусственный интеллектУправление проектами *

Кейс

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

sierra_xr 27 июн в 07:32

Доморощенный OSINT для соискателя. Краткая инструкция

Простой

9 мин

14K

Карьера в IT-индустрииИскусственный интеллектОткрытые данные * Лайфхаки для гиковУправление персоналом *

Мнение

Это всё о том, сколько чудесного и неожиданного можно узнать о потенциальном работодателе из открытых данных, и что делать, чтобы не проработать месяц-два бесплатно и не обмануться с другими ожиданиями. Спойлер: увидеть можно многое — от потенциального банкротства компании до дела о мошенничестве.

Никто из работодателей не напишет на сайте или в описании вакансии: «Ну да, так-то у нас иногда кассовые разрывы бывают, но мы тут держимся». Вместо этого будет: «Мы — признанные лидеры там-то и сям-то, нам доверяют, мы меняем мир, мы — динамично развивающаяся компания с сильным корпоративным духом (да, такие описания и кислотой не вытравить) и прочие «выше нас только горы».

Самое замечательное может начаться, если найти 10-15 минут времени и всмотреться в эту бездну успеха.

Где и что искать

+46

empenoso 23 июн в 14:48

Продолжение археологии трейдинга: 2016–2020 годы по материалам S&C

Простой

8 мин

1.3K

Открытые данные * Финансы в IT

Ретроспектива

Это четвёртая часть цикла об идеях из Technical Analysis of STOCKS & COMMODITIES. Мы уже прошлись по 2001-2005, 2006-2010, 2011–2015. Теперь период 2016-2020 годы, когда трейдеры постепенно адаптируются к новым реалиям рынка. Появляются роботы, но и индикаторы никуда не деваются - они обновляются и перерабатываются.

Travvy 20 июн в 13:55

Генератор синтетических документов для обучения моделей ИИ

Средний

4 мин

1.5K

Блог компании Институт системного программирования им. В.П. Иванникова РАНOpen source * Искусственный интеллектМашинное обучение * Открытые данные *

Кейс

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

empenoso 11 июн в 05:40

Археология трейдинга: какие системы предлагали в STOCKS & COMMODITIES (2011–2015)

Простой

8 мин

1.7K

Финансы в ITОткрытые данные *

Ретроспектива

В период 2011-2015 годов трейдинг переживал революцию. После мирового кризиса рынки восстанавливались при поддержке программ количественного смягчения, но трейдеры уже не довольствовались классическими инструментами. Алгоритмы и высокочастотная торговля меняли правила игры, а журнал Technical Analysis of STOCKS & COMMODITIES фиксировал эту трансформацию.

Читать полный текст

kutepovfedor 8 июн в 11:40

Как мы строили систему для проверки людей и компаний

Простой

3 мин

1.7K

Анализ и проектирование систем * Информационная безопасность * Открытые данные * SaaS / S+S *

Из песочницы

Это моя первая статья на Хабре. Формат нащупываю. Хотелось бы сразу с кейсами и диаграммами, но решил начать с простого — краткий разбор архитектуры нашего сервиса и того, как мы пришли к текущему состоянию.

Сервис — это проверка физических и юридических лиц по открытым источникам. Пользователь вводит ИНН или ФИО и получает отчёт: есть ли долги, исполнительные производства, признаки банкротства, участие в сомнительных организациях и так далее. Отчёт собирается на лету по 10+ источникам.

Система существует давно. Код — не идеален. Архитектура — не микросервисная. Docker и Kubernetes у нас не прижились, зато есть реальный боевой опыт. Ниже — краткий разбор, как оно устроено, какие ошибки мы прошли и как всё это выживает под нагрузкой.

-1

psitronic 3 июн в 12:35

Почему синтетические данные редко используются в реальных задачах

Простой

13 мин

613

Искусственный интеллектОткрытые данные * Машинное обучение * Информационная безопасность *

Обзор

Синтетические данные – это искусственно сгенерированные наборы, имитирующие структуру и статистические закономерности реальных данных. В последние годы вокруг этой технологии возник значительный ажиотаж. Еще недавно аналитики прогнозировали, что уже к 2024 году до 60% данных, используемых для разработки ИИ, будут синтетическими. Однако на практике полностью перейти на «искусственные» данные пока не удалось. Экспертные отчеты отмечают, что возможности синтетических данных сейчас несколько переоценены и что они вряд ли смогут в ближайшем будущем полностью заменить реальные данные. В разных отраслях синтетические данные используются скорее точечно, а не повсеместно. Ниже мы рассмотрим ключевые причины, почему применение таких данных остается редким – от технических ограничений и бизнес-факторов до правовых барьеров.

dev_flex 22 мая в 12:58

Каталог данных: что за зверь и с чем его едят

Средний

5 мин

1.5K

Блог компании SM LabУправление продуктом * Data Engineering * Управление проектами * Открытые данные *

Кейс

Всем привет! Меня зовут Роман Грибов, я директор по развитию данных и аналитики в «Спортмастере». Вместе с моей коллегой Татьяной Шишкиной, руководителем направления «Каталог данных», мы расскажем о том, что это за инструмент, как он работает и как позволяет сделать проще жизнь аналитиков, архитекторов и многих других (включая даже тех из нас, кто просто когда-либо смотрел на аббревиатуру «GMV» с немым вопросом «Что ты такое?»), а еще объясним главные цели его внедрения.

PB_Academy 22 мая в 07:01

От данных к интерфейсу: как спарсить вакансии с HH и SuperJob на C#

Средний

23 мин

3.9K

C# * Проектирование и рефакторинг * Windows * Открытые данные *

Туториал

В современном мире анализ рынка труда становится критически важным как для соискателей, ищущих актуальные возможности, так и для компаний, изучающих конкурентную среду. Для решения этой задачи были выбраны два ключевых ресурса — HH.ru и SuperJob.

В этой статье мы разберем, как объединить мощь C# для бэкенда и элегантность WPF для фронтенда, чтобы создать инструмент, который не только собирает данные, но и превращает их в ценную информацию.

Парсим данные

+30

TaniaB 19 мая в 09:56

Мой адрес — не дом и не улица: как создать нужную бизнесу адресную модель

Средний

9 мин

1.2K

Блог компании HFLabsОткрытые данные * Хранение данных *

Туториал

Приходит заказчик и говорит: «Мы новую систему строим, проконсультируйте нас, пожалуйста. Вы же адресами занимаетесь. Нам нужно сделать универсальную адресную модель. Вот у вас «Единый адрес» есть, какая там модель? Мы примем ее за эталонную и будем в своих системах использовать».

Ребята, я вас сейчас разочарую. В «Едином адресе» не одна адресная модель, а несколько. И ни одну из них копировать просто так не нужно.

Эта статья для архитекторов, аналитиков и разработчиков. В ней я расскажу, в чем подводные камни в работе с адресами и что нужно учитывать при проектировании адресных моделей.

+11

bi-denvic 15 мая в 08:09

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Средний

8 мин

4.2K

Базы данных * Открытые данные * Визуализация данных * Хранение данных *

FAQ

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы.

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

Project-2501 14 мая в 06:16

BookStack: мой опыт настройки и использования open-source базы знаний

Простой

7 мин

8.5K

DevOps * IT-инфраструктура * Open source * Базы данных * Открытые данные *

Из песочницы

Как я поднял базу знаний за 15 минут — без бюджета и опыта

Почему я выбрал именно BookStack

Мы в команде давно искали удобный инструмент для хранения технической документации и инструкций. Пробовали всё подряд — от Wiki.js до Confluence. Но то санкции, то интерфейс перегружен, то кастомизация страдает. В какой-то момент я наткнулся на BookStack — лёгкую, симпатичную open-source платформу на Laravel. Решил попробовать. В итоге — развернул, настроил, и теперь она у нас в проде.

empenoso 6 мая в 01:20

Подборка систем и индикаторов за 2006-2010 одного старейшего журнала по техническому анализу

Простой

8 мин

1.9K

Открытые данные * Финансы в IT

Ретроспектива

Это вторая часть погружения в идеи из журнала Technical Analysis of STOCKS & COMMODITIES. В первой части мы разобрали публикации за 2001–2005 годы - если вы её ещё не читали, рекомендую начать с неё: первая часть здесь.

Теперь мы переносимся во времена перемен — 2006–2010 годы. Это период перед мировым финансовым кризисом, в его разгар и в первые годы восстановления. Рынки лихорадит, волатильность зашкаливает, а авторы Traders' Tips ищут устойчивые подходы, предлагают свежие индикаторы и экспериментируют с управлением рисками.

Мы продолжаем исследовать эти идеи и смотреть можно ли их адаптировать к современным условиям. Все ссылки — только на оригинальные материалы на официальном сайте журнала — никакого пиратства, только уважение к источнику.

MrSotnik 29 апр в 08:39

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

3 мин

427

Data Mining * Data Engineering * ИнтервьюОткрытые данные * Big Data *

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?

empenoso 27 апр в 02:02

Подборка систем и индикаторов за 2001-2005 одного старейшего журнала по техническому анализу

Простой

10 мин

1.8K

Открытые данные * Финансы в IT

Ретроспектива

Понимаю, что тема технического анализа не соответствует привычному формату Хабра, но считаю, что этот архив представляет собой действительно ценный и полезный ресурс.

В статье собрана коллекция торговых систем и индикаторов, опубликованных в журнале Technical Analysis of STOCKS & COMMODITIES за период с 2001 по 2005 год. Это издание считается одним из наиболее авторитетных в мире в области технического анализа.

Материалы могут быть интересны трейдерам, разработчикам торговых стратегий, программистам и инвесторам, стремящимся расширить свои знания и набор инструментов. Все представленные идеи сопровождаются официальными ссылками на сайт журнала, что обеспечивает соблюдение авторских прав и делает подборку легальной и надежной.

TACS с 2001 по 2005 год

ph_piter 23 апр в 10:56

Книга: «OSINT. Руководство по сбору и анализу открытой информации в интернете»

4 мин

15K

Блог компании Издательский дом «Питер»Информационная безопасность * Открытые данные * Профессиональная литература *

Привет, Хаброжители!

В современном цифровом мире сбор информации — залог безопасности. Книга Дейла Мередита «OSINT. Руководство по сбору и анализу открытой информации в интернете» знакомит читателей с миром профессиональной работы с открытыми источниками данных. Погрузитесь в мир цифровых расследований с книгой, которая станет вашим ключом к пониманию современных угроз и методов защиты от них. Шаг за шагом читатель последовательно проходит все этапы работы с открытыми источниками: от основ кибербезопасности до тонкостей разведки по открытым источникам (OSINT). Новинка от издательства Sprint book.

Читать дальше →

Semin_Pavel 21 апр в 08:17

Как я за год написал шесть больших научных статей и несколько маленьких

Средний

14 мин

4.1K

Лайфхаки для гиковГеоинформационные сервисы * Открытые данные * R * Занимательные задачки

Кейс

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

+11

alyonayurchenko 17 апр в 12:41

«Надо учить не знанию, а пониманию»

12 мин

2.6K

Открытые данные * Управление персоналом * Управление продуктом * Управление проектами * Управление сообществом *

Репортаж

Recovery Mode

14 февраля в Российском новом университете – сдвоенный праздник: день рождения гениального физика и популяризатора науки Сергея Петровича Капицы и День всех влюблённых. По инициативе Студенческого научного общества он синтезировался в День влюблённых в науку.

-1

Tinkao 16 апр в 06:53

7 опорных функций, которые должны быть в вашей системе Data Governance

Средний

7 мин

1.1K

Блог компании РСХБ.цифра (Россельхозбанк)Хранение данных * IT-стандарты * Управление проектами * Открытые данные *

Аналитика

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance.

Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения.

Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.

3 4 ...

32 33

Открытые данные *

200 000+ снимков мусора: что мы узнали о датасетах

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

Доморощенный OSINT для соискателя. Краткая инструкция

Продолжение археологии трейдинга: 2016–2020 годы по материалам S&C

Генератор синтетических документов для обучения моделей ИИ

Археология трейдинга: какие системы предлагали в STOCKS & COMMODITIES (2011–2015)

Как мы строили систему для проверки людей и компаний

Почему синтетические данные редко используются в реальных задачах

Каталог данных: что за зверь и с чем его едят

От данных к интерфейсу: как спарсить вакансии с HH и SuperJob на C#

Мой адрес — не дом и не улица: как создать нужную бизнесу адресную модель

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

BookStack: мой опыт настройки и использования open-source базы знаний

Ближайшие события

Подборка систем и индикаторов за 2006-2010 одного старейшего журнала по техническому анализу

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

Подборка систем и индикаторов за 2001-2005 одного старейшего журнала по техническому анализу

Книга: «OSINT. Руководство по сбору и анализу открытой информации в интернете»

Как я за год написал шесть больших научных статей и несколько маленьких

«Надо учить не знанию, а пониманию»

7 опорных функций, которые должны быть в вашей системе Data Governance

Вклад авторов