Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

LesnoyChelovek 27 окт в 18:02

Хабр умирает, и это не кликбейт

Простой

10 мин

76K

Открытые данные * Научно-популярноеСтатистика в ITHabrКонтент и копирайтинг *

Аналитика

Блуждая по Хабру, я всё чаще слышу один и тот же рефрен: «Хабр уже не тот». Статьи не набирают, интерес аудитории угас, а в кулуарах DevRel'ы жалуются, что «продвигаться стало невозможно». Но так ли это на самом деле? Или это классическая «раньше трава была зеленее»?

+362

501

alyonayurchenko 15 окт в 06:26

Человек VS трихоплакс: так ли мало у нас общего?

6 мин

513

Открытые данные * Управление продуктом * Хранение данных * Управление проектами * Профессиональная литература *

Recovery Mode

Привет, дорогой читатель! Представь: ты заходишь в здание, где в каждой лаборатории бьется ключом научная мысль, пытающаяся расшифровать главную загадку природы — наш собственный мозг. Именно так себя ощутили участники студенческого пресс-тура в Институт высшей нервной деятельности и нейрофизиологии (ИВНД и НФ) РАН.

Vitaliy_Chesnokov 13 окт в 08:02

Telegram-бот для дополнения базы знаний: автоматизация без разработчиков

Простой

8 мин

3.2K

Блог компании TEAMLYОтладка * Управление проектами * Открытые данные *

Туториал

Чтоб сделать, чтобы базой знаний реально пользовались? Один из путей — дать возможность и наполнения, и получения ответов в привычном интерфейсе, без захода в дополнительные приложения.

Semin_Pavel 30 сен в 07:11

Как мы (не) смогли посчитать вакантность жилья в Москве

Средний

17 мин

3.4K

УрбанизмГеоинформационные сервисы * Машинное обучение * Занимательные задачкиОткрытые данные *

Кейс

Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.

MargoRitaL 24 сен в 07:07

Минцифры представит закон о доменах: аутентификация через Госуслуги и изъятие для госнужд

4 мин

2.5K

Доменные имена * Открытые данные *

Мнение

Recovery Mode

Осенью в Госдуму направят на рассмотрение законопроект, который координально может изменить правила игры в российском интернете.

Привет Хабр! Продолжаем серию статей про законодательные инициативы, попробуем разобраться, что именно предлагают чиновники, и порассуждаем про последствия.

alexandervarlamov 14 сен в 13:17

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Простой

5 мин

936

Базы данных * Визуализация данных * Научно-популярноеОткрытые данные *

Аналитика

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база «машин‑актёров» в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

kruglikle 1 сен в 15:15

Учебник под микроскопом. Часть 1: из PDF в TXT

Простой

5 мин

3.7K

Открытые данные * Изучение языковGitHub * Python * Обработка изображений *

Из песочницы

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

akardapolov 30 авг в 13:38

Статистика футбольных матчей

Средний

13 мин

1.9K

Визуализация данных * Открытые данные * Open source * Научно-популярноеJava *

Обзор

Недавно рассказывал о многомерном анализе данных временных рядов с помощью Dimension-UI, упоминая простой и удобный интерфейс для доступа к данным, гибкость, интерактивность и другие преимущества. Пришло время проверить, как это работает на практике. В качестве полигона для анализа мы используем статистику футбольных матчей: посмотрим данные по голам, детализированные по командам, статистику по счёту, а также сравним результативность в домашних и гостевых матчах.

stas-clear 28 авг в 06:41

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

Средний

3 мин

1.1K

Искусственный интеллектМашинное обучение * Открытые данные * Исследования и прогнозы в IT *

Аналитика

OpenAI представила результаты масштабного исследования, в котором более тысячи человек со всего мира оценивали поведение языковых моделей в этически сложных ситуациях. Это часть программы по так называемой «коллективной настройке» (collective alignment), цель которой — приблизить ответы ИИ к общественным ожиданиям.

-1

Alena_Les 27 авг в 19:47

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Простой

6 мин

3.1K

Аналитика мобильных приложений * Хранение данных * Открытые данные * Управление проектами *

Кейс

Recovery Mode

Привет, Хабр! Хочу поделиться своей историей того, как я пришла к GitHub Actions в попытках автоматизировать сбор аналитики для личного использования.

Статья будет полезна аналитикам, которые хотят автоматизировать сбор и анализ данных для своих небольших пет‑проектов.

InfoSec_razbor 18 авг в 09:21

Как работает схема «1 ₽ за пробный период»

7 мин

9.6K

Информационная безопасность * Платежные системы * Реверс-инжиниринг * Исследования и прогнозы в IT * Открытые данные *

Из песочницы

Привет, Хабр!

А теперь представьте, что с вашей карты пытаются списать деньги 💸, даже если сайт уже не существует…

В этой статье хочу рассказать как я оформил “пробный доступ” за 1 ₽ - а спустя время начались попытки списать по 999 ₽. Рассказываю, как это устроено и что показала проверка открытых источников.

+20

fedignat 18 авг в 05:54

— Здравствуйте мошенники, это абитуриент, вам сказать код из СМС? — Нет, спасибо, мы сами

Простой

5 мин

25K

Информационная безопасность * Спам и антиспамЗдоровьеУчебный процесс в ITОткрытые данные *

Большинство вчерашних школьников, впервые сталкиваются с «госуслугами» при оформлении «заявлений на поступление». Данная статья будет полезна тем, кому «детское абитуриентство» предстоит в следующем году.

В этом году мне посчастливилось быть родителем абитуриента. Глядя на всю суету и волнение, еще весной сказал: «Будь я мошенником — взялся бы за абитуриентов.»
Но, как говорится: «Не один ты такой умный. Поумнее тебя есть, а в колл‑центрах сидят.»

В итоге, у ребенка увели эти самые «госуслуги».

Предвижу первый гневный комментарий: «Он сам сказал код из СМС!!!»

А вот и нет

+117

122

singlevolk 17 авг в 20:25

Социотехника против технологий: как я расследовал поддельные сервисы одного российского IT-гиганта

Простой

2 мин

3.6K

Информационная безопасность * Открытые данные * Программирование * Спам и антиспамСоциальные сети

Аналитика

IT-гиганты и мошенники — две руки одного источника? Человеческий фактор превращает доверие в уязвимость.

-8

negrbluad 16 авг в 20:57

Создаем простого грид-бота для Московской биржи через QUIK и Python

Простой

6 мин

14K

Алгоритмы * Открытые данные * Python * Финансы в ITМатематика *

Туториал

Алгоритмическая торговля на Московской бирже с помощью терминала QUIK остаётся популярным способом автоматизировать стратегии. В этой статье мы напишем грид-бота, который выставляет ордера сеткой вокруг текущей цены и зарабатывает на колебаниях.

+15

randall 30 июл в 13:22

Если нужно сгенерировать синтетические данные — подборка открытых решений

Простой

4 мин

Блог компании MWSБлог компании МТСИскусственный интеллектМашинное обучение * Открытые данные *

Обзор

Про снижение расходов на работу с данными расскажем 13 августа на вебинаре. А сегодня мы поговорим об открытых инструментах, которые открывают новые возможности для экспериментов и работы с ML. Далее в подборке четыре решения по теме — разбираем их возможности и примеры использования.

Adm1ngmz 28 июл в 18:46

Поиск человека по фото: как найти информацию о человеке по одной фотографии

4 мин

224K

Информационная безопасность * Открытые данные *

Приветствуем дорогих читателей! В этой статье мы детально рассмотрим все аспекты поиска информации о человеке по фотографии, уделив особое внимание трем основным направлениям. Речь пойдет о возможностях поисковых систем, которые многие недооценивают, хотя они могут дать неожиданно точные данные при правильном использовании. Мы разберем специализированные онлайн‑сервисы, работающие на основе нейросетей и сложных алгоритмов распознавания лиц. Отдельное внимание уделим Telegram‑ботам, которые сочетают в себе удобство мобильного использования с мощными поисковыми технологиями. Эти инструменты помогут вам получить данные о персоне, включая имя, телефон и другую полезную информацию.

Вы узнаете не только о технических возможностях каждого метода, но и о практических нюансах их применения. Мы расскажем, как добиться максимальной точности поиска данных и какие параметры фотографии влияют на результат.

+10

Tyuli 23 июл в 09:15

Обсуждение ИТ-тем офлайн. Равнодушные стражи общественных лекториев. Личный опыт

Простой

6 мин

478

Открытые данные * Карьера в IT-индустрииПрезентацииУдалённая работаУчебный процесс в IT

Репортаж

Один из вариантов обмена опытом и знаниями – это презентации результатов, выводов и наработок офлайн.

Не смотря на то, что такой формат «на любителя», лично мне симпатизирует возможность получать обратную связь от широкой аудитории, не зашоренной узостью моих рабочих проблем и взглядов.

Расскажу про две библиотеки в Москве, которые без преувеличения относятся к самым передовым в нашей стране, в которых мною были предприняты попытки к выступлению с облегченной до восприятия неподготовленными слушателями темой, актуальной для ИТ-специалистов, при наличии презентации, желания пойти на встречу при наличии любых предложений, и у меня не получилось. Абсолютно ничего.

Куда ходить с презентацией не надо

dianteroph 23 июл в 06:16

Парсинг российских СМИ

Простой

14 мин

2.8K

Веб-аналитика * Открытые данные * Data Mining * Python *

Из песочницы

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг.

В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта. Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium.

empenoso 8 июл в 00:27

Нейросети как консультант: как я нашел и заказал ПК без подсветки для локальной работы с ИИ

Простой

8 мин

11K

Открытые данные * ГаджетыНастольные компьютерыКомпьютерное железоНастройка Linux *

Кейс

🛸 Космотекст

Внимание, знатоки! Если вы профессионально разбираетесь в компьютерном железе, тонкостях сборки или уже давно и активно используете локальные LLM (Large Language Models) эта статья может показаться вам слишком базовой. Мой путь - это взгляд обычного пользователя, который с помощью нейросетей решил для себя задачу найти и договориться о сборке ПК под конкретные нужды в условиях ограниченного бюджета и локации. Прошу не судить строго :)

Предыстория: зачем мне новый компьютер

Мой домашний компьютер - Microsoft Surface Pro 2020 года. Когда-то я даже писал о нём статью, но времена меняются: задачи усложнились, интерес к нейросетям растёт и мощности планшета больше не хватает.

Захотелось попробовать локально работать с нейросетями и у меня были требования к внешнему виду системного блока, чтобы вписать его в интерьер: белый корпус без RGB-подсветки.

Мои основные сценарии - офис, графика, CAD и попробовать локальные ИИ. Бюджет определил для себя 80 тыс. рублей или тысячу долларов. Монитор с 2K и 100 Гц уже был. Оставалась главная задача - найти сборщика в Перми и уложится в бюджет.

Собираем ПК с ИИ

120

ZeBrains_team 3 июл в 13:38

200 000+ снимков мусора: что мы узнали о датасетах

Простой

11 мин

1.8K

Big Data * Управление проектами * Искусственный интеллектМашинное обучение * Открытые данные *

Мнение

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю.

Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

2 3 ...

32 33

Открытые данные *

Хабр умирает, и это не кликбейт

Новости

Человек VS трихоплакс: так ли мало у нас общего?

Telegram-бот для дополнения базы знаний: автоматизация без разработчиков

Как мы (не) смогли посчитать вакантность жилья в Москве

Минцифры представит закон о доменах: аутентификация через Госуслуги и изъятие для госнужд

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Учебник под микроскопом. Часть 1: из PDF в TXT

Статистика футбольных матчей

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Как работает схема «1 ₽ за пробный период»

— Здравствуйте мошенники, это абитуриент, вам сказать код из СМС? — Нет, спасибо, мы сами

Социотехника против технологий: как я расследовал поддельные сервисы одного российского IT-гиганта

Ближайшие события

Создаем простого грид-бота для Московской биржи через QUIK и Python

Если нужно сгенерировать синтетические данные — подборка открытых решений

Поиск человека по фото: как найти информацию о человеке по одной фотографии

Обсуждение ИТ-тем офлайн. Равнодушные стражи общественных лекториев. Личный опыт

Парсинг российских СМИ

Нейросети как консультант: как я нашел и заказал ПК без подсветки для локальной работы с ИИ

200 000+ снимков мусора: что мы узнали о датасетах

Вклад авторов