Все потоки
Поиск
Написать публикацию
Обновить
1.55

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы (не) смогли посчитать вакантность жилья в Москве

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2.6K

Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.

Читать далее

Новости

Минцифры представит закон о доменах: аутентификация через Госуслуги и изъятие для госнужд

Время на прочтение4 мин
Количество просмотров2.3K

Осенью в Госдуму направят на рассмотрение законопроект, который координально может изменить правила игры в российском интернете.

Привет Хабр! Продолжаем серию статей про законодательные инициативы, попробуем разобраться, что именно предлагают чиновники, и порассуждаем про последствия.

Читать далее

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров886

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база «машин‑актёров» в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать далее

Учебник под микроскопом. Часть 1: из PDF в TXT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.5K

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

Статистика футбольных матчей

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.8K

Недавно рассказывал о многомерном анализе данных временных рядов с помощью Dimension-UI, упоминая простой и удобный интерфейс для доступа к данным, гибкость, интерактивность и другие преимущества. Пришло время проверить, как это работает на практике. В качестве полигона для анализа мы используем статистику футбольных матчей: посмотрим данные по голам, детализированные по командам, статистику по счёту, а также сравним результативность в домашних и гостевых матчах.

Читать далее

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.1K

OpenAI представила результаты масштабного исследования, в котором более тысячи человек со всего мира оценивали поведение языковых моделей в этически сложных ситуациях. Это часть программы по так называемой «коллективной настройке» (collective alignment), цель которой — приблизить ответы ИИ к общественным ожиданиям.

Читать далее

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.9K

Привет, Хабр! Хочу поделиться своей историей того, как я пришла к GitHub Actions в попытках автоматизировать сбор аналитики для личного использования.

Статья будет полезна аналитикам, которые хотят автоматизировать сбор и анализ данных для своих небольших пет‑проектов.

Читать далее

Как работает схема «1 ₽ за пробный период»

Время на прочтение7 мин
Количество просмотров9.3K

Привет, Хабр!

А теперь представьте, что с вашей карты пытаются списать деньги 💸, даже если сайт уже не существует…

В этой статье хочу рассказать как я оформил “пробный доступ” за 1 ₽ - а спустя время начались попытки списать по 999 ₽. Рассказываю, как это устроено и что показала проверка открытых источников.

Читать далее

— Здравствуйте мошенники, это абитуриент, вам сказать код из СМС? — Нет, спасибо, мы сами

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров25K

Большинство вчерашних школьников, впервые сталкиваются с «госуслугами» при оформлении «заявлений на поступление». Данная статья будет полезна тем, кому «детское абитуриентство» предстоит в следующем году.

В этом году мне посчастливилось быть родителем абитуриента. Глядя на всю суету и волнение, еще весной сказал: «Будь я мошенником — взялся бы за абитуриентов.»
Но, как говорится: «Не один ты такой умный. Поумнее тебя есть, а в колл‑центрах сидят.»

В итоге, у ребенка увели эти самые «госуслуги».

Предвижу первый гневный комментарий: «Он сам сказал код из СМС!!!»

А вот и нет

Социотехника против технологий: как я расследовал поддельные сервисы одного российского IT-гиганта

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.6K

IT-гиганты и мошенники — две руки одного источника? Человеческий фактор превращает доверие в уязвимость.

Читать далее

Создаем простого грид-бота для Московской биржи через QUIK и Python

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров13K

Алгоритмическая торговля на Московской бирже с помощью терминала QUIK остаётся популярным способом автоматизировать стратегии. В этой статье мы напишем грид-бота, который выставляет ордера сеткой вокруг текущей цены и зарабатывает на колебаниях.

Читать далее

Если нужно сгенерировать синтетические данные — подборка открытых решений

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Про снижение расходов на работу с данными расскажем 13 августа на вебинаре. А сегодня мы поговорим об открытых инструментах, которые открывают новые возможности для экспериментов и работы с ML. Далее в подборке четыре решения по теме — разбираем их возможности и примеры использования.

Читать далее

Поиск человека по фото: как найти информацию о человеке по одной фотографии

Время на прочтение4 мин
Количество просмотров158K

Приветствуем дорогих читателей! В этой статье мы детально рассмотрим все аспекты поиска информации о человеке по фотографии, уделив особое внимание трем основным направлениям. Речь пойдет о возможностях поисковых систем, которые многие недооценивают, хотя они могут дать неожиданно точные данные при правильном использовании. Мы разберем специализированные онлайн‑сервисы, работающие на основе нейросетей и сложных алгоритмов распознавания лиц. Отдельное внимание уделим Telegram‑ботам, которые сочетают в себе удобство мобильного использования с мощными поисковыми технологиями. Эти инструменты помогут вам получить данные о персоне, включая имя, телефон и другую полезную информацию.

Вы узнаете не только о технических возможностях каждого метода, но и о практических нюансах их применения. Мы расскажем, как добиться максимальной точности поиска данных и какие параметры фотографии влияют на результат.

Читать далее

Ближайшие события

Обсуждение ИТ-тем офлайн. Равнодушные стражи общественных лекториев. Личный опыт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров473

Один из вариантов обмена опытом и знаниями – это презентации результатов, выводов и наработок офлайн.

Не смотря на то, что такой формат «на любителя», лично мне симпатизирует возможность получать обратную связь от широкой аудитории, не зашоренной узостью моих рабочих проблем и взглядов.

Расскажу про две библиотеки в Москве, которые без преувеличения относятся к самым передовым в нашей стране, в которых мною были предприняты попытки к выступлению с облегченной до восприятия неподготовленными слушателями темой, актуальной для ИТ-специалистов, при наличии презентации, желания пойти на встречу при наличии любых предложений, и у меня не получилось. Абсолютно ничего.

Куда ходить с презентацией не надо

Парсинг российских СМИ

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров2.6K

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг.

В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта. Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium.

Читать далее

Нейросети как консультант: как я нашел и заказал ПК без подсветки для локальной работы с ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров10K

Внимание, знатоки! Если вы профессионально разбираетесь в компьютерном железе, тонкостях сборки или уже давно и активно используете локальные LLM (Large Language Models) эта статья может показаться вам слишком базовой. Мой путь - это взгляд обычного пользователя, который с помощью нейросетей решил для себя задачу найти и договориться о сборке ПК под конкретные нужды в условиях ограниченного бюджета и локации. Прошу не судить строго :)

Предыстория: зачем мне новый компьютер

Мой домашний компьютер - Microsoft Surface Pro 2020 года. Когда-то я даже писал о нём статью, но времена меняются: задачи усложнились, интерес к нейросетям растёт и мощности планшета больше не хватает.

Захотелось попробовать локально работать с нейросетями и у меня были требования к внешнему виду системного блока, чтобы вписать его в интерьер: белый корпус без RGB-подсветки.

Мои основные сценарии - офис, графика, CAD и попробовать локальные ИИ. Бюджет определил для себя 80 тыс. рублей или тысячу долларов. Монитор с 2K и 100 Гц уже был. Оставалась главная задача - найти сборщика в Перми и уложится в бюджет.

Собираем ПК с ИИ

200 000+ снимков мусора: что мы узнали о датасетах

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.7K

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю.

Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

Читать далее

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.8K

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

Читать далее

Доморощенный OSINT для соискателя. Краткая инструкция

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров13K

Это всё о том, сколько чудесного и неожиданного можно узнать о потенциальном работодателе из открытых данных, и что делать, чтобы не проработать месяц-два бесплатно и не обмануться с другими ожиданиями. Спойлер: увидеть можно многое — от потенциального банкротства компании до дела о мошенничестве. 

Никто из работодателей не напишет на сайте или в описании вакансии: «Ну да, так-то у нас иногда кассовые разрывы бывают, но мы тут держимся». Вместо этого будет: «Мы — признанные лидеры там-то и сям-то, нам доверяют, мы меняем мир, мы —  динамично развивающаяся компания с сильным корпоративным духом (да, такие описания и кислотой не вытравить) и прочие «выше нас только горы». 

Самое замечательное может начаться, если найти 10-15 минут времени и всмотреться в эту бездну успеха. 

Где и что искать

Продолжение археологии трейдинга: 2016–2020 годы по материалам S&C

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.3K

Это четвёртая часть цикла об идеях из Technical Analysis of STOCKS & COMMODITIES. Мы уже прошлись по 2001-2005, 2006-2010, 2011–2015. Теперь период 2016-2020 годы, когда трейдеры постепенно адаптируются к новым реалиям рынка. Появляются роботы, но и индикаторы никуда не деваются - они обновляются и перерабатываются.

Читать далее
1
23 ...