Обновить
72.59

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Хабр умирает, и это не кликбейт

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров76K

Блуждая по Хабру, я всё чаще слышу один и тот же рефрен: «Хабр уже не тот». Статьи не набирают, интерес аудитории угас, а в кулуарах DevRel'ы жалуются, что «продвигаться стало невозможно». Но так ли это на самом деле? Или это классическая «раньше трава была зеленее»?

Читать далее

Новости

Человек VS трихоплакс: так ли мало у нас общего?

Время на прочтение6 мин
Количество просмотров513

Привет, дорогой читатель! Представь: ты заходишь в здание, где в каждой лаборатории бьется ключом научная мысль, пытающаяся расшифровать главную загадку природы — наш собственный мозг. Именно так себя ощутили участники студенческого пресс-тура в Институт высшей нервной деятельности и нейрофизиологии (ИВНД и НФ) РАН.

Читать далее

Telegram-бот для дополнения базы знаний: автоматизация без разработчиков

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.2K

Чтоб сделать, чтобы базой знаний реально пользовались? Один из путей — дать возможность и наполнения, и получения ответов в привычном интерфейсе, без захода в дополнительные приложения.

Читать далее

Как мы (не) смогли посчитать вакантность жилья в Москве

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.4K

Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.

Читать далее

Минцифры представит закон о доменах: аутентификация через Госуслуги и изъятие для госнужд

Время на прочтение4 мин
Количество просмотров2.5K

Осенью в Госдуму направят на рассмотрение законопроект, который координально может изменить правила игры в российском интернете.

Привет Хабр! Продолжаем серию статей про законодательные инициативы, попробуем разобраться, что именно предлагают чиновники, и порассуждаем про последствия.

Читать далее

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров936

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база «машин‑актёров» в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать далее

Учебник под микроскопом. Часть 1: из PDF в TXT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.7K

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

Статистика футбольных матчей

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.9K

Недавно рассказывал о многомерном анализе данных временных рядов с помощью Dimension-UI, упоминая простой и удобный интерфейс для доступа к данным, гибкость, интерактивность и другие преимущества. Пришло время проверить, как это работает на практике. В качестве полигона для анализа мы используем статистику футбольных матчей: посмотрим данные по голам, детализированные по командам, статистику по счёту, а также сравним результативность в домашних и гостевых матчах.

Читать далее

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.1K

OpenAI представила результаты масштабного исследования, в котором более тысячи человек со всего мира оценивали поведение языковых моделей в этически сложных ситуациях. Это часть программы по так называемой «коллективной настройке» (collective alignment), цель которой — приблизить ответы ИИ к общественным ожиданиям.

Читать далее

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.1K

Привет, Хабр! Хочу поделиться своей историей того, как я пришла к GitHub Actions в попытках автоматизировать сбор аналитики для личного использования.

Статья будет полезна аналитикам, которые хотят автоматизировать сбор и анализ данных для своих небольших пет‑проектов.

Читать далее

Как работает схема «1 ₽ за пробный период»

Время на прочтение7 мин
Количество просмотров9.6K

Привет, Хабр!

А теперь представьте, что с вашей карты пытаются списать деньги 💸, даже если сайт уже не существует…

В этой статье хочу рассказать как я оформил “пробный доступ” за 1 ₽ - а спустя время начались попытки списать по 999 ₽. Рассказываю, как это устроено и что показала проверка открытых источников.

Читать далее

— Здравствуйте мошенники, это абитуриент, вам сказать код из СМС? — Нет, спасибо, мы сами

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров25K

Большинство вчерашних школьников, впервые сталкиваются с «госуслугами» при оформлении «заявлений на поступление». Данная статья будет полезна тем, кому «детское абитуриентство» предстоит в следующем году.

В этом году мне посчастливилось быть родителем абитуриента. Глядя на всю суету и волнение, еще весной сказал: «Будь я мошенником — взялся бы за абитуриентов.»
Но, как говорится: «Не один ты такой умный. Поумнее тебя есть, а в колл‑центрах сидят.»

В итоге, у ребенка увели эти самые «госуслуги».

Предвижу первый гневный комментарий: «Он сам сказал код из СМС!!!»

А вот и нет

Социотехника против технологий: как я расследовал поддельные сервисы одного российского IT-гиганта

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.6K

IT-гиганты и мошенники — две руки одного источника? Человеческий фактор превращает доверие в уязвимость.

Читать далее

Ближайшие события

Создаем простого грид-бота для Московской биржи через QUIK и Python

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров14K

Алгоритмическая торговля на Московской бирже с помощью терминала QUIK остаётся популярным способом автоматизировать стратегии. В этой статье мы напишем грид-бота, который выставляет ордера сеткой вокруг текущей цены и зарабатывает на колебаниях.

Читать далее

Если нужно сгенерировать синтетические данные — подборка открытых решений

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2K

Про снижение расходов на работу с данными расскажем 13 августа на вебинаре. А сегодня мы поговорим об открытых инструментах, которые открывают новые возможности для экспериментов и работы с ML. Далее в подборке четыре решения по теме — разбираем их возможности и примеры использования.

Читать далее

Поиск человека по фото: как найти информацию о человеке по одной фотографии

Время на прочтение4 мин
Количество просмотров224K

Приветствуем дорогих читателей! В этой статье мы детально рассмотрим все аспекты поиска информации о человеке по фотографии, уделив особое внимание трем основным направлениям. Речь пойдет о возможностях поисковых систем, которые многие недооценивают, хотя они могут дать неожиданно точные данные при правильном использовании. Мы разберем специализированные онлайн‑сервисы, работающие на основе нейросетей и сложных алгоритмов распознавания лиц. Отдельное внимание уделим Telegram‑ботам, которые сочетают в себе удобство мобильного использования с мощными поисковыми технологиями. Эти инструменты помогут вам получить данные о персоне, включая имя, телефон и другую полезную информацию.

Вы узнаете не только о технических возможностях каждого метода, но и о практических нюансах их применения. Мы расскажем, как добиться максимальной точности поиска данных и какие параметры фотографии влияют на результат.

Читать далее

Обсуждение ИТ-тем офлайн. Равнодушные стражи общественных лекториев. Личный опыт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров478

Один из вариантов обмена опытом и знаниями – это презентации результатов, выводов и наработок офлайн.

Не смотря на то, что такой формат «на любителя», лично мне симпатизирует возможность получать обратную связь от широкой аудитории, не зашоренной узостью моих рабочих проблем и взглядов.

Расскажу про две библиотеки в Москве, которые без преувеличения относятся к самым передовым в нашей стране, в которых мною были предприняты попытки к выступлению с облегченной до восприятия неподготовленными слушателями темой, актуальной для ИТ-специалистов, при наличии презентации, желания пойти на встречу при наличии любых предложений, и у меня не получилось. Абсолютно ничего.

Куда ходить с презентацией не надо

Парсинг российских СМИ

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров2.8K

В эпоху больших языковых моделей полноценный сбор информации с сайтов все еще не самый очевидный сценарий, требующий учета многих мелких деталей, а также понимания принципов работы сайта и взаимодействия с ним. В этом случае единственный оптимальный метод сбора такой информации - это парсинг.

В данной статье мы сфокусируемся на парсинге сайтов российских СМИ, в числе которых Meduza,* как официально запрещенное в РФ и более государственно-подконтрольных RussiaToday и Коммерсанта. Разберемся какой это сделать наиболее эффективно и получим текст и метаданные статей. Как основные инструменты используем классические библиотеки в Python: requests, BeautifulSoup, Selenium.

Читать далее

Нейросети как консультант: как я нашел и заказал ПК без подсветки для локальной работы с ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров11K

Внимание, знатоки! Если вы профессионально разбираетесь в компьютерном железе, тонкостях сборки или уже давно и активно используете локальные LLM (Large Language Models) эта статья может показаться вам слишком базовой. Мой путь - это взгляд обычного пользователя, который с помощью нейросетей решил для себя задачу найти и договориться о сборке ПК под конкретные нужды в условиях ограниченного бюджета и локации. Прошу не судить строго :)

Предыстория: зачем мне новый компьютер

Мой домашний компьютер - Microsoft Surface Pro 2020 года. Когда-то я даже писал о нём статью, но времена меняются: задачи усложнились, интерес к нейросетям растёт и мощности планшета больше не хватает.

Захотелось попробовать локально работать с нейросетями и у меня были требования к внешнему виду системного блока, чтобы вписать его в интерьер: белый корпус без RGB-подсветки.

Мои основные сценарии - офис, графика, CAD и попробовать локальные ИИ. Бюджет определил для себя 80 тыс. рублей или тысячу долларов. Монитор с 2K и 100 Гц уже был. Оставалась главная задача - найти сборщика в Перми и уложится в бюджет.

Собираем ПК с ИИ

200 000+ снимков мусора: что мы узнали о датасетах

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.8K

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

В процессе разработки MARQUS мы столкнулись с задачей — найти или собрать подходящие датасеты, так как без них эффективность нейронной сети резко снижается, если вообще приближается к нулю.

Мы перепробовали множество подходов, пересмотрели доступные датасеты с готовой разметкой и потратили достаточное количество времени и денег, чтобы честно признаться — на обучении нейронок сэкономить не получится, но обо всем по порядку.

Читать далее
1
23 ...