Обновить
23.69

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.6K

Я обучил небольшую языковую модель, которая отвечает на дореформенном русском как человек из XIX века.

Рассказываю, как подготовил данные, собрал синтетический корпус, обучил tiny-LLM и опубликовал её в виде чат-бота.

Читать далѣе

Новости

Как забытый API-ключ открыл нам мир мошенников

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели21K

Сегодня история на грани техники, психологии и детектива. Расскажу о том, как мы (я и мой коллега) попали во внутренние чаты мошенников и что из этого вышло.

Читать далее

Тим Бернерс-Ли: как физик из ЦЕРН практически в одиночку написал три главных протокола, чтобы создать Интернет

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели32K

Имя британского инженера-программиста Тима Бернерса-Ли не так на слуху, как у современных IT-гигантов, но именно благодаря его труду интернет стал тем, чем он является сегодня. Он практически в одиночку разработал Всемирную паутину (World Wide Web, WWW) — инструмент, который по значимости стоит в одном ряду с изобретением печатного станка. Без новаторской работы Бернерса-Ли, которая произвела революцию в обмене информацией, все существующие веб-сайты просто не смогли бы работать.

Читать далее

Хабр умирает, и это не кликбейт

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели76K

Блуждая по Хабру, я всё чаще слышу один и тот же рефрен: «Хабр уже не тот». Статьи не набирают, интерес аудитории угас, а в кулуарах DevRel'ы жалуются, что «продвигаться стало невозможно». Но так ли это на самом деле? Или это классическая «раньше трава была зеленее»?

Читать далее

Человек VS трихоплакс: так ли мало у нас общего?

Время на прочтение6 мин
Охват и читатели4.9K

Привет, дорогой читатель! Представь: ты заходишь в здание, где в каждой лаборатории бьется ключом научная мысль, пытающаяся расшифровать главную загадку природы — наш собственный мозг. Именно так себя ощутили участники студенческого пресс-тура в Институт высшей нервной деятельности и нейрофизиологии (ИВНД и НФ) РАН.

Читать далее

Telegram-бот для дополнения базы знаний: автоматизация без разработчиков

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.9K

Чтоб сделать, чтобы базой знаний реально пользовались? Один из путей — дать возможность и наполнения, и получения ответов в привычном интерфейсе, без захода в дополнительные приложения.

Читать далее

Как мы (не) смогли посчитать вакантность жилья в Москве

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели6.3K

Летом прошлого года я в команде из шести человек поучаствовал в конкурсе «Исследуй город». Мы три месяца пытались оценить вакантность жилья в Москве, заняли предпоследнее место, а потом ещё год пробовали уже вне конкурса, на чистом энтузиазме, улучшить сделанное. Получилось все равно не очень, но отрицательный результат — тоже результат, поэтому делимся им: быть может, кто-то прочитает, вдохновится и сможет нас превзойти.

Читать далее

Минцифры представит закон о доменах: аутентификация через Госуслуги и изъятие для госнужд

Время на прочтение4 мин
Охват и читатели4.3K

Осенью в Госдуму направят на рассмотрение законопроект, который координально может изменить правила игры в российском интернете.

Привет Хабр! Продолжаем серию статей про законодательные инициативы, попробуем разобраться, что именно предлагают чиновники, и порассуждаем про последствия.

Читать далее

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.3K

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база «машин‑актёров» в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать далее

Учебник под микроскопом. Часть 1: из PDF в TXT

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.6K

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

Статистика футбольных матчей

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели6.6K

Недавно рассказывал о многомерном анализе данных временных рядов с помощью Dimension-UI, упоминая простой и удобный интерфейс для доступа к данным, гибкость, интерактивность и другие преимущества. Пришло время проверить, как это работает на практике. В качестве полигона для анализа мы используем статистику футбольных матчей: посмотрим данные по голам, детализированные по командам, статистику по счёту, а также сравним результативность в домашних и гостевых матчах.

Читать далее

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели4K

OpenAI представила результаты масштабного исследования, в котором более тысячи человек со всего мира оценивали поведение языковых моделей в этически сложных ситуациях. Это часть программы по так называемой «коллективной настройке» (collective alignment), цель которой — приблизить ответы ИИ к общественным ожиданиям.

Читать далее

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.8K

Привет, Хабр! Хочу поделиться своей историей того, как я пришла к GitHub Actions в попытках автоматизировать сбор аналитики для личного использования.

Статья будет полезна аналитикам, которые хотят автоматизировать сбор и анализ данных для своих небольших пет‑проектов.

Читать далее

Ближайшие события

Как работает схема «1 ₽ за пробный период»

Время на прочтение7 мин
Охват и читатели11K

Привет, Хабр!

А теперь представьте, что с вашей карты пытаются списать деньги 💸, даже если сайт уже не существует…

В этой статье хочу рассказать как я оформил “пробный доступ” за 1 ₽ - а спустя время начались попытки списать по 999 ₽. Рассказываю, как это устроено и что показала проверка открытых источников.

Читать далее

— Здравствуйте мошенники, это абитуриент, вам сказать код из СМС? — Нет, спасибо, мы сами

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели26K

Большинство вчерашних школьников, впервые сталкиваются с «госуслугами» при оформлении «заявлений на поступление». Данная статья будет полезна тем, кому «детское абитуриентство» предстоит в следующем году.

В этом году мне посчастливилось быть родителем абитуриента. Глядя на всю суету и волнение, еще весной сказал: «Будь я мошенником — взялся бы за абитуриентов.»
Но, как говорится: «Не один ты такой умный. Поумнее тебя есть, а в колл‑центрах сидят.»

В итоге, у ребенка увели эти самые «госуслуги».

Предвижу первый гневный комментарий: «Он сам сказал код из СМС!!!»

А вот и нет

Социотехника против технологий: как я расследовал поддельные сервисы одного российского IT-гиганта

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели8.7K

IT-гиганты и мошенники — две руки одного источника? Человеческий фактор превращает доверие в уязвимость.

Читать далее

Создаем простого грид-бота для Московской биржи через QUIK и Python

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели18K

Алгоритмическая торговля на Московской бирже с помощью терминала QUIK остаётся популярным способом автоматизировать стратегии. В этой статье мы напишем грид-бота, который выставляет ордера сеткой вокруг текущей цены и зарабатывает на колебаниях.

Читать далее

Если нужно сгенерировать синтетические данные — подборка открытых решений

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.1K

Про снижение расходов на работу с данными расскажем 13 августа на вебинаре. А сегодня мы поговорим об открытых инструментах, которые открывают новые возможности для экспериментов и работы с ML. Далее в подборке четыре решения по теме — разбираем их возможности и примеры использования.

Читать далее

Поиск человека по фото: как найти информацию о человеке по одной фотографии

Время на прочтение4 мин
Охват и читатели223K

Приветствуем дорогих читателей! В этой статье мы детально рассмотрим все аспекты поиска информации о человеке по фотографии, уделив особое внимание трем основным направлениям. Речь пойдет о возможностях поисковых систем, которые многие недооценивают, хотя они могут дать неожиданно точные данные при правильном использовании. Мы разберем специализированные онлайн‑сервисы, работающие на основе нейросетей и сложных алгоритмов распознавания лиц. Отдельное внимание уделим Telegram‑ботам, которые сочетают в себе удобство мобильного использования с мощными поисковыми технологиями. Эти инструменты помогут вам получить данные о персоне, включая имя, телефон и другую полезную информацию.

Вы узнаете не только о технических возможностях каждого метода, но и о практических нюансах их применения. Мы расскажем, как добиться максимальной точности поиска данных и какие параметры фотографии влияют на результат.

Читать далее

Обсуждение ИТ-тем офлайн. Равнодушные стражи общественных лекториев. Личный опыт

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели670

Один из вариантов обмена опытом и знаниями – это презентации результатов, выводов и наработок офлайн.

Не смотря на то, что такой формат «на любителя», лично мне симпатизирует возможность получать обратную связь от широкой аудитории, не зашоренной узостью моих рабочих проблем и взглядов.

Расскажу про две библиотеки в Москве, которые без преувеличения относятся к самым передовым в нашей стране, в которых мною были предприняты попытки к выступлению с облегченной до восприятия неподготовленными слушателями темой, актуальной для ИТ-специалистов, при наличии презентации, желания пойти на встречу при наличии любых предложений, и у меня не получилось. Абсолютно ничего.

Куда ходить с презентацией не надо
1
23 ...