Как стать автором
Обновить
21.05

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор недавно выпущенной модели Evo для анализа геномных данных

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.1K

Давайте представим, что вы начинающий или опытный биоинформатик, или "простой смертный", который хочет углубиться в анализ биологических данных. Спойлер: биоинформатики тоже смертные! Зачастую, не у каждого хватает ценного времени на проверку огромных последовательностей геномных данных, будь то поиск различных мутаций или прогнозирование структуры белков на основе последовательности аминокислот.

Но не переживайте, в этом вам поможет искусственный интеллект! Да, тот самый ИИ, который чуть ли не через каждую минуту обещает изменить мир и избавить нас от всех проблем — от покупки продуктов до поиска идеальных генетических маркеров для рака. Так вот, давайте разберемся, как ИИ может помочь нам, бедным исследователям, быстро и эффективно работать с данными, которые, казалось бы, невозможно обработать, даже за целую жизнь.

Читать далее

Новости

Коронавирус: долгожданное извержение правды

Время на прочтение5 мин
Количество просмотров34K

Комитет Палаты представителей США опубликовал 520-страничный отчёт по COVID-19. И это, конечно, нега для людей, на которых в период пандемии навесили ярлык ковид-диссидента. Тобишь для таких как я. Итак, прямые цитаты из анонса на сайте американского правительства...

Про мандаты на маски: «не было убедительных доказательств того, что маски эффективно защищают американцев от COVID-19. Должностные лица органов здравоохранения наперебой рассказывали об эффективности масок, не предоставляя американцам научных данных, что вызвало массовый рост общественного недоверия».

Про социальную изоляцию:  «рекомендация по социальной дистанции "6 футов друг от друга", из-за которой по всей стране закрывались школы и малые предприятия, была произвольной и не основанной на научных данных. Во время дачи показаний за закрытыми дверями доктор Фаучи заявил, что руководство "как бы просто появилось"».

Про запретительные меры: «длительные локдауны нанесли неизмеримый ущерб не только американской экономике, но и психическому, а также физическому здоровью американцев, особенно негативно сказавшись на молодых гражданах. Вместо того чтобы уделять первостепенное внимание защите наиболее уязвимых слоев населения, политика федеральных властей и властей штатов вынудила миллионы американцев отказаться от важнейших элементов здоровой и финансово обеспеченной жизни».

Про цензуру: «представители органов здравоохранения распространяли дезинформацию, используя противоречивые сообщения, поспешные реакции и отсутствие прозрачности. Администрация Байдена даже использовала недемократические и, скорее всего, неконституционные методы — в том числе заставляла компании социальных сетей цензурировать определенный контент COVID-19 — для борьбы с тем, что она считала дезинформацией».

Читать далее

Когда «тихая» ДНК громче гена: как избыточная ДНК регулирует экспрессию, ничего не делая

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.1K

Мир биоинформатики полон загадок: что такое избыточная ДНК, почему она занимает половину генома, и как это вообще работает? Кому-то может показаться, что некодирующая ДНК — это просто «балласт», но на деле это, как если бы в вашем коде была сложная инфраструктура, которая отвечает за оптимизацию и поддержание всей системы.

Сегодня мы с вами разберёмся, как эта загадочная некодирующая ДНК умудряется контролировать экспрессию генов, ничего при этом не кодируя. А чтобы вы не заскучали, добавим капельку Python, ведь кода много не бывает!

Читать далее

Качественные данные для среднего бизнеса: почему без промышленной платформы интеграции не обойтись?

Время на прочтение5 мин
Количество просмотров341

Качество данных и его значение для среднего бизнеса. Что такое качество данных? Почему качество данных так важно для среднего бизнеса? Кто относится к среднему бизнесу в России? Основные риски низкого качества данных. Основные рекомендации по выбору решений.

Читать далее

Истории

Универсальный классификатор НСИ- правда или фантастика?

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров647

Управление НСИ — оптимизация рабочих процессов. Основные задачи НСИ. Прикладные задачи. Классификация номенклатуры. Методы классификации НСИ. Основные критерии.

Читать далее

Индекс цифровой эволюции как способ измерения уровня цифровизации экономики в разных странах

Время на прочтение6 мин
Количество просмотров1.9K

Одним из таких способов стал подсчет индекса цифровой эволюции (Digital Evolution Index), созданного Школой права и дипломатии им. Флетчера (Университет Тафтса, США) совместно с Mastercard. На основании полученных данных страны мира были разделены на четыре траекторных зоны и проранжированы от большего значения индекса цифровой эволюции к меньшему. Различные рейтинги могут формировать мнение людей и выступать мощным оружием в информационных войнах, поэтому важно понимать, кто, как и для чего составляет эти рейтинги.

Читать далее

Эволюция платежных систем: полный технический мануал по цифровому рублю

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров5.4K

Структурированная техническая и юридическая информация про "Цифровой рубль".
Вся документация в одном месте.

3 уровня вложенности данных:
менеджер, разработчик, эксперт.

Никакой воды - только факты.
Никаких "сказок" из СМИ.

Читать далее

Где эта улица, где этот дом?.. Какие несостыковки и почему можно найти в ГАР и других адресных сервисах

Время на прочтение5 мин
Количество просмотров1.1K

Привет, Хабр! Мы в HFLabs не унываем продолжаем исследовать тему российских адресов. Уже рассказывали о том, почему нельзя просто взять и выгрузить список городов из Государственного адресного реестра (ГАР), и разбирались, что представляет собой нормативка по адресам. 

А сегодня я расскажу, как один и тот же объект может иметь различные написания адреса. Такие разночтения заставляют делать ручной разбор адресов, а в некоторых случаях и вовсе рушат аналитику. Дальше будет о том, в чём причина и что с этим делать. 

Читать далее

Проблема преобразований муниципалитетов для аналитиков: как мы упорядочили хаос

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2.5K

Анализ данных на уровне муниципалитетов осложняется преобразованиями структуры территориальных единиц: меняются не только границы, но и типы муниципалитетов, названия, код ОКТМО. Это нужно учитывать в ходе исследований и при использовании информации, например, при работе с Базой данных показателей муниципальных образований Росстата. Открытых машиночитаемых данных о таких преобразованиях нет.

Меня зовут Артём Кушлевич, я геоаналитик из команды СберИндекса. В этой статье расскажу, о каких нюансах муниципальных данных нужно знать аналитикам, как мы сделали пространственный слой муниципалитетов с историей версий и разработали справочник преобразований, который можно использовать для построения непрерывных временных рядов. Эта информация может помочь:

— геоаналитикам, заинтересованным в данных о границах муниципальных образований;

— исследователям, которые работают с муниципальными данными (в первую очередь с Базой данных показателей муниципальных образований Росстата (БДПМО));

— при проектировании БДПМО 2.0.

Читать далее

Оголяем «данные» и что из этого вышло

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1K

Однажды я задался целью создать устройство, которое измеряло бы качество воздуха — не просто как-то, а с высокой точностью. Проект по разработке устройства привел к созданию NeboAir — недорогого датчика, который претендует на высокую точность. В этом материале я расскажу об испытаниях в реальных условиях и о том, что получилось в итоге.

Читать далее

OSINT: расследование выброса спор сибирской язвы

Время на прочтение8 мин
Количество просмотров3K

Узнать истину, пролить свет на таинственные прошлые события и разгадать сложные загадки – вот что вдохновляет OSINT-исследователей. Одним из таких загадочных событий является выброс спор сибирской язвы в Свердловске. 

— Этот инфекционный всплеск привел к смерти множества невинных жизней, оставив за собой множество неотвеченных вопросов. Однако, благодаря методам OSINT у нас есть возможность проникнуть в мир детективных расследований и разгадать тайну...

Читать далее

Что представляет собой нормативная база по адресам в России: краткий обзор

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Эта история началась с того, что мы обнаружили, что типа «литера» нет в нормативке типов домовых частей. Но, согласно справочнику ГАР, у многих домов в Питере литеры есть. Мы решили спросить у ФНС, как так получилось. 

И ФНС нам ответила (что именно — читайте в статье). А дальше мы решили разобраться, какие ещё нормативные документы по адресам существуют и чем они могут быть полезны.

Читать далее

LIBRA: Long Input Benchmark for Russian Analysis

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.1K

Мы разработали бенчмарк LIBRA, который включает в себя 21 адаптированный набор данных для тщательного изучения способности LLM понимать длинный контекст. Помимо самих данных для оценки, мы опубликовали кодовую базу и лидерборд для сравнения моделей.

Читать далее

Ближайшие события

2 – 18 декабря
Yandex DataLens Festival 2024
МоскваОнлайн
11 – 13 декабря
Международная конференция по AI/ML «AI Journey»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Быстрая оценка эффекта рекламы/события на ключевые показатели: Python + Causal Impact

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.1K

Приветствую, меня зовут Владислав Поляков, я аналитик данных в Сбербанке. Сегодня я хочу поделиться, пожалуй, самым простым и быстрым способом оценки эффекта рекламы/события на ключевые показатели. Способ заключается в использовании библиотеки pycausalimpact для Python. Документация к библиотеке.

Вводные:

Данные: Данные ЦБ РФ по ключевой ставке и объему выданных кредитов с 2013 года.

Что будем оценивать?: Как повышение ключевой ставки повлияло на объем выданных кредитов.

Как будем оценивать?: С помощью библиотеки pycausalimpact для Python

Читать далее

Парсинг Telegram-канала: Извлечение id комментаторов. Python + Telethon

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров8K

Список подписчиков тг‑канала часто представляет собою священную тайну и просто так никто не станет делиться паствой трафиком. Поэтому получить конкретный список людей сложно, но вот комментаторов под постами никто не скрывает (возможно ли это?).

В статье приведён и разобран (полный и рабочий) скрипт, позволяющий автоматизированно собирать простую статистику о тг‑канале: список id комментаторов с соответствующими количествами комментариев от каждого.

Читать далее

50+ источников с исследованиями и статистикой для фактчекинга

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2K

Подборка сайтов, которая поможет собрать «мясо» для своей статьи и сделать её убедительной, а также проверить факты в чужих публикациях.

Читать далее

Создание цифровой модели рельефа (DEM) по открытым данным

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.8K

Построение цифровой модели рельефа (DEM) с использованием открытого программного обеспечения PyGMTSAR (Python InSAR) является ярким примером технология, которая выглядит настоящей магией. Действительно, для создания спутникового DEM требуется всего один клик. Указанный пример и многие другие интерактивные примеры InSAR с 3D визуализацией доступны на Google Colab, в Docker образах и даже на GitHub Actions на https://InSAR.dev

Читать далее

Простыми словами про метрики в ИИ. Классификация. Confusion matrix, Accuracy, Precision, Recall, F-score, ROC-AUC

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.6K

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я расскажу про метрики классификации! Само собой, в интернете очень много материала про эти метрики, но я попробую описать их максимально простым языком с простыми примерами.

Зачем вообще нужны метрики в моделях ИИ? Чаще всего их используют, чтобы сравнивать модели между собой, абстрагируясь от бизнес метрик. Если вы будете смотреть только на бизнес-метрики (например, NPS клиентов или выручка), то можете упустить из-за чего реально произошло снижение или повышение показателей вашего бизнеса. Например, вы сделали новую версию модели лучше предыдущей (метрики модели лучше), но в то же самое время пришёл экономический кризис и люди перестали покупать ваш продукт (упала выручка). Если бы в этой ситуации вы не замеряли показатели модели, то могли бы подумать, что из-за новой версии модели упала выручка, хотя упала она не из-за модели. Пример довольно простой, но хорошо описывает почему нужно разделять метрики модели и бизнеса.

Для начала надо сказать, что метрики моделей бывают двух типов в зависимости от решаемой задачи:

1. Классификации - это когда вы предсказываете к чему именно относится то или иное наблюдение. Например, перед вами картинка и вы должны понять, что на ней, а ответа может быть три: это либо собачка, либо кошечка, либо мышка.

К одному из под-методов классификации относится бинарная классификация: либо единичка, либо нолик. То есть мы предсказываем либо перед нами кошечка, либо это не кошечка.

Читать далее

Базы данных простыми словами

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров8.4K

Привет, Хабр!
Это статья больше для начинающих или любознательных, тут я постарался простыми словами объяснить что же такое эта база данных и для чего они используются на проектах.

Читать далее

Почему нельзя взять и просто выгрузить список городов из адресной системы?

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров3.8K

Под словом «город» люди представляют определенный тип населённого пункта. Но у адресных систем своё мнение на этот счёт. Поэтому когда к нам пришёл заказчик и попросил выгрузить список всех городов в РФ, мы сильно напряглись и попросили уточнить, что он имеет в виду. Если думаете, что наш вопрос — странный, значит, вы никогда не имели дела с адресными системами. 

Читать далее
1
23 ...