
Data Mining *
Глубинный анализ данных
Оффер за 2 дня в X5: для Data Analyst/Data Scientist

Если ваш конёк — работа с большими данными, приглашаем на Weekend Offer в X5 Group.
Мы сокращаем дистанцию до двух дней: 6-го июня интервью, 7-го июня оффер.
Откликнуться можно тут https://your.gms.tech/v/v6xoYc1w?tg=apply&s=tg
Как победить букмекеров с помощью ИИ: опыт студентов магистратуры «Наука о данных»

Привет, Хабр! Сегодня хотим представить вам проект студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с университетами) созданный на учебном "Межгалактическом Хакатоне 2021", который прошел в марте. Команда поделится решением выбранной задачи — предсказание победителя-бойца турнира UFC. Задача отличалась от прочих тем, что после написания модели из неё можно сделать целый продукт, оформив модель в приложение, готовое к использованию конечными пользователями, например теми, кто захочет обыграть букмекеров.
Data-driven митап

X5 выходит на тропу митапов. 2 апреля приходите на онлайн #meetupХ5 по data-driven подходу в наших проектах. Обещаем – все только самое интересное и эксклюзивное от самых главных спецов Big Data X5. С соблюдением дистанции, но с широким виртуальным охватом спикеры Х5 не только поговорят о последних разработках Х5, но и ответят на ваши вопросы.
«Большие данные: не хайп, а индустрия». Митап 1 марта
Приглашаем на митап «Большие данные: не хайп, а индустрия» в понедельник 1 марта. Спикеры из ITSumma и Слёрма представят доклады о Big Data, ответят на вопросы участников. Будем говорить о том, как получать и обрабатывать большие данные, какие выгоды и инсайты сможет получить бизнес при правильной работе с данными и какая обработка данных принесёт вред компании.
Telegram объявил два новых конкурса для разработчиков
В рамках конкурса на кластеризацию данных участникам предлагается создать библиотеку на C/C++ для определения языка и тематики каналов.
Во время пандемии COVID-19 в онлайн-магазинах снизились оценки ароматических свечей

Сравнение средней оценки ароматических свечей (выделено цветом) и свечей без запаха на Amazon.com. Пунктирная вертикальная линия показывает первый выявленный случай COVID-19 на территории США. График Washington Post.
Основной нейрологический симптом новой коронавирусной инфекции — это аносмия. Исследования показывают, что потеря обоняния предсказывает заболевание лучше, чем другие известные симптомы, к примеру, кашель или повышенная температура тела. Как и всё связанное с заболеванием, механизм, который заставляет терять способность различать запахи, исследован лишь частично. Но уже известно, что коронавирусная инфекция в большинстве случаев затрагивает не нейроны обоняния, а вспомогательные клетки, поэтому поражение не долгосрочное. Это могут подтвердить и сами переболевшие, которые постепенно вновь начинают чувствовать запахи.
«Вымпелком» выполнит дата-майнинг своих абонентов по заказу любого клиента
Соответствующую услугу предоставляет компания «Билайн бизнес», подразделение «Вымплекома». Сейчас сервис экспресс-аналитики Big Data в демонстрационных целях открыт бесплатно.
Принят закон об электронных досье на жителей России

Центр обработки данных № 1 ФНС (Городец)
Госдума приняла в третьем чтении законопроект № 759897-7 «О едином федеральном информационном регистре, содержащем сведения о населении Российской Федерации». Каждому гражданину присвоят уникальный неизменяемый номер, а всю информацию сконцентрируют в одной базе: так удобнее, считает правительство.
Федеральный закон «устанавливает правовые основы формирования и ведения единого Регистра, в том числе сбора, обработки, хранения, получения, использования и защиты указанных сведений, а также гармонизации государственных и муниципальных информационных ресурсов, содержащих сведения о населении Российской Федерации».
В связи с постоянными и массовыми утечками персональных данных из разных государственных БД создание единого реестра позволяет уверенно предположить, что количество таких утечек уменьшится — ведь информация теперь будет сконцентрирована в одном месте и достаточно будет одной утечки. В общую базу сведут примерно 30 показателей из 12 ведомств (среди них ЗАГСы, МВД, Пенсионный фонд и другие).
Поисковик Google по датасетам вышел из беты

Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.
Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
В России резко вырос спрос на специалистов по данным и машинному обучению

Академия больших данных MADE и HeadHunter опубликовали совместное исследование «Портрет российского Data Scientist» со статистикой вакансий для специалистов этой профессии в 2015−2019 годы.
Судя по цифрам, рынок переживает настоящий бум. В 2018 году количество вакансий с упоминанием специальности data scientist выросло в семь раз по сравнению с 2015 годом, а вакансий с ключевыми словами machine learning — в пять раз. В интернет-компаниях и IT дата-сайентистам предлагают медианную зарплату 145 000 руб., а в в сфере услуг для бизнеса — 170 000 руб. В последнем случае речь идёт об анализе больших массивов данных, в том числе алгоритмами машинного обучения, чтобы выявить полезные для бизнеса закономерности, которые не очевидны для человеческого мозга.
Опубликована база учёных, которые активно цитируют сами себя. Украина и Россия в лидерах

Российские и украинские лидеры в рейтинге самоцитирования
Авторитет в научном сообществе определяется количеством ссылок в научных статьях (индекс цитирования). Самые цитируемые в мире — небольшая группа учёных, в которую входят нобелевские лауреаты и выдающиеся исследователи. Однако к ним примыкает ряд менее известных персонажей. Например, Сундарапандиан Вайдьянатан из Индии.
Этот исследователь в области теории хаоса, декан R&D частного технологического института Vel Tech в Ченнае — соавтор сотен научных работ и абсолютный мировой рекордсмен по саморекламе: 94% (!) ссылок на его научные статьи поставлены им самим или соавторами, пишет Nature.
Управление делами президента разместило тендер на услуги по мониторингу СМИ в сети Интернет
Крайний срок подачи заявок – 16.05.2019. Начальная (максимальная) цена контракта – 1 100 000 руб.
Ближайшие события
Вклад авторов
alizar 2160.4moat 796.0varagian 693.0Syurmakov 638.0i_shutov 628.0alexanderkuk 613.0xenon 557.0mephistopheies 485.0yorko 475.0dmitrybugaychenko 392.0