Обновить
33.81

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга

Второе место на Data Fusion Contest 2024

Время на прочтение3 мин
Охват и читатели573

В начале апреля завершилось ежегодное соревнование по машинному обучению с призовым фондом в 2 миллиона рублей — Data Fusion Contest 2024. Основных задач было две, и команда наших аналитиков-исследователей из Лаборатории ИИ заняли второе место в решении задачи по моделям оттока!

Читать далее

Новости

Вышла новая — Llama 3.1 405B

Время на прочтение2 мин
Охват и читатели14K

В доступе появилась новейшая Llama 3.1 405B.

🦙 Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o.

Модель 405B обеспечивает лучшую производительность, но не выглядит новаторской. Пробуем! Веса модели уже на HuggingFace 🚀

Глянуть бенчмарки и скачать веса

Т-Банк открыл доступ к собственной русскоязычной языковой модели T-lite

Время на прочтение1 мин
Охват и читатели15K

Специалисты из Центра искусственного интеллекта Т-банка открыли доступ к новой языковой модели в весовой категории 7-8 миллиардов параметров. Согласно внутренним и индустриальным бенчмаркам, модель обходит все существующие в своем классе аналоги. 

Модель T-lite была представлена в рамках первой конференции Т-Банка по машинному обучению Turbo ML Conf. T-lite — это инструмент разработки, с помощью которого компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. В частности, это могут быть ассистенты поддержки для обработки запросов, ответов на вопросы и т.д. Пример работы LLM для голосового заказа. Веса T-lite модели уже на HuggingFace.

Изучить модельку

СИГМА и ИнфоТеКС завершили внедрение новой российской системы учета электроэнергии в 11 регионах РФ

Время на прочтение3 мин
Охват и читатели2K

Компании «СИГМА» и «ИнфоТеКС» завершили первое в РФ внедрение интеллектуальной системы учета электроэнергии (ИСУЭ), полностью соответствующей актуальным требованиям к импортозамещению и информационной безопасности. Система рассчитана на взаимодействие в режиме реального времени с более чем 16 млн точек учета. К работе в ней уже перешли дочерние общества ПАО «Интер РАО» в 11 регионах России.

Читать далее

Релиз профайлера данных Desbordante 2.0.0

Время на прочтение2 мин
Охват и читатели1.2K

16 апреля 2024 года состоялся второй мажорный релиз профайлера данных Desbordante (исп., безграничный), который позволяет проводить поиск различных примитивов в таблицах. Исходный код проекта опубликован на GitHub под лицензией GNU Affero General Public License v3.0. Первая стабильная версия Desbordante вышла в декабре 2023 года.

Читать далее

«ГалоПолимер» переводит производственные процессы на отечественную цифровую платформу

Время на прочтение4 мин
Охват и читатели1.6K

Крупное химпредприятие «ГалоПолимер» завершило реализацию проекта по оптимизации технологических процессов. Включение российской платформы для предиктивной аналитики и управления техническим состоянием оборудования CyberStudio в производственный цикл химпредприятия позволит увеличить объем выработки метиленхлорида без привлечения дополнительных ресурсов или перенастройки оборудования. В ходе проектных работ производство «ГалоПолимер Кирово-Чепецк» было переведено на импортонезависимое решение при сохранении непрерывности всех критических бизнес-процессов. Все работы были выполнены специалистами К2Тех и CyberPhysics в короткие сроки – всего за три месяца.

Читать далее

Русский жестовый язык: первое место в американском бенчмарке

Время на прочтение2 мин
Охват и читатели3.6K

Нейросети для распознавания жестового языка, созданные командой компьютерного зрения RnD CV в SberDevices научились лучше всех в мире распознавать американский жестовый язык и подружились с GigaChat!

Такой результат был достигнут благодаря нашему датасету русского жестового языка (РЖЯ) Slovo, который недавно мы выложили в открытый доступ. Публичная версия датасета содержит тысячу классов жестов суммарным объемом в 20 тысяч HD+ видео, записанных большой группой экспертов. Датасет и обученные на нем модели нейронных сетей бесплатны и выложены в открытый доступ. Это самый большой открытый и разнородный датасет РЖЯ в мире. Оказалось, что предварительное обучение нейронных сетей на датасете Slovo позволило модели хорошо обобщиться и стать основой для распознавания не только РЖЯ, но и других жестовых языков, в частности американского.

Подробности...

Автор курсов по Python и Pandas жалуется на вечный бан за рекламу торговли экзотическими животными

Время на прочтение3 мин
Охват и читатели12K

DALL-E 3

Преподаватель языка Python Ревер Лернер рассказал в личном блоге, как получил бан в рекламной сети Facebook². Лернер попытался разместить рекламу курсов Python и Pandas, но система сочла подобное рекламой продажи экзотических животных и заблокировала его аккаунт рекламодателя. Из-за того, как организована работа с данными в Meta¹, не помогло вернуть аккаунт даже вмешательство человека.
Читать дальше →

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

Время на прочтение3 мин
Охват и читатели6.2K

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.

Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.

Ниже краткий обзор.

Принцип работы Pandas AI

В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.

Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".

Читать далее

Данные накрылись ФСТЭКом

Время на прочтение2 мин
Охват и читатели2.9K

Становятся недоступны наборы ранее открытых данных о юридических лицах. Так, на сегодняшний день закрыли доступ по API к банку данных об исполнительном производстве Федеральной службы судебных приставов (ФССП), также недоступны данные об участниках проекта «Сколково» и реестр аккредитованных ИТ-организаций Минцифры. При этом можно получить информацию о конкретной аккредитованной ИТ-компании на Госуслугах, а об участнике проекта «Сколково» — на сайте фонда, но не списком.

Упоминания о недоступности некоторых данных появились еще в конце февраля 2022 года. Мы в DataNewton столкнулись с ограничением доступа к некоторым, ранее открытым, реестрам и базам и есть риск, что в ближайшем будущем данные и доступ к ним по API могут закрыть и другие организации.

Читать далее

Factory5 представила бесплатный сервис по анализу данных для решения задач бизнеса с помощью ИИ

Время на прочтение2 мин
Охват и читатели1K

Российский разработчик программного обеспечения для промышленности Factory5 выпустил F5 Future — облачный сервис no-code приложений с использованием машинного обучения. Сервис призван решать бизнес-задачи, связанные с выявлением закономерностей, прогнозированием целевых показателей, а также проверять гипотезы.

Читать далее

18 сентября в Санкт-Петербурге, в оффлайне состоится слет IT-сообществ HackConf 2022

Время на прочтение4 мин
Охват и читатели2.5K

18 сентября с 10 до 18 в Санкт-Петербурге состоится большая оффлайн встреча IT-сообществ, участвуют все желающие, вход бесплатный, нужно зарегистрироваться. До всемирной пандемии мы так же собирались большим составом в 2017, 2018, 2019 и несколькими годами ранее в рамках фестиваля ChaosConstructions, но работ на демопати все меньше, было бы здорово, если бы демосценеры смогли загрузить свои работы на Cafe Party 2022 в Казани, чтоб было за что голосовать. HackConf продолжая традиции будет в оффлайн формате, не будет онлайн трансляции, так мы сможем более свободно поговорить о наболевшем.

Читать далее

Контест на определение сбоев

Время на прочтение2 мин
Охват и читатели358

Cтартовал первый контест для разработчиков от Brand Analytics!

Задача контеста: написать приложение, которое будет определять сбои и сможет выделять сервисы и аспекты в публичных сообщениях соцмедиа о сбоях.

Призовой фонд - 500 тысяч рублей.

Срок подачи решений до 17 августа 2022 г. 20:00 MSK.

Читать далее

Ближайшие события

Открытый семинар «Обзор алгоритма CLIP от OpenAI»

Время на прочтение1 мин
Охват и читатели828

12 мая в 16:30 (мск) пройдёт открытый семинар «Обзор алгоритма CLIP от OpenAI».

Рассмотрим подход, который превосходит по качеству большинство алгоритмов для классификации изображений на многих датасетах.

Спикер: Максим Земляникин, инженер в компании Xperience.AI.

Зарегистрироваться на семинар можно по ссылке. Участие бесплатное.

Больше видео с прошедших семинаров на нашем YouTube-канале.  

Читать далее

Яндекс Практикум запускает курс «SQL для работы с данными и аналитики»

Время на прочтение2 мин
Охват и читатели8.1K
Яндекс Практикум разработал курс «SQL для работы с данными и аналитики». За полтора месяца студенты с нуля пройдут путь от новичка до уверенного пользователя SQL.

Программа предназначена для начинающих и продолжающих обучение аналитиков, продакт- и проджект-менеджеров, специалистов техподдержки, UX-исследователей и новичков, которые хотят составлять SQL-запросы и работать с СУБД, даже если у них нет опыта в базах данных и html.

Выпускники получат удостоверение о повышении квалификации.


Читать дальше →

МКБ подвел итоги первого хакатона для специалистов по Data Science

Время на прочтение2 мин
Охват и читатели1.9K

Московский кредитный банк (МКБ) подвел итоги первого открытого хакатона для молодых специалистов по Data Science.

Топ-20 участников хакатона, которые предложили самые интересные работы, получили приглашение присоединиться к команде МКБ.

Узнать все результаты

Онлайн-митап LaTech Data Talks — анонс

Время на прочтение1 мин
Охват и читатели1K


Всем привет! 30 ноября в 19:00 по московскому времени мы проведем онлайн-митап для специалистов по работе с данными. Для участия необходимо зарегистрироваться.

Спикеры расскажут, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет пользователям находить то самое платье или те самые классные кроссовки:)

Под катом программа встречи, спикеры и тезисы их выступлений.
Читать дальше →

Хакатон для специалистов по DataScience

Время на прочтение1 мин
Охват и читатели2.3K

Московский кредитный банк (МКБ) проводит онлайн хакатон для молодых специалистов по Data Science. Если вы студент последних курсов или начинающий специалист МКБ предлагает проявить свои таланты в области DS и выиграть отличные призы.

Хочу принять участие

Полиция начала майнить Google «обратными» запросами

Время на прочтение2 мин
Охват и читатели15K

Две геозоны в приложении GPS. By SpyToMobile, CC BY-SA 4.0

Американская полиция инициировала практику дата-майнинга Google с помощью «обратных» поисковых запросов. Речь идёт о составлении списка подозреваемых на основании косвенных критериев, например, список всех пользователей, которые находились в указанное время в указанном месте. Новый тип полицейских запросов называется geofence warrant («ордер по геозоне»). Это один из методов обратного поиска, который давно используют в своей практике агентства интернет-расследований, такие как Bellingcat (например, обратный поиск изображений).

Практически каждый человек носит при себе мобильный телефон, который постоянно фиксирует свои координаты (по базовым станциям GSM, WiFi, GPS и др.). Соответственно, можно получить список устройств в конкретном месте. В России такие списки запрашивают через операторов сотовой связи, а в США это проще сделать через Apple и Google, которые хранят историю перемещений пользователей.
Читать дальше →

Курс «Анализ данных и машинное обучение в MATLAB»

Время на прочтение1 мин
Охват и читатели2.8K
Всем привет!

Стартовал короткий бесплатный курс по анализу данных и машинному обучению в MATLAB.

В ходе курса покажем:

  • Импорт данных в MATLAB
  • Процесс подготовки данных для машинного обучения
  • Метод быстрого обучения моделей и выбора лучшего алгоритма
  • Способ создания независимого от MATLAB приложения
Читать дальше →
1