Как стать автором
Обновить
83.85

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга

Второе место на Data Fusion Contest 2024

Время на прочтение3 мин
Количество просмотров615

В начале апреля завершилось ежегодное соревнование по машинному обучению с призовым фондом в 2 миллиона рублей — Data Fusion Contest 2024. Основных задач было две, и команда наших аналитиков-исследователей из Лаборатории ИИ заняли второе место в решении задачи по моделям оттока!

Читать далее
Всего голосов 3: ↑3 и ↓0+5
Комментарии1

Новости

Вышла новая — Llama 3.1 405B

Время на прочтение2 мин
Количество просмотров17K

В доступе появилась новейшая Llama 3.1 405B.

🦙 Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o.

Модель 405B обеспечивает лучшую производительность, но не выглядит новаторской. Пробуем! Веса модели уже на HuggingFace 🚀

Глянуть бенчмарки и скачать веса
Всего голосов 14: ↑12 и ↓2+14
Комментарии47

Т-Банк открыл доступ к собственной русскоязычной языковой модели T-lite

Время на прочтение1 мин
Количество просмотров17K

Специалисты из Центра искусственного интеллекта Т-банка открыли доступ к новой языковой модели в весовой категории 7-8 миллиардов параметров. Согласно внутренним и индустриальным бенчмаркам, модель обходит все существующие в своем классе аналоги. 

Модель T-lite была представлена в рамках первой конференции Т-Банка по машинному обучению Turbo ML Conf. T-lite — это инструмент разработки, с помощью которого компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. В частности, это могут быть ассистенты поддержки для обработки запросов, ответов на вопросы и т.д. Пример работы LLM для голосового заказа. Веса T-lite модели уже на HuggingFace.

Изучить модельку
Всего голосов 13: ↑10 и ↓3+7
Комментарии34

СИГМА и ИнфоТеКС завершили внедрение новой российской системы учета электроэнергии в 11 регионах РФ

Время на прочтение3 мин
Количество просмотров1.5K

Компании «СИГМА» и «ИнфоТеКС» завершили первое в РФ внедрение интеллектуальной системы учета электроэнергии (ИСУЭ), полностью соответствующей актуальным требованиям к импортозамещению и информационной безопасности. Система рассчитана на взаимодействие в режиме реального времени с более чем 16 млн точек учета. К работе в ней уже перешли дочерние общества ПАО «Интер РАО» в 11 регионах России.

Читать далее
Всего голосов 7: ↑7 и ↓0+9
Комментарии0

Истории

Релиз профайлера данных Desbordante 2.0.0

Время на прочтение2 мин
Количество просмотров837

16 апреля 2024 года состоялся второй мажорный релиз профайлера данных Desbordante (исп., безграничный), который позволяет проводить поиск различных примитивов в таблицах. Исходный код проекта опубликован на GitHub под лицензией GNU Affero General Public License v3.0. Первая стабильная версия Desbordante вышла в декабре 2023 года.

Читать далее
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

«ГалоПолимер» переводит производственные процессы на отечественную цифровую платформу

Время на прочтение4 мин
Количество просмотров1.3K

Крупное химпредприятие «ГалоПолимер» завершило реализацию проекта по оптимизации технологических процессов. Включение российской платформы для предиктивной аналитики и управления техническим состоянием оборудования CyberStudio в производственный цикл химпредприятия позволит увеличить объем выработки метиленхлорида без привлечения дополнительных ресурсов или перенастройки оборудования. В ходе проектных работ производство «ГалоПолимер Кирово-Чепецк» было переведено на импортонезависимое решение при сохранении непрерывности всех критических бизнес-процессов. Все работы были выполнены специалистами К2Тех и CyberPhysics в короткие сроки – всего за три месяца.

Читать далее
Всего голосов 8: ↑5 и ↓3+3
Комментарии3

Русский жестовый язык: первое место в американском бенчмарке

Время на прочтение2 мин
Количество просмотров3K

Нейросети для распознавания жестового языка, созданные командой компьютерного зрения RnD CV в SberDevices научились лучше всех в мире распознавать американский жестовый язык и подружились с GigaChat!

Такой результат был достигнут благодаря нашему датасету русского жестового языка (РЖЯ) Slovo, который недавно мы выложили в открытый доступ. Публичная версия датасета содержит тысячу классов жестов суммарным объемом в 20 тысяч HD+ видео, записанных большой группой экспертов. Датасет и обученные на нем модели нейронных сетей бесплатны и выложены в открытый доступ. Это самый большой открытый и разнородный датасет РЖЯ в мире. Оказалось, что предварительное обучение нейронных сетей на датасете Slovo позволило модели хорошо обобщиться и стать основой для распознавания не только РЖЯ, но и других жестовых языков, в частности американского.

Подробности...
Всего голосов 13: ↑13 и ↓0+13
Комментарии0

Автор курсов по Python и Pandas жалуется на вечный бан за рекламу торговли экзотическими животными

Время на прочтение3 мин
Количество просмотров11K

DALL-E 3

Преподаватель языка Python Ревер Лернер рассказал в личном блоге, как получил бан в рекламной сети Facebook². Лернер попытался разместить рекламу курсов Python и Pandas, но система сочла подобное рекламой продажи экзотических животных и заблокировала его аккаунт рекламодателя. Из-за того, как организована работа с данными в Meta¹, не помогло вернуть аккаунт даже вмешательство человека.
Читать дальше →
Всего голосов 16: ↑13 и ↓3+13
Комментарии21

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

Время на прочтение3 мин
Количество просмотров4K

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.

Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.

Ниже краткий обзор.

Принцип работы Pandas AI

В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.

Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Данные накрылись ФСТЭКом

Время на прочтение2 мин
Количество просмотров2.2K

Становятся недоступны наборы ранее открытых данных о юридических лицах. Так, на сегодняшний день закрыли доступ по API к банку данных об исполнительном производстве Федеральной службы судебных приставов (ФССП), также недоступны данные об участниках проекта «Сколково» и реестр аккредитованных ИТ-организаций Минцифры. При этом можно получить информацию о конкретной аккредитованной ИТ-компании на Госуслугах, а об участнике проекта «Сколково» — на сайте фонда, но не списком.

Упоминания о недоступности некоторых данных появились еще в конце февраля 2022 года. Мы в DataNewton столкнулись с ограничением доступа к некоторым, ранее открытым, реестрам и базам и есть риск, что в ближайшем будущем данные и доступ к ним по API могут закрыть и другие организации.

Читать далее
Всего голосов 7: ↑5 и ↓2+5
Комментарии4

Factory5 представила бесплатный сервис по анализу данных для решения задач бизнеса с помощью ИИ

Время на прочтение2 мин
Количество просмотров848

Российский разработчик программного обеспечения для промышленности Factory5 выпустил F5 Future — облачный сервис no-code приложений с использованием машинного обучения. Сервис призван решать бизнес-задачи, связанные с выявлением закономерностей, прогнозированием целевых показателей, а также проверять гипотезы.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

18 сентября в Санкт-Петербурге, в оффлайне состоится слет IT-сообществ HackConf 2022

Время на прочтение4 мин
Количество просмотров2.4K

18 сентября с 10 до 18 в Санкт-Петербурге состоится большая оффлайн встреча IT-сообществ, участвуют все желающие, вход бесплатный, нужно зарегистрироваться. До всемирной пандемии мы так же собирались большим составом в 2017, 2018, 2019 и несколькими годами ранее в рамках фестиваля ChaosConstructions, но работ на демопати все меньше, было бы здорово, если бы демосценеры смогли загрузить свои работы на Cafe Party 2022 в Казани, чтоб было за что голосовать. HackConf продолжая традиции будет в оффлайн формате, не будет онлайн трансляции, так мы сможем более свободно поговорить о наболевшем.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии4

Контест на определение сбоев

Время на прочтение2 мин
Количество просмотров337

Cтартовал первый контест для разработчиков от Brand Analytics!

Задача контеста: написать приложение, которое будет определять сбои и сможет выделять сервисы и аспекты в публичных сообщениях соцмедиа о сбоях.

Призовой фонд - 500 тысяч рублей.

Срок подачи решений до 17 августа 2022 г. 20:00 MSK.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Ближайшие события

19 августа – 20 октября
RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ
МоскваНижний НовгородЕкатеринбургСтавропольНовосибрискКалининградПермьВладивостокЧитаКраснорскТомскИжевскПетрозаводскКазаньКурскТюменьВолгоградУфаМурманскБишкекСочиУльяновскСаратовИркутскДолгопрудныйОнлайн
24 – 25 октября
One Day Offer для AQA Engineer и Developers
Онлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
26 октября
ProIT Network Fest
Санкт-Петербург
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Открытый семинар «Обзор алгоритма CLIP от OpenAI»

Время на прочтение1 мин
Количество просмотров697

12 мая в 16:30 (мск) пройдёт открытый семинар «Обзор алгоритма CLIP от OpenAI».

Рассмотрим подход, который превосходит по качеству большинство алгоритмов для классификации изображений на многих датасетах.

Спикер: Максим Земляникин, инженер в компании Xperience.AI.

Зарегистрироваться на семинар можно по ссылке. Участие бесплатное.

Больше видео с прошедших семинаров на нашем YouTube-канале.  

Читать далее
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Яндекс Практикум запускает курс «SQL для работы с данными и аналитики»

Время на прочтение2 мин
Количество просмотров6.2K
Яндекс Практикум разработал курс «SQL для работы с данными и аналитики». За полтора месяца студенты с нуля пройдут путь от новичка до уверенного пользователя SQL.

Программа предназначена для начинающих и продолжающих обучение аналитиков, продакт- и проджект-менеджеров, специалистов техподдержки, UX-исследователей и новичков, которые хотят составлять SQL-запросы и работать с СУБД, даже если у них нет опыта в базах данных и html.

Выпускники получат удостоверение о повышении квалификации.


Читать дальше →
Всего голосов 3: ↑2 и ↓1+2
Комментарии0

МКБ подвел итоги первого хакатона для специалистов по Data Science

Время на прочтение2 мин
Количество просмотров1.4K

Московский кредитный банк (МКБ) подвел итоги первого открытого хакатона для молодых специалистов по Data Science.

Топ-20 участников хакатона, которые предложили самые интересные работы, получили приглашение присоединиться к команде МКБ.

Узнать все результаты
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Онлайн-митап LaTech Data Talks — анонс

Время на прочтение1 мин
Количество просмотров874


Всем привет! 30 ноября в 19:00 по московскому времени мы проведем онлайн-митап для специалистов по работе с данными. Для участия необходимо зарегистрироваться.

Спикеры расскажут, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет пользователям находить то самое платье или те самые классные кроссовки:)

Под катом программа встречи, спикеры и тезисы их выступлений.
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Хакатон для специалистов по DataScience

Время на прочтение1 мин
Количество просмотров2.2K

Московский кредитный банк (МКБ) проводит онлайн хакатон для молодых специалистов по Data Science. Если вы студент последних курсов или начинающий специалист МКБ предлагает проявить свои таланты в области DS и выиграть отличные призы.

Хочу принять участие
Всего голосов 4: ↑4 и ↓0+4
Комментарии12

Полиция начала майнить Google «обратными» запросами

Время на прочтение2 мин
Количество просмотров15K

Две геозоны в приложении GPS. By SpyToMobile, CC BY-SA 4.0

Американская полиция инициировала практику дата-майнинга Google с помощью «обратных» поисковых запросов. Речь идёт о составлении списка подозреваемых на основании косвенных критериев, например, список всех пользователей, которые находились в указанное время в указанном месте. Новый тип полицейских запросов называется geofence warrant («ордер по геозоне»). Это один из методов обратного поиска, который давно используют в своей практике агентства интернет-расследований, такие как Bellingcat (например, обратный поиск изображений).

Практически каждый человек носит при себе мобильный телефон, который постоянно фиксирует свои координаты (по базовым станциям GSM, WiFi, GPS и др.). Соответственно, можно получить список устройств в конкретном месте. В России такие списки запрашивают через операторов сотовой связи, а в США это проще сделать через Apple и Google, которые хранят историю перемещений пользователей.
Читать дальше →
Всего голосов 31: ↑29 и ↓2+38
Комментарии22

Курс «Анализ данных и машинное обучение в MATLAB»

Время на прочтение1 мин
Количество просмотров2.5K
Всем привет!

Стартовал короткий бесплатный курс по анализу данных и машинному обучению в MATLAB.

В ходе курса покажем:

  • Импорт данных в MATLAB
  • Процесс подготовки данных для машинного обучения
  • Метод быстрого обучения моделей и выбора лучшего алгоритма
  • Способ создания независимого от MATLAB приложения
Читать дальше →
Всего голосов 2: ↑1 и ↓1+2
Комментарии1
1

Вклад авторов

Работа

Data Scientist
101 вакансия