Как стать автором
Обновить
57.71

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Как и для чего мы научили нейросеть оценивать повреждения на авто

Время на прочтение8 мин
Количество просмотров7.6K

Страховому агенту нужно около часа, чтобы оценить и описать повреждения авто после аварии. Осмотреть каждую деталь, оформить документы. А если посчитать время на дорогу, то оценка и вовсе затянется на полдня. 

Нейросеть же справляется за 30 секунд. 29 из которых нужно владельцу, чтобы обойти машину и сделать четыре фото.

В этой статье я расскажу, зачем мы вообще создаем такую модель и где планируем ее использовать. А еще углубимся в принципы работы системы и расскажем, как мы обучали алгоритм и какие планы у проекта на будущее.

Читать далее

Семантическая сегментация 4D сцен с лидаров и прогресс в разработке беспилотных автомобилей

Время на прочтение8 мин
Количество просмотров2.6K

Прежде чем стать достоянием общества, беспилотные автомобили, роботы и автономные системы должны обеспечить высокий уровень восприятия и понимания окружающего их мира. Как же достичь этого уровня? Сегодня мы реализуем его при помощи компьютерного зрения, машинного обучения и множества датчиков. Обычно в качестве таких датчиков используются камеры, радары, сонары и лидары (LiDAR, Light Detection and Ranging).

У каждой компании-разработчика БА (беспилотных автомобилей) есть собственный подход к выбору подходящего датчика, расположению датчиков и использованию общего массива собираемых данных. Лидар, прошедший за последние годы долгий путь развития, становится всё более важным устройством, поскольку играет фундаментальную роль в обеспечении безопасного перемещения БА по дорогам. Несмотря на заявления Илона Маска, отрасль БА в целом убеждена в том, что этот датчик и его возможности — ключ к успеху автономности. И в самом деле, в отличие от камер, датчики-лидары способны хорошо проявлять себя в условиях плохой видимости, например, в плохую погоду, или даже лучше разбираться с тенями и сложным освещением, с которыми камеры испытывают трудности.
Читать дальше →

ModelOps на практике: переходим от отверточной сборки к конвейеру по управлению моделями

Время на прочтение8 мин
Количество просмотров4.1K


Привет хабр! Меня зовут Артем Глазков, я работаю консультантом в российском подразделении компании SAS. Сегодня я хочу рассказать про операционализацию аналитики на практическом примере проекта, который я сделал совместно с моим коллегой Иваном Нардини для крупной итальянской сырьевой компании. Я постараюсь сфокусироваться на наиболее важных деталях и преимуществах подхода ModelOps.

Согласно независимым исследованиям, операционализация аналитики является ключевым трендом развития в области Искусственного Интеллекта. Необходимо научиться не только строить точные модели машинного обучения, но и организовать эффективное управление их жизненным циклом. Без этого модель рискует навсегда застрять внутри стен ‘лаборатории данных’. Практика показывает, что именно там остаются более половины разработанных моделей. Это означает, что время и усилия, затраченные на создание таких моделей, так и не были компенсированы полезным эффектом от их применения.

После внедрения задача инструментов управления жизненным циклом моделей заключается в том, чтобы постоянно поддерживать модель в форме. Мир вокруг модели меняется — в отсутствие настроенного процесса контроля качества работы модели рано или поздно точность ее работы упадет ниже приемлемого значения. Инструменты мониторинга моделей позволяют своевременно выявить потребность в дообучении. Обновленная модель сможет увидеть новые закономерности в данных и правильно их учесть. В результате, удастся обеспечить стабильно высокое качество работы модели на этапе эксплуатации, а значит получить больше практической пользы от каждой разработки.
Читать дальше →

О бедном бите замолвите слово

Время на прочтение4 мин
Количество просмотров4.9K


Н. Кобринский, В. Пекелис «Быстрее мысли» — Молодая гвардия, 1959


Когда все вокруг измеряют Гигабайтами, Петабайтами, Зетабайтами и т.д., все компании гордятся своей БигДатой, вспоминать о битах в приличном обществе воспринимается как моветон. Однако и биты иногда бывают полезны. Темой для разговора послужила одна типовая классическая задачка, лежащая в области опросов.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

Время на прочтение7 мин
Количество просмотров4K

Статья написана по мотивам работы "Forecasting SQL Query Cost at Twitter", 2021 («Прогнозирование стоимости SQL-запросов в Twitter»), представленной на IX Международной конференции IEEE по облачной инженерии (IC2E). Подробностями делимся, пока у нас начинается курс по Machine Learning и Deep Learning.

Читать далее

Как с помощью машинного обучения ускорить категоризацию товаров на маркетплейсах и в интернет-магазинах?

Время на прочтение9 мин
Количество просмотров5.6K

В июле этого года AliExpress сообщил о новом инструменте, который с помощью машинного обучения автоматизирует и ускоряет загрузку товаров на платформу. Этот же способ подходит интернет-магазинам, чтобы выгрузить информацию о товарах из внутренних баз на сайты. Мы поделимся с вами инструментом, который в сотни раз ускоряет категоризацию и загрузку товаров. Расскажем и о том, как и для чего создавали модель категоризации, используя машинное обучение.

Хочу узнать

Автоматизация логистики: от первой и до последней мили

Время на прочтение2 мин
Количество просмотров2.5K

Почтатех проведет открытый митап по автоматизации логистики, разработке  информационных систем для повышения ее прозрачности, предикативности и контролируемости. Интересно будет тем, кто занимается проектированием систем, архитекторам, аналитикам и техлидам. А еще всем тем, кому любопытно, как уже сейчас строится логистика будущего.

Кто не хочет читать после ката — сразу регистрируйтесь тут →

Читать далее

Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать

Время на прочтение7 мин
Количество просмотров21K

Всем привет! Я Игорь Гончаров — руководитель Службы управления данными Уралсиба. В этой статье я поделился нашим видением ответа на вопрос, который периодически слышу от коллег: зачем мы развиваем хранилище данных банка, когда есть технологии Data Lake?

Читать далее

Tfidfvectorizer, BERT, LASER: векторизация данных и кластерный анализ для улучшения рекомендательной системы

Время на прочтение9 мин
Количество просмотров12K

Мир онлайн-покупок становится всё привычнее, а значит, и обезличенных данных про каждого пользователя всё больше. Билайн ТВ использует для онлайн-кинотеатра рекомендательную систему на основе данных: она советует пользователю новый триллер, если он уже посмотрел пять похожих фильмов. 

Чтобы реализовать такую систему, компания CleverData (группа ЛАНИТ) сформировала эмбеддинги для пользователей Билайн ТВ. Ассоциация больших данных помогла сделать этот кейс возможным. 

В этой статье расскажем подробности этой задачи:

Читать далее

ЗаETLье или Особенности рыбалки в Озере данных

Время на прочтение11 мин
Количество просмотров5.5K

Привет, меня зовут Алексей Белявцев и я ETL-архитектор в X5 Group. Наши объёмы данных соизмеримы с крупнейшими международными компаниями и требуют специального ухода и содержания, что накладывает определённый отпечаток на специфику используемых решений. Я не планирую грузить вас описанием детальной архитектуры (всё равно её нельзя публиковать), скриптами загрузки (их тем более) и другими скучными подробностями технической реализации, которые в достатке присутствуют во всех data-driven компаниях, а хочу заглянуть в будущее и попытаться представить архитектуру, удовлетворяющую всем потенциально возможным требованиям, масштабируемую, отказоустойчивую и просто приятную во всех отношениях.

Речь пойдёт о практиках сборки данных (подготовка снастей и поиск водохранилища), а также о нахождении оптимальной точки раздачи данных (лунке в зимний сезон или просто удачного места в рогозе) в реалиях очень big data, сотен систем-источников (СИ) и петабайтах данных (примерно как порыбачить в океане). Цель изложения заключается в консолидации и структурировании информации по теме и размышлениях об идеализированной архитектуре в зависимости от потребностей подразделений компании в данных. Будут высказаны предположения по опережающему развитию архитектуры под новые требования бизнеса третьего десятилетия 21 века, при этом многие из затронутых тем на текущем этапе развития направления являются более чем holywar-ными, причём подходы, успешно использующиеся в одних компаниях, могут быть провальны в других и наоборот (зависит от многих факторов).

Читать далее

Зачем вам нужно использовать активное обучение при обучении нейронных сетей

Время на прочтение6 мин
Количество просмотров7.9K

Часто разметка данных оказывается самой серьёзной преградой для машинного обучения — сбор больших объёмов данных, их обработка и разметка для создания достаточно производительной модели могут занимать недели или даже месяцы. Активное обучение позволяет обучать модели машинного обучения на гораздо меньшем количестве размеченных данных. Лучшие компании в сфере ИИ, например, Tesla, уже используют активное обучение. Мы считаем, что и вам тоже оно необходимо.

В этом посте мы расскажем, что такое активное обучение, рассмотрим инструменты для его практического применения и продемонстрируем, как мы сами упрощаем внедрение активного обучения в процесс NLP.
Читать дальше →

Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС

Время на прочтение8 мин
Количество просмотров32K

20160419_182146


Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой. Да, вот так вот просто все. Ну почти.


Да, это полная официальная адресная база России, просто в открытом доступе, никто ничего не спрашивает, просто раздают. Сделали на наши налоги, и честно всем, как скамейку в парке, отдают в пользование. Прекрасно? Да!


"В чем же подвох?", — спросите вы, прищурившись.


Кратко: формат ужасен, документация очень плоха и должного единообразия данных не наблюдается, чем успешно пользуются коммерческие компании, перепродающие бесплатные данные (иногда пылесосят имейлы). Но такую несправедливость можно исправить.

Читать дальше →

Восстановление знаков пунктуации и заглавных букв — теперь и на длинных текстах

Время на прочтение5 мин
Количество просмотров7.9K

изображение


Open In Colab


После релиза нашей первой модели, расставляющей знаки препинания и большие буквы, было много пожеланий доработать её, чтобы она могла обрабатывать тексты целиком, а не отдельные предложения. Это коллективное пожелание и было осуществлено в нашей новой версии модели.


изображение


В целом, архитектура и датасеты остались прежними. Что изменилось:


  • обучение теперь производилось не на отдельных предложениях, а на нескольких последовательных предложениях (принимаем во внимание, что конструктивное ограничение модели при обучении — 512 токенов на вход, что позволяет свободно подавать ~150 слов на любом из четырех поддерживаемых языков)
  • для ускорения обучения модели сокращение словаря теперь проводилось не только на инференсе, но и на трейне, что позволило увелить размер батча
Читать дальше →

Ближайшие события

Как избавиться от проблем при разметке данных для обучения ML моделей?

Время на прочтение8 мин
Количество просмотров2.2K

Введение


Потребность в аннотировании данных растёт из-за роста популярности машинного обучения. Только люди способны создать эталонную разметку, которая необходима для обучения модели. Работа аннотатора очень неблагодарна, монотонна и иногда сложна. Работа менеджера проекта по аннотированию, руководящего проектом с тысячами, а иногда и с миллионами объектов, тоже может быть тяжёлой. Кроме того, с увеличением объёмов данных проблема становится всё более комплексной.

Аннотирование очень быстро может превратиться в серьёзную преграду. В этой статье мы рассмотрим инструменты и процессы, позволяющие избежать головной боли при работе с проектом разметки данных.
Читать дальше →

Почему наш стартап переехал с Flask на FastAPI

Время на прочтение8 мин
Количество просмотров32K

Как так оказалось, что стартап решил поменять стек? Это же затраты и все возникающие при этом сложности переезда. Но если хочешь получить короткий, эргономичный, хорошо читаемый код, приходится идти на жертвы. Но давайте по порядку.

Алекс Морозов, co-founder & CTO в компании Datafold, рассказал, как они переехали с Flask на FastAPI и поделился собственным опытом такого переезда. Это не только то, что пишут в документации, а конкретные проблемы, с которыми они столкнулись при переезде, и как они их обошли. На примерах посмотрим, что стоит сделать, а каких решений лучше избегать.

Читать далее

Что такое хранилище признаков?

Время на прочтение12 мин
Количество просмотров3.1K

Интеллектуальные системы обработки данных уже давно и широко используются в продакшене для решения различных задач, будь то масштабная аналитика или потоковая обработка информации в режиме реального времени. Однако практическое машинное обучение, то есть аналитика на основе машинного обучения в приложениях, ориентированных на пользователя, для многих специалистов все еще в новинку. Развертывание моделей машинного обучения в продакшене для практических целей (таких как создание рекомендательных систем, выявление мошенничества, персонализация пользовательского опыта) предъявляет новые требования к инструментам обработки данных.

Специально для решения этой задачи и предназначен новый тип инфраструктуры данных, ориентированной на машинное обучение.

Об авторах: Майк Дель Бальсо, генеральный директор и сооснователь компании Tecton Виллем Пиенаар, создатель хранилища признаков Feast

Читать далее

“Вы бигдату анализируете?” Чем занимаются разработчики в исследовательской компании

Время на прочтение9 мин
Количество просмотров9.9K

Мы в Mediascope считаем аудиторию ТВ, интернета, радио и прессы. Мониторим контент в СМИ. Измеряем потребительские предпочтения россиян. Фиксируем выходы рекламы во всех медиа. В результате пользователи наших данных получают огромное количество датасетов для анализа и решения самых разных задач бизнеса. Кроме того, многие наши данные лежат в основе рекламных взаиморасчетов медиарынка и являются своего рода индустриальной "валютой" в диалоге разных его игроков.

Кому все это нужно? Компаниям, работающим на российском рынке рекламы (сегмент - сугубо В2В) - непосредственно СМИ, медиа-холдингам, рекламным агентствам и компаниям-рекламодателям.

В нашей работе крайне важно сбалансированное сочетание, с одной стороны, ИТ-решений, стэка технологий и программных разработок, с другой, - применение методов социологических исследований, математики и анализа данных.

Расскажем обо всем поподробнее.

Поехали!

Создаем аналитическое хранилище данных командой из 2-3 спецов

Время на прочтение9 мин
Количество просмотров25K
Всем привет!
Сделать хорошее аналитическое хранилище (DWH), когда в команде десяток-другой крутых специалистов и пара лет времени — не сложно. Проекты по созданию DWH, Data Lake и BI обычно очень ресурсоёмки и под силу только большим компаниям.
Мне интересно искать и применять практики, которые позволяют компаниям быстро создавать аналитические решения маленькой командой. Этими наработками хочу поделиться в данной статье.
Статья нацелена на:
  • Небольшие команды в начале пути.
  • Создание решений с быстрым возвратом инвестиций.

Коротко о моём DWH опыте (чтобы понимать ограничения моего мышления):
  • Реализовывал три похожих не очень больших проекта по созданию DWH: 5-15 терабайт, 100+ сущностей, в команде 2-4 специалиста, в качестве источника — одна основная база продукта (сервиса) и несколько дополнительных.
  • Участвовал в супер большом проекте DWH: 1+ Петабайт (прирост 1 терабайт в день), 2000+ сущностей, в команде 100+ специалистов. В этой компании жадно изучал Data Vault 2, исходники DWH движка, бизнес-процессы, которые масштабируются на сотни специалистов, правила описания DWH в вики и методы постановки задач.
  • В продакшн работал только с batch процессами, со stream знаком только по обучающим курсам и книгам.

Ценность для бизнеса


Цепочка создания ценности в процессе работы с данными (источник):


Читать дальше →

LaTech Data Talks  — материалы с митапа

Время на прочтение1 мин
Количество просмотров1.8K

Вот и состоялся наш первый митап для специалистов по работе с данными — LaTech Data Talks. Мы рассказали о том, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, поговорили про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет найти те самые теплые кроссовки мечты. Делимся презентациями и записями выступлений спикеров.

Читать далее

Воспроизводимость экспериментов Big Data

Время на прочтение8 мин
Количество просмотров3.3K

Вы не задумываетесь над процессами, а фокусируетесь на решении задач в сжатые сроки, только когда вы аналитик в стартапе или маленькой команде. Но после первых успехов хочется оглянуться назад и наладить процессы, почистить библиотеку артефактов и подтянуть качество. Особенно когда команда стремительно растет. Непрозрачная структура тяжело поддается управлению и не позволяет быстро обучать сотрудников.

Меня зовут Елдос, я Big Data аналитик, и сегодня я расскажу о том, как команда Fintech из службы Big Data аналитики и машинного обучения Beeline Казахстан создала среду для совместной работы, связала используемые инструменты одним ключом, обеспечила централизованное хранение кода в Git и подсчетов в HDFS, и тем самым обеспечила воспроизводимость экспериментов.

Читать далее

Работа

Data Scientist
70 вакансий