Как стать автором
Обновить
886.53

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Мнение большинства для разметки данных в задачах компьютерного зрения

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.5K

Многие прикладные задачи из области компьютерного зрения требуют от разработчиков создания собственных наборов данных, которые можно своевременно обновлять и адаптировать: увеличивать количество классов и сэмплов или делать сэмплы более разнородными по тем или иным признакам. Кроме того, для некоторых задач необходимы доменные и достаточно специфичные данные. Например в SberDevices, для реализации управления умными устройствами с помощью жестов, необходим датасет, на изображениях которого люди показывают жесты перед камерой; для бьютификации в Jazz — фотографии людей на веб-камеру или селфи. Необходимость постоянно создавать и поддерживать собственные наборы данных требует автоматизации их сбора и разметки.

Читать далее

Контроль за дрейфами предсказательных моделей и Popmon

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров8.6K

Привет, Хабр!

На связи участник профессионального сообщества NTA Иван Попов.

В сфере бизнеса зачастую используются модели машинного обучения для прогнозирования различных показателей, однако их предсказательная сила может снижаться с течением времени. В данном посте расскажу, что такое дрейф моделей, почему важно следить за ними, и как это можно сделать с помощью библиотеки Popmon.

Как держать дрейф модели под контролем?

Разработка видеоаналитики для контроля в общественных бассейнах

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.8K

В статье расскажу об опыте реализации видеаоаналитики в сложной среде, а именно - в воде, на примере подготовки программно-аппаратного комплекса для общественных басссейнов.

Читать кейс (15 минут)

Kandinsky 2.2 — новый шаг в направлении фотореализма

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров56K

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, LLaMA, Falcon и др.), и даже модальности видео (GEN-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешении, а также новых возможностях синтеза изображений.

Читать далее

Кто же такая это ваша LoRA

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров71K

В сети в последнее время регулярно мелькают статьи типа - как обучить Stable Diffusion генерировать ваши фотографии/фотографии в определенном стиле/фотографии определенного лора/такие фотографии итп.

Однако к сожалению, даже на хабре, об этой технологии рассказывают супер-поверхностно - как скачать какую-то GUI программу, и куда тыкать кнопочки. Поэтому я решил исправить это недоразумение, и выпустить первую статьи на русском, где полностью рассказывается что по настоящему стоит за этими 4-мя буквами.

Читать далее

Пугающее противостояние: утечка данных в машинном обучении

Время на прочтение13 мин
Количество просмотров5.3K


В общем контексте под утечкой данных часто имеют в виду ситуацию, когда без разрешения или без соблюдения должных мер безопасности кому-то постороннему передают конфиденциальную информацию. В результате нарушается безопасность и конфиденциальность данных. В машинном обучении речь идёт о другой проблеме, когда информация из тестового датасета ошибочно попадает в обучающий.
Читать дальше →

Инструменты Дата-сайнтиста. Универсальная база

Время на прочтение4 мин
Количество просмотров11K

Специалисты по анализу данных используют много разных инструментов, причем новые технологии (фреймворки, библиотеки и т.д.) появляются так часто, что у начинающих свой путь в отрасли постоянно возникает вопрос, что им нужно изучать в первую очередь. Здесь вы найдете обзор базовых инструментов. В следующих постах мы продолжим тему и расскажем об инструментах, не вошедших в этот обзор.

Какие инструменты нужны для анализа данных

Откуда берутся истории

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2K

Я работаю в Сбере, в команде, которая развивает продажи в СберБизнес, интернет-банке для предпринимателей. Наша лента историй (stories) — главный способ помочь клиентам освоиться с продуктами и услугами банка и его партнёров: пользователь читает ленту, находит что-то интересное для себя, нажимает кнопку и подключает услугу. Помимо продуктовых внушительную часть нашей ленты занимают «познавательные» истории (interaction stories). Они дают советы по предпринимательской деятельности, посвящают клиентов Сбера в нюансы изменений законодательства, делятся выводами, рассказывают про интересные случаи. Подготовкой такого контента для ленты занимается сразу несколько команд. Это трудозатратно и занимает немало времени на разных этапах согласования. Хотелось этот процесс ускорить, но как? У нас появилась идея: пусть ИИ сам производит контент за нас. У него нет понятия «не могу или не умею», он сделает всё, что захочешь. Конечно, в разумных пределах.

Читать далее

Декларирование ML-пайплайнов: организация экспериментов

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.8K

Приветствуем читателей Хабра! Мы, дата-сайентисты и дата-аналитики компании «ДатаЛаб»* (ГК «Автомакон»), делимся своим опытом решения актуальных проблем, с которыми сталкиваются ML-команды.

Читать далее

Топ-10 видеокарт для машинного обучения

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров74K

Как правильно выбрать видеокарту и максимально эффективно обрабатывать большие объемы данных и выполнять параллельные вычисления.

Читать далее

ChatGPT и сингулярность. Как искусственный интеллект переписывает будущее

Время на прочтение8 мин
Количество просмотров11K

Искусственный интеллект (ИИ) проникает во все сферы нашей жизни, и одним из ярких примеров такого прогресса является ChatGPT, разработанный OpenAI. Сегодня более 100 000 000 пользователей уже вовлечены в использование этого интеллектуального чат-бота, а число его возможных применений продолжает расти. Благодаря своим навыкам в обработке естественного языка и пониманию контекста, ChatGPT успешно зарекомендовал себя в образовательных проектах, бизнесе, научных исследованиях и многих других областях. На дискуссии Artezio мы собрали экспертов, чтобы обсудить, как ChatGPT меняет наш подход к общению, его преимущества и некоторые опасения, возникающие в связи с использованием ИИ в повседневной жизни. Представляем краткий обзор дискуссии в блоге ЛАНИТ.

Читать далее

Генерируй, дискриминируй. Как мы ускорили доменную адаптацию GAN для генерации лиц в пять тысяч раз

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров2.7K

Всем привет! Меня зовут Айбек Аланов. Я — аспирант факультета компьютерных наук ВШЭ, а также научный сотрудник группы «Вероятностные методы машинного обучения» AIRI. Сегодня мне хотелось бы поделиться с вами успехами, которые добилась наша научная группа в вопросе адаптации генеративно-состязательных сетей на новые домены.

Читать далее

Как использовать метод Дэвида-Скина для агрегации разметки. Разбираем по шагам

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.1K

Всем привет. Открываю серию статей, посвященную агрегации разметки. Этим вопросом я активно занимался, пока работал в нашем центре компетенций по работе с данными: нам нужен был механизм агрегации разметки из разных задач. По пути накопил материалов и, причесав, делюсь с вами. 

В этой части я расскажу про модель Дэвида-Скина, которая заложила основы для многих методов агрегации разметки и является второй по значимости после голосования большинством. Многие создатели проектов следуют этому методу для повышения качества данных. Изначально он был разработан в 1970-х для вероятностного моделирования медицинских обследований. Именно поэтому разберем этот метод на примере с докторами. 

Читать далее

Ближайшие события

Почему ChatGPT нас (полностью) не заменит

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5K

Примечание: этот текст не был написан ChatGPT.

В последнее время технологии искусственного интеллекта (ИИ), включая генеративные нейронные сети, стали все более распространенными среди широких масс. Одним из самых продвинутых и широко известных примеров является ChatGPT, созданный на базе GPT-3.5 архитектуры, которая позволяет ему обрабатывать и анализировать естественный язык и давать точные и часто неожиданные ответы на разнообразные вопросы. ChatGPT может быть использован во многих областях, включая образование, здравоохранение, банковское дело и многие другие.

Несмотря на все его возможности, и вопреки многочисленным репликам в интернете, ChatGPT, как и любая другая «умная программа», не может полностью заменить человека на его рабочем месте. В этой статье мы порассуждаем на тему того, почему труд человека останется актуальным.

Читать далее

Семантическая сегментация на основе архитектуры U-Net и определение расстояния между объектами

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров20K

Всем привет!

Возвращаясь к бытовому применению нейронных сетей, изначально была идея усовершенствовать модель детекции свободного парковочного места из предыдущей моей статьи (Определение свободного парковочного места с помощью Computer Vision), сделать возможность сегментации дороги, тротуара и исключать из парковочных мест, автомобили, которые стоят на газоне (было несколько гневных комментариев на этот счёт).

Однако в процессе размышлений, я решил сделать отдельную модель сематической сегментации, причем написать вручную нейросеть и обучить на своих данных. Суть модели заключается в следующем:

Модель на базе U-Net архитектуры сегментирует различные объекты (кот, стул, стол, тарелка с котлетами итд) и при сближении двух объектов сегментации (кот - тарелка) модель сигнализирует об этом с помощью телеграмм бота.

Отлично, задача поставлена, теперь реализация!

Читать далее

Первые шаги в импульсных нейронных сетях

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров18K

Давайте попробуем немного разобраться в теме импульсных нейронных сетей (spiking neural network, SNN). Напишем простую импульсную нейронную сеть, используя только NumPy и Pandas, для классической задачи машинного обучения с использованием кодирования рецептивными полями.

Читать далее

Kaggle — практическое изучение Big Data. Что это за платформа, и как она работает

Время на прочтение5 мин
Количество просмотров24K

Привет, Хабр!

Время от времени здесь публикуются статьи с упоминанием Kaggle. Это крупнейшая международная платформа соревнований по Data Science. В организации соревнований участвуют крупные и не очень компании, а многие задачи решают реальные проблемы медицины, ИИ, разработки и т. п. 

Если вы слышали что-то о Kaggle, но ещё не пробовали платформу в работе, то эта статья для вас. В ней относительно коротко рассказывается о том, как всё это работает, в каких соревнованиях можно участвовать и какие вообще возможности предоставляет платформа участникам.

Читать далее

Применение метода взаимной информации в медицинских задачах классификации многомерных временных рядов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.4K

Привет, хабр! Меня зовут Алексей Бойков. Я студент третьего курса факультета компьютерных наук НИУ ВШЭ. В начале весны 2023 года мне удалось попасть на стажировку в Лабораторию искусственного интеллекта Сбера. В ней несколько основных групп, я работал в командах фундаментальных исследований и искусственного интеллекта в медицине. Моим руководителем был Качан Олег, который предложил мне заняться исследованием применимости гиперграфов полной взаимной информации для анализа временных рядов. В данной статье я попробую рассказать про часть этой задачи, касающуюся непосредственно применения полной взаимной информации, как меры ассоциации между несколькими случайными величинами.

Читать далее

VOT Challenge: как мы поучаствовали в соревнованиях по компьютерному зрению

Время на прочтение8 мин
Количество просмотров990

Привет, хабристы. В этой короткой заметке мы хотим рассказать о нашем опыте участия в конкурсе по компьютерному зрению - VOT Challenge 2023, посвященном трекингу объектов на видео. Порефлексируем об ошибках, которые мы допустили и зачем вообще участвовать в этих конкурсах. Это вольный перевод нашей заметки на ACM, если Вам понравится, сходите и на оригинал. Нам будет приятно.

Читать далее

Фигуры Matplotlib и стиль Cyberpunk: несколько строк кода — и готова красивая фигура

Время на прочтение8 мин
Количество просмотров8.3K


Когда мы создаем инфографику или постеры с данными, мы хотим привлечь внимание читателя: для этого изображение должно быть эстетически привлекательным и при этом убедительно доносить нашу мысль. Есть множество графических библиотек для создания графиков с помощью Python. Одна из них — это хорошо известная Matplotlib. Но графики, построенные ее стандартными средствами, часто выглядят скучными, и, чтобы оживить их, нужно потратить много времени.
Читать дальше →

Вклад авторов