Обновить
687.32

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Магическое ускорение работы моделей с помощью дистилляции

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.8K

Вы когда-нибудь задумывались о том, что у человеческого мозга есть ограниченная емкость и вы можете выучить этот чертов английский просто потому что в детстве запомнили слишком много покемонов? Или почему обучение с учителем гораздо эффективнее, чем самостоятельное?

Эти вопросы вполне применимы и в области машинного обучения. Для обучения модели диффузии требуется много данных и вычислительной мощности, а затем для создания изображений требуется значительное количество вычислений и серьезное оборудование. Исследователи (у которых обычно нет денег и на доширкак) задали очень хороший вопрос - можно ли достичь тех же результатов с меньшими усилиями?

Читать далее

AI и системный анализ / бизнес-анализ

Время на прочтение6 мин
Количество просмотров18K

В последние годы про AI/ML не писал только ленивый. Но обычно тему рассматривают с «потребительской» стороны: сейчас вот любуются видеороликами от проекта Sora. Более нишевая тема — «как работать над ML-проектами» (о таком мы проведём онлайн-конференцию I'ML). И совсем уж малозамеченная тема — что это всё значит не для пользователей или разработчиков, а для системных аналитиков и бизнес-аналитиков.

Для таких специалистов мы проводим конференцию Flow. И когда спросили у Программного комитета «а какие новые тренды вы сейчас видите в своей сфере», они в первую очередь назвали как раз AI. 

Так что тема явно тоже требует освещения. Но поскольку она ещё малоизучена, этот пост — не ответ на все вопросы, а скорее предложение к обсуждению: если вы связаны с анализом, дополняйте в комментариях.

Читать далее

Рашид. Создаем нейронную сеть (конспект стоящей книги)

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров8K

Делюсь своим конспектом одной из лучших книг для того, чтобы разобраться в принципах работы нейросетей: от понятно объяснённой математики до пошаговой практики разработки собственной сети на Python.

Читать далее

KD+SM Uplift Modeling. Вошли и вышли, приключение на 20 минут

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1K

В современном интернет-маркетинге уделено довольно мало внимания Uplift моделированию. Cам Uplift не страдает от недостатка внимания со стороны маркетинга, а вот его корректный расчет - да. Как правило, Uplift моделирование представляет собой набор неких эвристик, незамысловатой статистики и различных бизнес-инструментов. В лучшем случае, это относительно современные и простые ML-модели, которые совершают расчеты с большим количество допущений, что влечет за собой некорректные и нестабильные результаты.

Такие решения, как правило объясняются желанием со стороны бизнес‑заказчика или же отдела аналитики сделать продукт «быстро и сердито», без долгого и тяжелого вовлечения во все нюансы и подводные камни Uplift моделирования. Задача действительно непростая, пользователи видят десятки рекламных баннеров, успевают повидать по несколько вариаций дизайна страниц сайта, при всем этом получая электронные письма, либо пуши с предложением скидки на продукцию. Конечно же, при такой «бомбардировке» пользователя довольно трудно понять на частном уровне, какая кампания лучше поспособствовала формированию желания что‑то у Вас купить.

Это цикл статей, посвященный KD+SM Uplift моделированию (Knowledge Distillation and Sample Matching) — относительно новой архитектуре Uplift моделирования, использующей весь современный арсенал ML и DL решений на текущий день. Можно сказать, что KD+SM это даже целый pipeline решений, который состоит из препроцессинга данных, нескольких ML моделей, и нейронных сетей. Модели «общаются» друг с другом, на каждом из этапов обогащают данные новыми синтетическими знаниями и передают уже модифицированные данные дальше по pipeline. Именно поэтому мы уложим всю работу в несколько статей, начиная с вводной статьи и заканчивая прикладным применением KD+SM Uplift на реальных данных.

Читать далее

Как компьютерное зрение показывает себя в шахте: кейс rdl by red_mad_robot и «Норникеля»

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.1K

Потренировавшись использовать компьютерное зрение и искусственный интеллект на множестве производств, команда rdl by red_mad_robot решила взяться за проект посложнее. Подобно Марио, мы спустились на уровень пониже — в шахты. Но ждал нас там не дракон и не принцесса, а вполне привычная задача — поставлять данные в реальном времени. Правда, с горнодобывающей спецификой: плохим интернетом, жарой и особыми требованиями к оборудованию.

Читать далее

Codia AI: скрины в дизайн и дизайн в код

Время на прочтение12 мин
Количество просмотров4.3K

Факт, что сейчас искусственный интеллект занимает центральное место в различных аспектах нашей повседневной жизни, делает его одной из самых важных и динамично развивающихся технологий нашего времени. Они поджидают нас и в автоматизации процессов, и в анализе данных, и в обработке естественного языка, и в медицинской диагностике, и в финансовых прогнозах и во многом другом. Но я бы хотела поговорить и о дизайне.

Компания Codia, из технологического центра Сингапура, идет, нет, даже бежит на свет в темноте, в виде искусственного интеллекта.

Команда предлагает нам интересные продукты: Codia AI Design и Codia AI Figma to code, где первый способен воспроизвести наш набросок и фотографию в драфт, а второй способен подобный драфт воспроизвести в код.

Предлагаю рассмотреть эти плагины и концепцию их работы.

Приступим(:

Читать далее

Свертка

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров9.2K

Сверточные нейронные сети (CNN) являются мощным классом глубоких нейронных сетей, которые широко применяются в обработке изображений, распознавании образов, компьютерном зрении и других задачах, связанных с анализом визуальных данных.

Читать далее

Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров7.2K

Мы продолжаем рассказывать вам о уязвимостях LLM. На этот раз давайте поговорим о авторегрессионных моделях и “Token Smuggling”, а также посмотрим, сможет ли GPT-4 выдать нам ответы на опасные вопросы.

Узнать больше

ИИ лаборант

Время на прочтение16 мин
Количество просмотров1.3K


В последние годы огромное внимание со стороны как ученых, так и обывателей получили большие языковые модели, такие как GPT. Они нашли свое применение в обработке естественного языка, в биологии и химии, и даже в программировании. В результате разгорелись дебаты на тему этических аспектов применения подобных моделей, а также попытки установить, где еще могут быть применены большие языковые модели. Ученые из Национального научного фонда (США) создали Coscientist — систему искусственного интеллекта, управляемая GPT-4, которая автономно проектирует, планирует и выполняет сложные лабораторные эксперименты. Как работает искусственный лаборант, какие опыты он может проводить, и какое влияние он может оказать на будущее экспериментов? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Что не увидит SCA

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.1K

Всем привет! ? ? ? Мы стажеры — разработчики Тинькофф: Влад, Паша и Илья. В проекте по стажировкам в ИБ Summer of Code под руководством Ромы Лебедя мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML, поэтому мы разделили статью на несколько частей. 

В статье поговорим о подходах к компонентному анализу и почему нам не подошел ни один из них. Расскажем, зачем мы разработали свое решение и что означает аббревиатура SCAML.

Читать далее

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

Время на прочтение17 мин
Количество просмотров17K

На территории России насчитывается от 200 до 300 вулканов. Около 13 из них находятся под особым наблюдением: это действующие вулканы, которые извергались в течение последних 25 лет. Самые активные расположены на территории Камчатки и Курильских островов, так что экстренные службы в этих регионах живут в постоянной готовности к последствиям извержений. 

Оценкой вулканической активности на Камчатке занимается подразделение Единой геофизической службы РАН. В прошлом году её вулканологи совместно с командами Яндекс Погоды, Yandex Cloud, Школы Анализа Данных (ШАД) и Геоинтеллекта запустили проект, который позволяет визуализировать данные по результатам извержений и предсказывать пеплопады в конкретных населённых пунктах. В дальнейшем разработанный сервис можно будет использовать для других подобных задач, например, прогнозировать пеплопады в регионах за пределами Камчатского края.   

Читать далее

О чем говорят руки. 2 место на соревновании Kaggle + код решения

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров6.1K

Приветствую всех читателей! Меня зовут Артем Топоров, и сегодня я хочу поделиться с вами своим опытом участия в соревновании по распознаванию жестового языка, организованном компанией Google. На этом соревновании, собравшем 1139 команд со всего мира, нам удалось занять 2 место. Расскажу как мы вместе с Николаем Форратом и Xun Zhao разработали ML алгоритм для мобильных устройств, едва не заняли первое место и при чем тут спектрограммы. Вы можете использовать наш код, так как он распространяется под лицензией Apache 2.0.

Читать далее

Как составить эффективное резюме через нейросети

Время на прочтение13 мин
Количество просмотров35K

В эпоху цифровизации трудоустройства, когда рекрутинговые агентства и HR-отделы переходят на автоматизированные системы обработки резюме, важность составления эффективного CV выходит на новый уровень. Первое впечатление о кандидате складывается за считанные секунды. Плюс не забываем о количестве кандидатов, претендующих вместе с вами на одну и ту же должность. Такова реальность современного рынка труда, где у нас есть два варианта: сдаться или принять этот вызов.

К счастью, технологии машинного обучения, которые с недавних пор помогают рекрутерам находить подходящих кандидатов, могут пригодиться и самим соискателям. С помощью нейросетей и искусственного интеллекта можно существенно улучшить свое резюме и повысить шансы на собеседование. 

В этой статье мы рассмотрим, как использование нейросетей, например, ChatGPT, может помочь создать эффективное резюме, которое будет выделяться как в глазах бездушной машины, так и человеческого рекрутера. Обсудим, что необходимо учитывать при составлении резюме, предоставим пошаговую инструкцию по его написанию и улучшению уже существующего, а также дадим несколько вредных советов для обхода автоматизированной проверки. В общем, нас ждет много интересных букв.

Приятного чтения!

Читать далее

Ближайшие события

Классификация облака точек с ограниченными данными: воксели и сиамские сети

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.9K

После первого поста на Хабре моя карьера сделала неожиданный поворот, и я оказался перед непростой задачей классификации, которая потребовала от меня изучения новых для себя архитектур и подходов. В этой статье я поделюсь опытом решения задачи классификации облака точек, имея лишь 10 примеров для каждого класса. Мы поговорим о том, как преобразование данных в воксельное представление и использование сиамских нейронных сетей с 3D свертками помогло достичь отличных результатов.

Читать далее

Пароли в открытом доступе: ищем с помощью машинного обучения

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров11K

Я больше 10 лет работаю в IT и знаю, что сложнее всего предотвратить риски, связанные с человеческим фактором. 

Мы разрабатываем самые надежные способы защиты. Но всего один оставленный в открытом доступе пароль сведет все усилия к нулю. А чего только не отыщешь в тикетах Jira, правда?

Привет, меня зовут Александр Рахманный, я разработчик в команде информационной безопасности в Lamoda Tech. В этой статье поделюсь опытом, как мы ищем в корпоративных ресурсах чувствительные данные — пароли, токены и строки подключения — используя самописный ML-плагин. Рассказывать о реализации буду по шагам и с подробностями, чтобы вы могли создать такой инструмент у себя, даже если ML для вас — незнакомая технология.  

Читать далее

Обзор библиотеки drake в R

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров725

Drake предлагает систематический подход к построению и управлению зависимостями в проектах, автоматизируя процесс обработки данных и анализа. С помощью drake можно отслеживать изменения в коде и данных, автоматически перезапуская только те части анализа, которые были изменены.

Создатель drake, Уилл Ландау, искал способ улучшить репродуктивность исследований в R, и так родилась библиотека drake. С тех пор она претерпела множество изменений и улучшений.

Читать далее

Какой плащ был у Понтия Пилата? Отвечает GigaChat

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров13K

Всем привет! На связи лид разработки SDK GigaChat’a — Константин Крестников. В этой статье я расскажу о том, что такое GigaChain и как в целом SDK позволяет упростить жизнь разработчика LLM, например, научить LLM давать ответы на вопросы по вашим документам или работать в режиме автономного агента. Также поговорим про решения, которые практически невозможно сделать без использования SDK.

GigaСhain — это ответвление (fork) открытой библиотеки LangСhain на Python. Её главная цель — облегчить жизнь разработчику. Библиотека состоит из большого количества различных компонентов, которые позволяют работать с промптами, объединять вызовы к большим языковым моделям в цепочки, загружать данные из разных источников и сохранять обработанные ответы языковой модели. 

Читать далее

Будущее ИИ в радиологии — обзор конференции RSNA 2023

Время на прочтение5 мин
Количество просмотров938

По итогам RSNA - крупнейшей выставки в сфере радиологии, прошедшей в конце 2023 года, Стефан Брауневелл, управляющий партнер SynWisery, подготовил обзор, в котором поделился размышлениями о самых популярных темах и трендах в области искусственного интеллекта в рентгенологии. Я подготовил очень-очень вольный перевод его статьи со своими комментариями.

Если вы хотите узнать ещё больше об организации процессов ML-разработки, подписывайтесь на мой Телеграм-канал Варим ML

Читать далее

Учебный центр Rasa: NLP для разработчиков

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.1K

Перевод статьи от 01.02.2023 г., из блога Rasa

Курс «NLP (Natural Language Processing) для разработчиков» в учебном центре Rasa — это простое и быстрое знакомство с современными инструментами и методами NLP, такими как токенизация, векторное представление слов и трансферное обучение. Если вы разработчик программного обеспечения, менеджер или любой другой человек, который хотел, но еще не ознакомился со всеми концепциями машинного обучения Rasa NLU — это лучший способ получить об этом общие понятия.

Читать далее

Albumentations: XYMasking

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.9K

Короткая версия

После длинного вступления, будет туториал по применению аугментации XYMasking к спектрограммам от ЭЭГ. Кто экономит время - код с примерами можно найти по ссылке в документации библиотеки.

Длинная версия

Albumentations - это Open Source библиотека для аугментации изображений.

Аугментация - это умное слово, которое в переводе с русского на русский означает "преобразование".

Q: Зачем это надо?

A: Основное применение - тренировка нейронных сетей на картиночных данных, например ImageNet.

Чем больше разнообразных данных сеть видит при тренировке, тем выше шансы, что она выучит закономерности, а не просто запомнит их.

На практике, пока прошлый батч картинок обрабатывается сетью на GPU, CPU занимается подготовкой нового батча, причем к каждому изображению применяются различные аугментации. Это позволяет достигнуть большего разнообразия данных, которые видит сеть.

Благодаря такому подходу нейронная сеть никогда не видит один и тот же набор пикселей, что способствует более высокой точности и обобщающей способности.

Читать далее

Вклад авторов