Как стать автором
Обновить
523.24

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

KD+SM Uplift Modeling. Вошли и вышли, приключение на 20 минут

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 3

В современном интернет-маркетинге уделено довольно мало внимания Uplift моделированию. Cам Uplift не страдает от недостатка внимания со стороны маркетинга, а вот его корректный расчет - да. Как правило, Uplift моделирование представляет собой набор неких эвристик, незамысловатой статистики и различных бизнес-инструментов. В лучшем случае, это относительно современные и простые ML-модели, которые совершают расчеты с большим количество допущений, что влечет за собой некорректные и нестабильные результаты.

Такие решения, как правило объясняются желанием со стороны бизнес‑заказчика или же отдела аналитики сделать продукт «быстро и сердито», без долгого и тяжелого вовлечения во все нюансы и подводные камни Uplift моделирования. Задача действительно непростая, пользователи видят десятки рекламных баннеров, успевают повидать по несколько вариаций дизайна страниц сайта, при всем этом получая электронные письма, либо пуши с предложением скидки на продукцию. Конечно же, при такой «бомбардировке» пользователя довольно трудно понять на частном уровне, какая кампания лучше поспособствовала формированию желания что‑то у Вас купить.

Это цикл статей, посвященный KD+SM Uplift моделированию (Knowledge Distillation and Sample Matching) — относительно новой архитектуре Uplift моделирования, использующей весь современный арсенал ML и DL решений на текущий день. Можно сказать, что KD+SM это даже целый pipeline решений, который состоит из препроцессинга данных, нескольких ML моделей, и нейронных сетей. Модели «общаются» друг с другом, на каждом из этапов обогащают данные новыми синтетическими знаниями и передают уже модифицированные данные дальше по pipeline. Именно поэтому мы уложим всю работу в несколько статей, начиная с вводной статьи и заканчивая прикладным применением KD+SM Uplift на реальных данных.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Новости

Как компьютерное зрение показывает себя в шахте: кейс rdl by red_mad_robot и «Норникеля»

Уровень сложности Средний
Время на прочтение 13 мин
Количество просмотров 964

Потренировавшись использовать компьютерное зрение и искусственный интеллект на множестве производств, команда rdl by red_mad_robot решила взяться за проект посложнее. Подобно Марио, мы спустились на уровень пониже — в шахты. Но ждал нас там не дракон и не принцесса, а вполне привычная задача — поставлять данные в реальном времени. Правда, с горнодобывающей спецификой: плохим интернетом, пылью, жарой и особыми требованиями к оборудованию.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 2

Codia AI: скрины в дизайн и дизайн в код

Время на прочтение 12 мин
Количество просмотров 564

Факт, что сейчас искусственный интеллект занимает центральное место в различных аспектах нашей повседневной жизни, делает его одной из самых важных и динамично развивающихся технологий нашего времени. Они поджидают нас и в автоматизации процессов, и в анализе данных, и в обработке естественного языка, и в медицинской диагностике, и в финансовых прогнозах и во многом другом. Но я бы хотела поговорить и о дизайне.

Компания Codia, из технологического центра Сингапура, идет, нет, даже бежит на свет в темноте, в виде искусственного интеллекта.

Команда предлагает нам интересные продукты: Codia AI Design и Codia AI Figma to code, где первый способен воспроизвести наш набросок и фотографию в драфт, а второй способен подобный драфт воспроизвести в код.

Предлагаю рассмотреть эти плагины и концепцию их работы.

Приступим(:

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Свертка

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 1.7K

Сверточные нейронные сети (CNN) являются мощным классом глубоких нейронных сетей, которые широко применяются в обработке изображений, распознавании образов, компьютерном зрении и других задачах, связанных с анализом визуальных данных.

Читать далее
Всего голосов 12: ↑9 и ↓3 +6
Комментарии 2

Истории

Можно ли получить «опасный» ответ от GPT-4 и как защищаться от Token Smuggling

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 2.9K

Мы продолжаем рассказывать вам о уязвимостях LLM. На этот раз давайте поговорим о авторегрессионных моделях и “Token Smuggling”, а также посмотрим, сможет ли GPT-4 выдать нам ответы на опасные вопросы.

Узнать больше
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 0

ИИ лаборант

Время на прочтение 16 мин
Количество просмотров 315


В последние годы огромное внимание со стороны как ученых, так и обывателей получили большие языковые модели, такие как GPT. Они нашли свое применение в обработке естественного языка, в биологии и химии, и даже в программировании. В результате разгорелись дебаты на тему этических аспектов применения подобных моделей, а также попытки установить, где еще могут быть применены большие языковые модели. Ученые из Национального научного фонда (США) создали Coscientist — систему искусственного интеллекта, управляемая GPT-4, которая автономно проектирует, планирует и выполняет сложные лабораторные эксперименты. Как работает искусственный лаборант, какие опыты он может проводить, и какое влияние он может оказать на будущее экспериментов? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →
Всего голосов 7: ↑5 и ↓2 +3
Комментарии 0

Что не увидит SCA

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 800

Всем привет! 👋 👋 👋 Мы стажеры — разработчики Тинькофф: Влад, Паша и Илья. В проекте по стажировкам в ИБ Summer of Code под руководством Ромы Лебедя мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML, поэтому мы разделили статью на несколько частей. 

В статье поговорим о подходах к компонентному анализу и почему нам не подошел ни один из них. Расскажем, зачем мы разработали свое решение и что означает аббревиатура SCAML.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Уловимые частицы: как сервисы Яндекса помогают прогнозировать последствия извержений вулканов

Время на прочтение 17 мин
Количество просмотров 1.6K

На территории России насчитывается от 200 до 300 вулканов. Около 13 из них находятся под особым наблюдением: это действующие вулканы, которые извергались в течение последних 25 лет. Самые активные расположены на территории Камчатки и Курильских островов, так что экстренные службы в этих регионах живут в постоянной готовности к последствиям извержений. 

Оценкой вулканической активности на Камчатке занимается подразделение Единой геофизической службы РАН. В прошлом году её вулканологи совместно с командами Яндекс Погоды, Yandex Cloud, Школы Анализа Данных (ШАД) и Геоинтеллекта запустили проект, который позволяет визуализировать данные по результатам извержений и предсказывать пеплопады в конкретных населённых пунктах. В дальнейшем разработанный сервис можно будет использовать для других подобных задач, например, прогнозировать пеплопады в регионах за пределами Камчатского края.   

Читать далее
Всего голосов 32: ↑32 и ↓0 +32
Комментарии 1

О чем говорят руки. 2 место на соревновании Kaggle + код решения

Уровень сложности Средний
Время на прочтение 13 мин
Количество просмотров 2.9K

Приветствую всех читателей! Меня зовут Артем Топоров, и сегодня я хочу поделиться с вами своим опытом участия в соревновании по распознаванию жестового языка, организованном компанией Google. На этом соревновании, собравшем 1139 команд со всего мира, нам удалось занять 2 место. Расскажу как мы вместе с Николаем Форратом и Xun Zhao разработали ML алгоритм для мобильных устройств, едва не заняли первое место и при чем тут спектрограммы. Вы можете использовать наш код, так как он распространяется под лицензией Apache 2.0.

Читать далее
Всего голосов 37: ↑37.5 и ↓-0.5 +38
Комментарии 10

Бесплатные курсы для изучения искусственного интеллекта в 2024 году

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 16K


Существует множество бесплатных курсов и ресурсов, которые покрывают различные аспекты и прикладные области ИИ, что позволяет выбрать подходящий для ваших целей. ИИ – это быстро развивающаяся и перспективная область, и бесплатные курсы могут помочь вам быть в курсе последних тенденций и технологий.

Множество ресурсов предлагают высококачественное обучение, а также множество открытых материалов и учебных пособий.

При наличии достаточной мотивации и самодисциплины, можно изучить ИИ самостоятельно, не прибегая к покупке курсов. 

Таким образом, обучение через бесплатные ресурсы вполне реально и эффективно, особенно при наличии мотивации и самостоятельности в учебном процессе.

В статье каждый, кого интересует эта захватывающая область, может найти что-то для себя, от простых вводных материалов, в которых рассказывается что такое ИИ до курсов до практических курсов с формулами и кодом.

Начнем!

Читать далее
Всего голосов 14: ↑8 и ↓6 +2
Комментарии 5

Как составить эффективное резюме через нейросети

Время на прочтение 13 мин
Количество просмотров 6.2K

В эпоху цифровизации трудоустройства, когда рекрутинговые агентства и HR-отделы переходят на автоматизированные системы обработки резюме, важность составления эффективного CV выходит на новый уровень. Первое впечатление о кандидате складывается за считанные секунды. Плюс не забываем о количестве кандидатов, претендующих вместе с вами на одну и ту же должность. Такова реальность современного рынка труда, где у нас есть два варианта: сдаться или принять этот вызов.

К счастью, технологии машинного обучения, которые с недавних пор помогают рекрутерам находить подходящих кандидатов, могут пригодиться и самим соискателям. С помощью нейросетей и искусственного интеллекта можно существенно улучшить свое резюме и повысить шансы на собеседование. 

В этой статье мы рассмотрим, как использование нейросетей, например, ChatGPT, может помочь создать эффективное резюме, которое будет выделяться как в глазах бездушной машины, так и человеческого рекрутера. Обсудим, что необходимо учитывать при составлении резюме, предоставим пошаговую инструкцию по его написанию и улучшению уже существующего, а также дадим несколько вредных советов для обхода автоматизированной проверки. В общем, нас ждет много интересных букв.

Приятного чтения!

Читать далее
Всего голосов 14: ↑12 и ↓2 +10
Комментарии 8

Классификация облака точек с ограниченными данными: воксели и сиамские сети

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.3K

После первого поста на Хабре моя карьера сделала неожиданный поворот, и я оказался перед непростой задачей классификации, которая потребовала от меня изучения новых для себя архитектур и подходов. В этой статье я поделюсь опытом решения задачи классификации облака точек, имея лишь 10 примеров для каждого класса. Мы поговорим о том, как преобразование данных в воксельное представление и использование сиамских нейронных сетей с 3D свертками помогло достичь отличных результатов.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Пароли в открытом доступе: ищем с помощью машинного обучения

Уровень сложности Средний
Время на прочтение 18 мин
Количество просмотров 6.6K

Я больше 10 лет работаю в IT и знаю, что сложнее всего предотвратить риски, связанные с человеческим фактором. 

Мы разрабатываем самые надежные способы защиты. Но всего один оставленный в открытом доступе пароль сведет все усилия к нулю. А чего только не отыщешь в тикетах Jira, правда?

Привет, меня зовут Александр Рахманный, я разработчик в команде информационной безопасности в Lamoda Tech. В этой статье поделюсь опытом, как мы ищем в корпоративных ресурсах чувствительные данные — пароли, токены и строки подключения — используя самописный ML-плагин. Рассказывать о реализации буду по шагам и с подробностями, чтобы вы могли создать такой инструмент у себя, даже если ML для вас — незнакомая технология.  

Читать далее
Всего голосов 28: ↑28 и ↓0 +28
Комментарии 13

Ближайшие события

Обзор библиотеки drake в R

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 332

Drake предлагает систематический подход к построению и управлению зависимостями в проектах, автоматизируя процесс обработки данных и анализа. С помощью drake можно отслеживать изменения в коде и данных, автоматически перезапуская только те части анализа, которые были изменены.

Создатель drake, Уилл Ландау, искал способ улучшить репродуктивность исследований в R, и так родилась библиотека drake. С тех пор она претерпела множество изменений и улучшений.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 2

Какой плащ был у Понтия Пилата? Отвечает GigaChat

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 2.7K

Всем привет! На связи лид разработки SDK GigaChat’a — Константин Крестников. В этой статье я расскажу о том, что такое GigaChain и как в целом SDK позволяет упростить жизнь разработчика LLM, например, научить LLM давать ответы на вопросы по вашим документам или работать в режиме автономного агента. Также поговорим про решения, которые практически невозможно сделать без использования SDK.

GigaСhain — это ответвление (fork) открытой библиотеки LangСhain на Python. Её главная цель — облегчить жизнь разработчику. Библиотека состоит из большого количества различных компонентов, которые позволяют работать с промптами, объединять вызовы к большим языковым моделям в цепочки, загружать данные из разных источников и сохранять обработанные ответы языковой модели. 

Читать далее
Всего голосов 18: ↑18 и ↓0 +18
Комментарии 14

Будущее ИИ в радиологии — обзор конференции RSNA 2023

Время на прочтение 5 мин
Количество просмотров 416

По итогам RSNA - крупнейшей выставки в сфере радиологии, прошедшей в конце 2023 года, Стефан Брауневелл, управляющий партнер SynWisery, подготовил обзор, в котором поделился размышлениями о самых популярных темах и трендах в области искусственного интеллекта в рентгенологии. Я подготовил очень-очень вольный перевод его статьи со своими комментариями.

Если вы хотите узнать ещё больше об организации процессов ML-разработки, подписывайтесь на мой Телеграм-канал Варим ML

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Комментарии 3

Учебный центр Rasa: NLP для разработчиков

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 383

Перевод статьи от 01.02.2023 г., из блога Rasa

Курс «NLP (Natural Language Processing) для разработчиков» в учебном центре Rasa — это простое и быстрое знакомство с современными инструментами и методами NLP, такими как токенизация, векторное представление слов и трансферное обучение. Если вы разработчик программного обеспечения, менеджер или любой другой человек, который хотел, но еще не ознакомился со всеми концепциями машинного обучения Rasa NLU — это лучший способ получить об этом общие понятия.

Читать далее
Рейтинг 0
Комментарии 0

Albumentations: XYMasking

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 606

Короткая версия

После длинного вступления, будет туториал по применению аугментации XYMasking к спектрограммам от ЭЭГ. Кто экономит время - код с примерами можно найти по ссылке в документации библиотеки.

Длинная версия

Albumentations - это Open Source библиотека для аугментации изображений.

Аугментация - это умное слово, которое в переводе с русского на русский означает "преобразование".

Q: Зачем это надо?

A: Основное применение - тренировка нейронных сетей на картиночных данных, например ImageNet.

Чем больше разнообразных данных сеть видит при тренировке, тем выше шансы, что она выучит закономерности, а не просто запомнит их.

На практике, пока прошлый батч картинок обрабатывается сетью на GPU, CPU занимается подготовкой нового батча, причем к каждому изображению применяются различные аугментации. Это позволяет достигнуть большего разнообразия данных, которые видит сеть.

Благодаря такому подходу нейронная сеть никогда не видит один и тот же набор пикселей, что способствует более высокой точности и обобщающей способности.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

В чём сила, брат?

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 5.5K

Статья про поиск правды с помощью LLM, в полярных идеологически СМИ.

Недавно я задался тем же вопросом, как и герой Бодрова, и решил выяснить это опытным путём, используя нейросети.

Узнать
Всего голосов 16: ↑8 и ↓8 0
Комментарии 6

Разработка алгоритма адаптивной системы стыковки НПА с БЭК с использованием методов машинного обучения

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 750

Исследования, проводимые в работе, направлены на разработку удаленно управляемых робототехнических комплексов. В работе в качестве прототипа, на котором отрабатываются представленные в статье экспериментальные решения, выступают необитаемый подводный аппарат и автономный безэкипажный катер. В числе основных задач, решаемых в работе данными аппаратами, являются: мониторинг и оценка среды; обнаружение объектов и препятствий; маневрирование; сближение с объектом. В статье рассматривается задача стыковки в виртуальной 3D среде, в процессе которой осуществляется построение изображений рабочего пространства подводного робототехнического комплекса. Предложены алгоритмы построения 3D изображений рабочего пространства робототехнического комплекса в решении задачи стыковки, основанные на применении методов машинного обучения, включающей поиск, планирование движений, маневрирование и управление робототехническими комплексами для синхронизации подводного необитаемого аппарата с автономным безэкипажным катером в условиях неформализованных выполняющих сред. Результаты работы показывают, что применение методов машинного обучения в решении данных задач позволяют повысить уровень автономности аппаратов.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 1

Вклад авторов

Работа

Data Scientist
71 вакансия