Обновить
687.32

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Как взламывают биометрию и заставляют нейросети придумывать способы атак: топ-6 докладов с PHDays о ML и AI

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.9K

Машинное обучение — особенно генеративные нейронные сети, такие как ChatGPT, — меняет мир нечеловеческими темпами. Разработчиков на некоторых дистанционных собеседованиях просят направить веб-камеру на рабочее место и клавиатуру, чтобы понимать, самостоятельно ли соискатель выполняет задания. Amazon ограничивает авторов самиздата загрузкой на сайт трех книг в день — фанфики и другая проза создаются неестественно быстро для «кожаных мешков». Поумневшие чат-боты приводят к массовым увольнениям сотрудников поддержки, а дизайнеры опасаются уступить конкуренцию Midjourney и Playground v2.

Генеративный AI словно говорит человечеству: «Сосредоточьтесь на важном, а я займусь искусствами, этими избыточными павлиньими хвостами хомосапиенсов, и рутиной». Люди ставят задачи, а огромная AI-фабрика по созданию цифрового контента их выполняет. Мечта многих, получается, осуществилась? Но преступники тоже используют AI или находят способы обмануть умные системы. Об угрозах ML и AI, в том числе для информационной безопасности, мы будем говорить в традиционном треке на киберфестивале Positive Hack Days 2. У вас есть время подать заявку до 15 марта, чтобы поделиться своим исследованием с 23 по 26 мая на стадионе «Лужники». А сейчас расскажем о некоторых любопытных докладах прошлых лет на ML-треке PHDays.

Читать подборку

История о том, как организовать соревнование по компьютерному зрению без правильных ответов

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров2.2K

В прошлом году наша научная группа организовала международное соревнование по рендерингу ночных изображений на конференции CVPR. Это, на минуточку, одна их трех самых престижных профильных международных конференций в году. Задача участника — создать алгоритм, который будет генерировать/рендерить по необработанному (RAW) изображению самое эстетически красивое изображение ночной сцены. Красота оценивалась независимо профессиональным фотографом и обычными пользователями.

Но получилось ли у участников покорить их сердца?

Читать далее

О странной фаллоцентричности модели GPT-J

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров6.6K

TL;DR Статья посвящена находкам, описанным в моих постах Mapping the Semantic Void, часть I и II. Создав специальный эмбеддинг в центроиде токенов (векторе средних значений всех 50257 эмбеддингов токенов GPT-J ), при помощи промта приказав модели определить его и учтя логиты, можно создать «дерево определений» состоящее в подавляющем большинстве из туманных сформулированных неопределённостей. Это вряд ли может удивлять, ведь модели GPT-J, по сути, дают задачу определить «что-то среднее». Однако наиболее вероятная ветвь в дереве, дающая определение, содержащее что-то конкретное, определяет «призрачный токен» (ghost token) в центроиде как «мужской пенис» (a man's penis). Снизив уровень отсечки кумулятивной вероятности, чтобы создать длинные списки возможных определений, мы выясним, что почти все ветви, предоставляющие определения, касающиеся чего-то конкретного, связаны с сексом/деторождением, и среди них лишь время от времени встречаются связанные со статусом. Как обычно, я понятия не имею, что всё это значит, но буду рад вашим предположениям!

Читать далее

Как составить договор с помощью нейросетей

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров9.7K

В наше время технологии искусственного интеллекта все шире внедряются в различные сферы человеческой деятельности, включая юридическую практику. Одним из наиболее заметных примеров этого является использование нейронных сетей для создания договоров для тех или иных потребностей. Традиционно создание и анализ таких документов требовало значительных затрат времени и усилий со стороны юристов и специалистов. Однако благодаря прогрессу в области машинного обучения и нейронных сетей, теперь мы можем воспользоваться инновационными методами автоматизации этого процесса. Попробуем сделать договор оказания услуг с помощью ChatGPT как простые обыватели.

В этой статье мы рассмотрим, способны ли нейронные сети оптимизировать подход к составлению договоров оказания услуг, смогут ли предложить более эффективные, точные и быстрые решения, которые способны значительно упростить жизнь предпринимателей и юристов.

Поехали(:

Читать далее

Анализ зависимостей бинарных файлов на основе ML

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.4K

Всем привет! ? ? ? Мы стажеры-разработчики Тинькофф: Влад, Паша и Илья. В проекте по стажировкам в ИБ Summer of Code под руководством Ромы Лебедя мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML, поэтому мы разделили статью на несколько частей. 

В этой статье подробно расскажем о ML-стороне проекта: проведенные исследования, сложности, с которыми столкнулись в ходе работы, какой результат получили. В этой части делимся опытом использования Rizin и Milvus. Добро пожаловать! 

Читать далее

Нейронная сеть, имеющая способность к самообучению

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров12K

Всем привет! Недавно, когда я размышлял над работой памяти в мозге человека, мне пришла идея того, как можно сделать нейронную сеть, которая будет обладать способностью самообучаться. В этой статье я бы хотел представить свои размышления и идею, к которой я пришёл.

Читать далее

NLP для поиска грамматических ошибок

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.7K

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Журавлев Сергей.

В 2017 году на свет вышла статья разработчиков Google под названием «Attention is All You Need». В ней впервые была предложена идея трансформеров — моделей машинного обучения, ключевой особенностью которых было использование так называемых «слоев внимания», определяющих, какие слова и в какой степени важны для формирования контекста предложения. Публикация стала началом активного развития и продвижения моделей машинного обучения на описанной архитектуре.

Читать далее

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Уровень сложностиСредний
Время на прочтение41 мин
Количество просмотров111K

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Войти в симуляцию →

Приручаем нейросети

Время на прочтение6 мин
Количество просмотров16K

Давно не виделись, уважаемые!

Ну что ж, рад вас видеть, сегодня будем говорить и применять новые инструменты для создания RAG, улучшим качество наших результатов относительно прошлой статьи за счет использования других моделей для embeddings. Также затронем использование трушной векторной БД Chroma.

Читать далее

Учим большие языковые модели описывать продукты данных

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров6.7K

Привет, Хабр! В этой статье мы рассмотрим использование больших языковых моделей на этапе подготовки описания продуктов данных для дальнейшего использования в аналитике. Это может улучшить автоматизацию процесса, предоставляя инструмент для создания описаний продуктов.

Читать далее

NLUX: Библиотека интерфейса Conversational AI

Время на прочтение5 мин
Количество просмотров1.9K

В современном мире взаимодействие с компьютерами и приложениями становится все более естественным и удобным благодаря использованию разговорных интерфейсов и искусственного интеллекта. Однако, интеграция таких функциональностей в веб-приложения может стать вызовом для разработчиков. В этом контексте библиотека NLUX (Natural Language User Experience) приходит на помощь, предоставляя инструменты для создания разговорных пользовательских интерфейсов в приложениях React.

В этой статье мы рассмотрим основные возможности и преимущества NLUX, а также рассмотрим примеры использования и интеграции данной библиотеки в разработку веб-приложений.

Начнем (:

Читать далее

Организация ML-монорепозитория с помощью Pants

Уровень сложностиСредний
Время на прочтение24 мин
Количество просмотров2.4K

Приходилось вам копипастить фрагменты вспомогательного кода между проектами, попадая в ситуацию, когда несколько версий одного и того же набора команд оказывались в разных репозиториях? Или, может, вам надо было делать pull‑запросы к десяткам проектов после того, как было изменено имя GCP‑корзины, где вы храните данные?

Подобные ситуации возникают в ML‑командах слишком часто. Тяжесть их последствий варьируется от мелких неудобств для отдельного разработчика до нарушения работы целой команды, которая оказывается не в состоянии вовремя выдать код, над которым трудится. К счастью, эти проблемы поддаются исправлению.

Предлагаю погрузиться в тему монорепозиториев. Это — архитектура, широко применяемая в ведущих технологических компаниях наподобие Google. Поговорим о том, как монорепозитории способны улучшить ваши рабочие процессы, связанные с машинным обучением. Монорепозитории дают тем, кто их выбирает, много полезного. Это, несмотря на то, что есть у них и недостатки, делает их привлекательным выбором для управления сложными ML‑экосистемами.

Сначала мы кратко обсудим сильные и слабые стороны монорепозиториев, поговорим о том, почему они — это отличное архитектурное решение для ML‑команд, коснёмся того, как их используют в крупных технологических компаниях. В итоге у нас появится представление о том, как воспользоваться возможностями системы сборки кода Pants для организации ML‑репозиториев при построении надёжной CI/CD‑системы для сборки проектов.

А теперь — в путь — к оптимизации управления проектами в сфере машинного обучения.

Читать далее

ИИ в 3D: Где мы сейчас и какое будущее нас ждёт? (Часть 2)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.5K

В предыдущей статье мы уже затрагивали задачу реконструкции 3D-объектов по их 2D-изображениям. В этой же углубимся в реконструкцию с головой! Вообще говоря, как мне кажется, сейчас мы рассмотрим гораздо более концептуально интересные методы, а именно - HSP и Mesh R-CNN. Это база, которая просто должна осесть в головах всех любителей ИИ в 3D!

Читать далее

Ближайшие события

Нео-РНН или Make RNNs great again

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.3K

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других. 

Читать далее

Конец программирования, как мы его знаем, или Что нас ждёт с LLM

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров61K

«Большие языковые модели и конец программирования». Под таким заголовком в прошлом году прошла серия лекций доктора Уэлша, профессора информатики в Гарварде. В этом посте мы раскроем основные тезисы выступления, и в заключение попробуем взглянуть на будущее так же воодушевлённо, как автор.

Читать далее

Open-source ML от Apple

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4K

Привет, Хабр! После недавнего релиза Apple VIsion Pro я задумался над тем, какой вклад компания внесла в open-source ML, ведь, очевидно, было много предпосылок, наработок и технологий, о которых массовый пользователь не знает. Но все это гарантировано сыграло роль в появлении тех продуктов на рынке, о которых слышал буквально каждый в мире. Поэтому свою первую статью я решил сделать в формате небольшого обзора того, чем занимались и продолжают заниматься Apple в ML, хотя, казалось бы, что там можно смотреть в продуктах с открытым кодом кроме сотни репозиториев про Swift. Попытаюсь выделить основные тренды за прошедшие года и поделиться тем, что сам нашел интересного (оставив позади вопрос о целесообразности развития ML на яблочных устройствах)

Читать далее

Использование теории игр для повышения прозрачности моделей машинного обучения

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров6.3K

Интерпретация современных моделей машинного обучения может быть чрезвычайно сложным делом учитывая, что количество параметров и весовых коэффициентов может идти на тысячи и даже миллионы. Тем не менее это совершенно необходимо, для повышения качества, обеспечения стабильности и предсказуемости работы модели. В этом нам может помочь теория игр, математическая дисциплина позволяющая выделить из сложного взаимодействия факторов модели отдельный вклад каждого в конечное предсказание.

Читать далее

Как мы дорабатывали легаси-ценообразование: от стадии отрицания до MVP за 4 месяца

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.4K
Привет, меня зовут Валерий Лобанов и я — аналитик данных в компании Spacecode.

Первый проект на новом месте работы всегда запоминается ярче последующих. 
Для меня в Spacecode первой глобальной задачей стала работа с моделями динамического ценообразования. Сейчас, когда работа нашей команды над MVP продукта завершена, хочу рассказать о проекте и подвести свои личные итоги. 
Читать дальше →

Edge ML для людей с ограниченными возможностями

Время на прочтение18 мин
Количество просмотров1.4K

С развитием технологий появились новые возможности для людей с ограниченными возможностями. Edge Machine Learning (Edge ML) представляет собой передовую технологию, которая приближает алгоритмы машинного обучения к источнику данных, что сокращает задержку и улучшает возможности обработки данных в реальном времени.

В этой статье мы рассмотрим потенциал применения Edge ML для решения уникальных проблем, с которыми сталкиваются люди с особыми потребностями. Edge ML может способствовать созданию более поддерживающей и доступной среды, что так важно для поддержки людей, которые и так оказались в непростом положении. Мы рассмотрим различные аспекты, вызовы и потенциальные улучшения, формирующие эволюцию модели Edge ML. Эта модель сфокусирована на двух основных задачах: выявлении случаев запугивания и предоставлении успокаивающей поддержки.

Приступим (:

Читать далее

Живого интернета не существует

Время на прочтение5 мин
Количество просмотров8.8K


Вот как 3 месяца занимаюсь созданием контента для продвижения стартапа.

Из-за этого стал пристально следить за новостями из Хабра и другими источниками. И стало как-то грустно. Во многих тг каналах одно и тоже (может быть сетка каналов, здесь хз). На других площадках похожая ситуация.

И здесь я задумался. А может уже живые люди не ведут сайты/блоги/каналы? Может это делают заточенные под это чат боты?

Читать далее

Вклад авторов