Все потоки
Поиск
Написать публикацию
Обновить
771.17

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Галлюцинации нейросетей: что это такое, почему они возникают и что с ними делать

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров18K

Новости о достижениях нейронных сетей появляются практически каждый день — ChatGPT, Midjourney и другие являются суперпопулярными историями в Google Trends. Нейронные сети, похоже, стали всемогущими и могут заменить людей на рабочих местах.

Да, машины в состоянии решить множество задач, но их «мозги» недостаточно хороши. Например, роботы вообще не обладают творческими способностями. Кроме того, у ИИ часто случаются галлюцинации, а потому он не является надёжной заменой человеку. Особенно в тех областях, где речь идёт о жизни и здоровье.

Читать далее

Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.2K

Привет, Habr !

Я работаю инженером по машинному обучению в Мегафоне. Занимаюсь аналитикой данных и являюсь частью команды разработки MLOps платформы. Задача нашей команды состоит в том, чтобы выстраивать и оптимизировать процессы разработки и продуктивизации моделей машинного обучения, предоставлять функционал для основных этапов (сбор данных, MQ/DQ, продуктивизация).

Сегодня поговорим о том, какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения.

Видеозапись по мотивам статьи можно посмотреть здесь.

Эта статья будет интересна аналитикам и инженерам, которые работают с BigData и регулярно сталкиваются с необходимостью продуктивизировать модели на Hadoop.

Читать далее

Как развернуть свой собственный ChatGPT, только лучше

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров92K

Бесплатная версия ChatGPT не включает в себя доступ к языковой модели GPT-4 -  самой современной и продвинутой модели от OpenAI. Хотя платная версия снимает эти ограничения за $20 в месяц, однако оплатить её с помощью карты Российского банка тоже не получится

К тому же интерфейс ChatGPT не менялся уже почти год, в то время как сторонние решения предоставляют набор полезных и удобных инструментов уже сейчас.

Читать далее

Всё идет по плану: как задавать роботу список действий с помощью языковых моделей и голосовых команд

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров3.6K

Всем привет! Этим летом мы с командой участвовали в летней школе AIRI, где нам было предложено реализовать учебный проект. Мы выбрали себе задачу на стыке языковых моделей и робототехники. В частности, мы реализовали полноценный фреймворк, в котором можно строить собственные пайплайны для построения системы генерации плана с помощью языковых моделей, причем с интерфейсом ввода на основе распознавания русской речи. Кроме того, мы придумали собственную систему валидирования и подсчета метрик качества выполнения задач.

Работа оказалась настолько сложной и интересной, что нам захотелось рассказать о ней большему числу людей, а не только тем, кто был на школе. Ну а чтобы контекст работы был немного понятнее, мы добавили в наше повествование небольшой обзор методов планирования (в том числе с помощью языковых моделей), а также распознавания речи. Надеемся, наш рассказ будет интересным и полезным. Погнали!

Читать далее

Когда стоит заменить A/B-тестирование сэмплированием Томпсона

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.2K

Какую рекламу показать пользователю, красную или синюю?

Представьте, что вам нужно выбрать один из двух баннеров: красный или синий. Разумеется, вам бы хотелось показывать пользователю рекламу с наибольшим откликом.

Но как узнать, какой из баннеров имеет наибольший уровень кликабельности?

Чаще всего для ответа на этот вопрос используется A/B-тестирование. Группа пользователей разделяется пополам, и первой части показывают один баннер, а второй — другой. После этого можно вычислить уровень кликабельности и выбрать лучший из вариантов.

Предположим, что в конце A/B-тестирования у вас получились следующие результаты:

Читать далее

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

Время на прочтение6 мин
Количество просмотров12K

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

Читать далее

Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5.3K

Классификация сетевого трафика является важным процессом, необходимым для правильной организации передачи данных между приложениями, которые его генерируют. Определение трафика в DPI обеспечивает основу для множества сетевых функций, таких как управление, обеспечение безопасности, разделение услуг, полисинг и другие.

В данной статье мы рассматриваем новый подход к классификации прикладных протоколов в сетевых пакетах.

Читать далее

Python в Excel, базы данных без SQL и трудности в аналитике

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров13K

Привет, Хабр! Сегодня — международный день доступа к информации, поэтому делюсь с вами интересными материалами по ML, AI и дата-аналитике. В новом выпуске вас ждут новинки от Nvidia для LLM, три пути развития аналитического стека, инструменты для анализа данных и другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать дальше →

PyTriton inference server c Gradio: быстро и просто делаем демо для ML-проектов

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров6.5K

Рассмотрим то как можно в одиночку быстро создать сервер и UI для ML приложения на Python с перспективой вывода в prod. Исследуем PyTriton и немного Gradio.

Читать далее

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.8K

Привет! Продолжу рассказ о том, как мы превращаем банк в «биг дата» — организацию. Очевидно, что чем больше данных использует компания, тем больше зависит от их качества. Но, зачастую, вопросам качества данных при разработке витрин уделяется недостаточно внимания. Это связано с тем, что требования к качеству данных не фиксируются в бизнес‑требованиях, а разработчик витрины/инженер данных не всегда досконально знает предметную область. Будущее — за организацией контрольных мероприятий в контуре бизнес‑заказчиков. Этот тренд получил название Self‑Service функции. У нас в Газпромбанке по такому принципу строится проверка качества данных для ML‑моделей. Каждому аналитику/разработчику моделей доступен функционал оценки качества данных любой витрины. Рассказываю, как выстроили такую схему работы.

Читать далее

Тест-драйв PyTorch 2.0 и заглядываем под капот «двушки»

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров8.9K

Привет, Хабр!

На связи участники профессионального сообщества NTA Рощупкин Богдан, Сахоненко Егор и Алёшин Максим.

В посте мы рассмотрим, насколько эффективен torch.compile() на практике, заглянем под капот «двушки» PyTorch 2.0, чтобы узнать, как работает этот метод и какие преимущества он дает.

Разработчики PyTorch заявляют, что torch.compile() может дать прирост производительности до 50% по сравнению с обычным кодом PyTorch. Для проверки этого заявления мы проведем ряд экспериментов на разных моделях и данных, выясним, есть ли реальная выгода от использования torch.compile().

Заглянуть под капот

Нейросеть, генерирующая нейросети. Часть 1. Генерация случайной свёрточной нейронной сети

Время на прочтение11 мин
Количество просмотров9.3K

Многие люди, когда либо имевшие дело с нейронными сетями, наверняка задумывались, можно ли написать нейросеть, которая сама будет создавать нейросети для решения каких-либо задач. Так вот в этом цикле статей я решил реализовать это. Одним из этапов алгоритма будет генерирование нейросети из списка слоёв. В связи с некоторыми ограничениями, накладываемыми методами реализации (о которых будет сказано в следующих частях, когда мы начнём объединять код из этой статьи с RL ʕ⊙ᴥ⊙ʔ ), входные данные для генератора будут представлены в виде строки случайной длины, содержащей упорядоченный набор слоёв с их параметрами. Генерировать сеть будем для задачи классификации картинок (разобьём это пугало первым).

О реализации на python+pytorch читать тут

Топ 10 deepnude нейросетей 2025 года

Время на прочтение5 мин
Количество просмотров996K

DeepNude — это технология, использующая нейросети для создания изображений обнаженных тел на основе одетых фотографий или видео. Суть этой технологии заключается в том, чтобы "снять" одежду с изображения человека с помощью искусственного интеллекта и показать, как, предположительно, выглядит тело человека под одеждой.

Итак, в данной статье поговорим о пикантных и для некоторых людей непристойных темах, которые больше всего интересуют наше общество - обнаженное тело. Сделаем обзор таких сервисов как: Deepnude.ai, Deepfake.com, DeepSwap.ai, SoulGen и прочих.

Читать далее

Ближайшие события

Странные позы, лишние пальцы и много котиков: самые интересные баги Midjourney

Время на прочтение5 мин
Количество просмотров12K

За время существования Midjourney пользователи сгенерировали петабайты изображений. Сколько из них действительно качественные — открытый вопрос. Машинное обучение интересно свей непредсказуемостью: часто генеративные нейросети коверкают иллюстрации, придумывают новые объекты, рисуют франкенштейнов — в общем, странно самовыражаются.

Часть багов разработчики Midjourney пофиксили, но некоторые существуют и сейчас. Мы потратили целый день, чтобы уговорить нейросеть заменить человека на картинке, но ничего не вышло. Смотрите, что создает Midjourney, когда ошибается, и угадывайте, какие баги мы зашифровали в обложке.
Читать дальше →

Вышел Savant 0.2.5: фреймворк компьютерного зрения на базе Nvidia DeepStream SDK

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.2K

Savant - это высокоуровневый фреймворк с открытым исходным кодом для создания высокоэффективных приложений компьютерного зрения, работающих в реальном времени на стеке Nvidia. Он позволяет разрабатывать динамические, отказоустойчивые конвейеры, используя лучшие подходы Nvidia для ускорителей в центрах обработки данных и на границе.

Мы рады представить вам новую версию Savant - 0.2.5. Мы работали над этим релизом более 2,5 месяцев. Он содержит значительные изменения, новые возможности и исправления ошибок в нескольких областях, но в первую очередь мы улучшили возможности для разработчиков и варианты развертывания.

Читать далее

Нейросети в образовании

Время на прочтение6 мин
Количество просмотров7.1K

Привет, друзья! Знаете ли вы, что за большинством привычных вам услуг стоит ИИ? Он уже везде, не побоюсь этого слова, даже в образовательных продуктах, включая разнообразные курсы. 

Наша команда в ЛАНИТ последнее время работает над продуктами, которые используют такое чудо техники, как нейросети, в частности GPT. В процессе нашей работы мы столкнулись с кучей интересных сервисов, которые используют ИИ и могут быть полезны для решения задач в учебе. И я с удовольствием поделюсь самыми крутыми из них. Так что сделайте себе чашечку кофе и удобно устройтесь, впереди десять минут полезностей. Начинаем!

Читать далее

Как генеративный ИИ будет использоваться в разработке игр в ближайшее десятилетие: исследование Bain&Company

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.3K

Генеративный ИИ сейчас переживает настоящий бум, находя применение в самых разных сферах, но одной из самых интересных и перспективных областей для его использования является разработка видеоигр. На данный момент некоторые крупные игровые компании уже начали применять ИИ-модели на стартовых этапах создания игр – например, для генерации идей развития сюжетной линии. Однако очевидно, что это только начало, и годами роль ИИ в этой сфере будет неуклонно расти. Как же именно он сможет изменить игровую индустрию?

Читать далее

История «некоммерческой» лаборатории OpenAI, которая полюбила деньги

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров38K
Логотип OpenAI в главном офисе, 2020 год, источник

Лаборатория OpenAI образована 11 декабря 2015 года как некоммерческая организация, которая должна работать на благо всего человечества. Абсолютно бескорыстно, принося пользу всей цивилизации, публикуя свои наработки в открытых репозиториях для всех людей. Главной идеей была забота, что будущий сильный ИИ может оказаться в частной собственности какой-то корпорации — а этого нельзя допустить. Поэтому и создали «общественную лабораторию».

Но со временем ситуация изменилась. Сначала в 2019 году пришлось зарегистрировать дочернюю структуру OpenAI LP (limited partnership), имеющую право на коммерческую деятельность и получение прибыли. Структура была нужна «чисто формально» для оформления инвестиций, которые фирма обязана вернуть из будущей прибыли. Поскольку у некоммерческой лаборатории по определению нет прибыли, то «пришлось» зарегистрировать LP. Просто чтобы получить инвестиции.
Читать дальше →

Банк в кармане: как МКБ применяет решения для распознавания Smart Engines

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1K

Московский кредитный банк (МКБ) уже три года применяет систему распознавания QR-кодов Smart Engines на смартфоне. Внедрение было визионерским: банк предвосхитил тренд на этот способ оплаты товаров и услуг.

Сегодня мы расскажем, как МКБ выбирал партнера по технологии распознавания, а также о том, каким образом банку удалось одним из первых в стране внедрить в мобильное приложение сканер номера телефона и как сейчас ИИ применяется в обслуживании клиентов вне офиса.

Читать далее

Как мы распознавали цвета медицинских тест-полосок с помощью ИИ для healthcare стартапа

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.9K

Рассказываем, как Технологика и стартап цифровой медицины запустили мобильное приложение, которое при помощи ИИ анализирует цвета медицинских тест-полосок и трактует результаты показателей мочи.

Читать далее

Вклад авторов