Обновить
777.38

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Разработка производительного распознавателя автономеров для edge-устройств

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.6K

«Мы всего лишь хотели пофиксить баги в своем продукте, а психанули и создали аналог одной из библиотек» — CV-инженеры CodeInside.

Итак, в созданной нами системе мониторинга транспортного потока Smart Traffic System доступен функционал по распознаванию номерных знаков автомобилей.
Для работы этой функции ранее мы использовали библиотеку автоматического определения и распознавания автомобильных номеров — opensource-решение Nomeroff-net.
Однако, во время пользования этой библиотекой, столкнулись с долгим запуском и inference + библиотека занимала большое количество оперативной памяти. Так как мы решали эти проблемы в коммерческом проекте, кода здесь не будет. И вместе с тем, в статье указали репозиторий, конкретные шаги решения, чтобы при возникновении аналогичных проблем, вы смогли адаптировать его под свой проект.

Читать далее

LLM Leaderboard за февраль 2024

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели5.8K

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работаю на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе.

Читать далее

Почему ваши витамины и лекарства не работают на 100%? Машинное обучение нашло ответ

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели8.4K

В период пандемии ковида и недавней эпидемии гриппа многие из нас прибегали к употреблению большого количества витаминов и микроэлементов, для поддержание иммунитета. Выбор БАДов в аптеках по всей стране весьма широкий и привлекательный, однако совместное их применение очень ограничено.

Почему, например, не рекомендуется одновременно принимать железо и цинк? Они же оба положительно влияют на формирование иммунитета. А ведь это распространяется и на многие лекарственные препараты!

Все дело в белках-переносчиках. Определение переносчиков, используемых конкретными лекарствами, может помочь улучшить лечение или предотвратить заболевание, так как употребление препаратов, зависящих от одного белка, мешает их усвоению и даже повышает риск токсичности и прочих побочных эффектов.

К сожалению, для многих препаратов эти белки неизвестны.

В этой статье я подробно опишу процесс создания метода, основанного на машинном обучении, способного определять белки-переносчики для запрошенных препаратов и определять пары веществ с общими транспортерами.

Приятного чтения! :)

Читать далее

Как взламывают биометрию и заставляют нейросети придумывать способы атак: топ-6 докладов с PHDays о ML и AI

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.5K

Машинное обучение — особенно генеративные нейронные сети, такие как ChatGPT, — меняет мир нечеловеческими темпами. Разработчиков на некоторых дистанционных собеседованиях просят направить веб-камеру на рабочее место и клавиатуру, чтобы понимать, самостоятельно ли соискатель выполняет задания. Amazon ограничивает авторов самиздата загрузкой на сайт трех книг в день — фанфики и другая проза создаются неестественно быстро для «кожаных мешков». Поумневшие чат-боты приводят к массовым увольнениям сотрудников поддержки, а дизайнеры опасаются уступить конкуренцию Midjourney и Playground v2.

Генеративный AI словно говорит человечеству: «Сосредоточьтесь на важном, а я займусь искусствами, этими избыточными павлиньими хвостами хомосапиенсов, и рутиной». Люди ставят задачи, а огромная AI-фабрика по созданию цифрового контента их выполняет. Мечта многих, получается, осуществилась? Но преступники тоже используют AI или находят способы обмануть умные системы. Об угрозах ML и AI, в том числе для информационной безопасности, мы будем говорить в традиционном треке на киберфестивале Positive Hack Days 2. У вас есть время подать заявку до 15 марта, чтобы поделиться своим исследованием с 23 по 26 мая на стадионе «Лужники». А сейчас расскажем о некоторых любопытных докладах прошлых лет на ML-треке PHDays.

Читать подборку

История о том, как организовать соревнование по компьютерному зрению без правильных ответов

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели2.5K

В прошлом году наша научная группа организовала международное соревнование по рендерингу ночных изображений на конференции CVPR. Это, на минуточку, одна их трех самых престижных профильных международных конференций в году. Задача участника — создать алгоритм, который будет генерировать/рендерить по необработанному (RAW) изображению самое эстетически красивое изображение ночной сцены. Красота оценивалась независимо профессиональным фотографом и обычными пользователями.

Но получилось ли у участников покорить их сердца?

Читать далее

О странной фаллоцентричности модели GPT-J

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7K

TL;DR Статья посвящена находкам, описанным в моих постах Mapping the Semantic Void, часть I и II. Создав специальный эмбеддинг в центроиде токенов (векторе средних значений всех 50257 эмбеддингов токенов GPT-J ), при помощи промта приказав модели определить его и учтя логиты, можно создать «дерево определений» состоящее в подавляющем большинстве из туманных сформулированных неопределённостей. Это вряд ли может удивлять, ведь модели GPT-J, по сути, дают задачу определить «что-то среднее». Однако наиболее вероятная ветвь в дереве, дающая определение, содержащее что-то конкретное, определяет «призрачный токен» (ghost token) в центроиде как «мужской пенис» (a man's penis). Снизив уровень отсечки кумулятивной вероятности, чтобы создать длинные списки возможных определений, мы выясним, что почти все ветви, предоставляющие определения, касающиеся чего-то конкретного, связаны с сексом/деторождением, и среди них лишь время от времени встречаются связанные со статусом. Как обычно, я понятия не имею, что всё это значит, но буду рад вашим предположениям!

Читать далее

Как составить договор с помощью нейросетей

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели16K

В наше время технологии искусственного интеллекта все шире внедряются в различные сферы человеческой деятельности, включая юридическую практику. Одним из наиболее заметных примеров этого является использование нейронных сетей для создания договоров для тех или иных потребностей. Традиционно создание и анализ таких документов требовало значительных затрат времени и усилий со стороны юристов и специалистов. Однако благодаря прогрессу в области машинного обучения и нейронных сетей, теперь мы можем воспользоваться инновационными методами автоматизации этого процесса. Попробуем сделать договор оказания услуг с помощью ChatGPT как простые обыватели.

В этой статье мы рассмотрим, способны ли нейронные сети оптимизировать подход к составлению договоров оказания услуг, смогут ли предложить более эффективные, точные и быстрые решения, которые способны значительно упростить жизнь предпринимателей и юристов.

Поехали(:

Читать далее

Анализ зависимостей бинарных файлов на основе ML

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели3K

Всем привет! ? ? ? Мы стажеры-разработчики Тинькофф: Влад, Паша и Илья. В проекте по стажировкам в ИБ Summer of Code под руководством Ромы Лебедя мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML, поэтому мы разделили статью на несколько частей. 

В этой статье подробно расскажем о ML-стороне проекта: проведенные исследования, сложности, с которыми столкнулись в ходе работы, какой результат получили. В этой части делимся опытом использования Rizin и Milvus. Добро пожаловать! 

Читать далее

Нейронная сеть, имеющая способность к самообучению

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели14K

Всем привет! Недавно, когда я размышлял над работой памяти в мозге человека, мне пришла идея того, как можно сделать нейронную сеть, которая будет обладать способностью самообучаться. В этой статье я бы хотел представить свои размышления и идею, к которой я пришёл.

Читать далее

NLP для поиска грамматических ошибок

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели3.7K

Привет, Хабр!

Сегодня с вами участник профессионального сообщества NTA Журавлев Сергей.

В 2017 году на свет вышла статья разработчиков Google под названием «Attention is All You Need». В ней впервые была предложена идея трансформеров — моделей машинного обучения, ключевой особенностью которых было использование так называемых «слоев внимания», определяющих, какие слова и в какой степени важны для формирования контекста предложения. Публикация стала началом активного развития и продвижения моделей машинного обучения на описанной архитектуре.

Читать далее

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Уровень сложностиСредний
Время на прочтение41 мин
Охват и читатели120K

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Войти в симуляцию →

Приручаем нейросети

Время на прочтение6 мин
Охват и читатели19K

Давно не виделись, уважаемые!

Ну что ж, рад вас видеть, сегодня будем говорить и применять новые инструменты для создания RAG, улучшим качество наших результатов относительно прошлой статьи за счет использования других моделей для embeddings. Также затронем использование трушной векторной БД Chroma.

Читать далее

Учим большие языковые модели описывать продукты данных

Уровень сложностиСложный
Время на прочтение13 мин
Охват и читатели8.6K

Привет, Хабр! В этой статье мы рассмотрим использование больших языковых моделей на этапе подготовки описания продуктов данных для дальнейшего использования в аналитике. Это может улучшить автоматизацию процесса, предоставляя инструмент для создания описаний продуктов.

Читать далее

Ближайшие события

NLUX: Библиотека интерфейса Conversational AI

Время на прочтение5 мин
Охват и читатели2.1K

В современном мире взаимодействие с компьютерами и приложениями становится все более естественным и удобным благодаря использованию разговорных интерфейсов и искусственного интеллекта. Однако, интеграция таких функциональностей в веб-приложения может стать вызовом для разработчиков. В этом контексте библиотека NLUX (Natural Language User Experience) приходит на помощь, предоставляя инструменты для создания разговорных пользовательских интерфейсов в приложениях React.

В этой статье мы рассмотрим основные возможности и преимущества NLUX, а также рассмотрим примеры использования и интеграции данной библиотеки в разработку веб-приложений.

Начнем (:

Читать далее

Организация ML-монорепозитория с помощью Pants

Уровень сложностиСредний
Время на прочтение24 мин
Охват и читатели3K

Приходилось вам копипастить фрагменты вспомогательного кода между проектами, попадая в ситуацию, когда несколько версий одного и того же набора команд оказывались в разных репозиториях? Или, может, вам надо было делать pull‑запросы к десяткам проектов после того, как было изменено имя GCP‑корзины, где вы храните данные?

Подобные ситуации возникают в ML‑командах слишком часто. Тяжесть их последствий варьируется от мелких неудобств для отдельного разработчика до нарушения работы целой команды, которая оказывается не в состоянии вовремя выдать код, над которым трудится. К счастью, эти проблемы поддаются исправлению.

Предлагаю погрузиться в тему монорепозиториев. Это — архитектура, широко применяемая в ведущих технологических компаниях наподобие Google. Поговорим о том, как монорепозитории способны улучшить ваши рабочие процессы, связанные с машинным обучением. Монорепозитории дают тем, кто их выбирает, много полезного. Это, несмотря на то, что есть у них и недостатки, делает их привлекательным выбором для управления сложными ML‑экосистемами.

Сначала мы кратко обсудим сильные и слабые стороны монорепозиториев, поговорим о том, почему они — это отличное архитектурное решение для ML‑команд, коснёмся того, как их используют в крупных технологических компаниях. В итоге у нас появится представление о том, как воспользоваться возможностями системы сборки кода Pants для организации ML‑репозиториев при построении надёжной CI/CD‑системы для сборки проектов.

А теперь — в путь — к оптимизации управления проектами в сфере машинного обучения.

Читать далее

ИИ в 3D: Где мы сейчас и какое будущее нас ждёт? (Часть 2)

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5K

В предыдущей статье мы уже затрагивали задачу реконструкции 3D-объектов по их 2D-изображениям. В этой же углубимся в реконструкцию с головой! Вообще говоря, как мне кажется, сейчас мы рассмотрим гораздо более концептуально интересные методы, а именно - HSP и Mesh R-CNN. Это база, которая просто должна осесть в головах всех любителей ИИ в 3D!

Читать далее

Нео-РНН или Make RNNs great again

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели1.6K

Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других. 

Читать далее

Конец программирования, как мы его знаем, или Что нас ждёт с LLM

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели62K

«Большие языковые модели и конец программирования». Под таким заголовком в прошлом году прошла серия лекций доктора Уэлша, профессора информатики в Гарварде. В этом посте мы раскроем основные тезисы выступления, и в заключение попробуем взглянуть на будущее так же воодушевлённо, как автор.

Читать далее

Open-source ML от Apple

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.5K

Привет, Хабр! После недавнего релиза Apple VIsion Pro я задумался над тем, какой вклад компания внесла в open-source ML, ведь, очевидно, было много предпосылок, наработок и технологий, о которых массовый пользователь не знает. Но все это гарантировано сыграло роль в появлении тех продуктов на рынке, о которых слышал буквально каждый в мире. Поэтому свою первую статью я решил сделать в формате небольшого обзора того, чем занимались и продолжают заниматься Apple в ML, хотя, казалось бы, что там можно смотреть в продуктах с открытым кодом кроме сотни репозиториев про Swift. Попытаюсь выделить основные тренды за прошедшие года и поделиться тем, что сам нашел интересного (оставив позади вопрос о целесообразности развития ML на яблочных устройствах)

Читать далее

Использование теории игр для повышения прозрачности моделей машинного обучения

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.7K

Интерпретация современных моделей машинного обучения может быть чрезвычайно сложным делом учитывая, что количество параметров и весовых коэффициентов может идти на тысячи и даже миллионы. Тем не менее это совершенно необходимо, для повышения качества, обеспечения стабильности и предсказуемости работы модели. В этом нам может помочь теория игр, математическая дисциплина позволяющая выделить из сложного взаимодействия факторов модели отдельный вклад каждого в конечное предсказание.

Читать далее

Вклад авторов