Все потоки
Поиск
Написать публикацию
Обновить
767.73

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

LlamaIndex: создаем AI-бота без боли и страданий

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров24K

В этой статье рассмотрим мощный фреймворк для работы с большими языковыми моделями LlamaIndex: узнаем, как настроить и использовать LlamaIndex, и увидим его в действии на примере поиска ответа в заданном тексте.

Читать далее

Как взломать антиплагиат? — Безопасность и уязвимости NLP -классификаторов. Часть 1

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров5.5K

Всем привет! Меня зовут Артём Семенов, я занимаюсь пентестами в компании RTM Group.

Известная поговорка гласит: «Словом можно ранить, а словарём – убить». Это особенно актуально для темы, которую мы сегодня рассмотрим, ведь для атак мы будем использовать либо слово, либо огромный текст. В начале 2023 года ChatGpt произвёл фурор. Эта языковая модель может генерировать машинные тексты и писать стихи, которые максимально приближены к «авторскому» (человеческому) стилю. Казалось бы, при помощи систем антиплагиата проблему подделок можно было бы решить, но уже известно, что и их реально взломать – автор диплома, написанного с помощью ChatGPT, в своём твиттере описывает, как это сделать.

В этой статье я расскажу о том, какие недостатки содержат классификаторы, и как этим может воспользоваться реальный злоумышленник. Мы рассмотрим теоретические аспекты, а также проведем анализ безопасности текстовых классификаторов, – как распространёнными методами, так и нестандартными способами, с целью обхода систем классификации текста, а также обмана систем определения машинного текста. 

Дисклеймер

Данная статья носит исключительно образовательный характер и не призывает использовать описанные методы для нарушения академической честности. Наша цель - определить недостатки систем антиплагиата и возможности для их исправления специалистами в соответствующих областях.

 

Как мы готовились к проведению исследования?

В качестве систем для тестирования нашего текста мы взяли самые распространённые системы классификации естественного языка:

Читать далее

Рекомендательная система SVD

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров6.6K

Про SVD разложение и PCA. Решение задачи восстановления user-item matrix с помощью stochastic gradient descent.

Читать далее

Нейронные сети, графы и эмерджентность

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров7.6K

В этой статье я хочу попробовать осветить некоторые интересные, на мой взгляд, области науки, с которыми я сталкивался в контексте работы с нейронными сетями, и найти между ними взаимосвязь. Данная статья не претендует на истину в последней инстанции и является всего лишь попыткой посмотреть на нейронные сети под другим углом. Сразу предупреждаю - я не являюсь каким то глубоким специалистом в этих сферах.

Читать далее

Разбираем особенности алгоритмов CatBoost и LightGBM: какой от них профит

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров22K

Всем привет. Меня зовут Артур. Готовясь к выступлению на внутреннем митапе по теме особенности алгоритмов у CatBoost и LightGBM, я понял, что не смог найти единого места, где были бы понятным языком рассказаны основные особенности того, что алгоритмически работает под капотом у CatBoost и LightGBM. Причём не формальные записи алгоритмов на псевдокоде, а понятные пошаговые инструкции. Так появилась эта статья.

Читать далее

В каких задачах оглупел ChatGPT и как это исправить

Время на прочтение10 мин
Количество просмотров24K

Объяснение GPT 3.5 и 4.0, почему женщины лучше мужчин, в марте и июне 2023 года, источник

В относительно короткой истории программного обеспечения немало примеров, когда разработчикам удавалось настолько ухудшить продукты, что теми переставали пользоваться. Например, Windows ME (2000) или RealPlayer. Возможно, сейчас на эти старые «грабли» наступила и компания OpenAi. В результате последних обновлений ChatGPT-4 стал работать объективно хуже, что подтверждается не только жалобами на Reddit, но и результатами научного исследования специалистов из Стэнфордского университета в Беркли. Одновременно с этим вышли новые версии альтернативных LLM, такие как FreeWilli2 (первая нейросеть, которая побила GPT 3.5 в отдельных бенчмарках) на базе LLaMA 2. О разработке аналогичной модели объявила Apple и другие компании.

Проблему отупения ChatGPT можно обойти, если переключиться на более ранние версии этой модели. Но не факт, что это поможет самой компании OpenAI, ведь в июне 2023 года количество пользователей ChatGPT уже снизилось (впервые с момента выпуска этого продукта).
Читать дальше →

Крестики-Нолики (Tic Tac Toe) с компьютером на Python. Часть 2: шаг к ML

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.9K

Всем привет. Я любитель Python и совсем недолго осваиваю язык всеми доступными способами. Моя цель - понять принципы машинного обучения и его взаимосвязь с нейросетью. Никакого опыта в IT не имел, тем не менее постараюсь излагать общепринятой терминологией, не судите строго. Моя основная профессия не менее сложная (оперирующий травматолог, кандидат наук), далека от IT, но для упрощения работы в нее все больше внедряются AI и ML.

Хотел бы присоединиться к какому-то проекту на границе практической медицины и машинного обучения. Для этого решил публиковать оригинальные статьи, чтобы как-то начать IT портфолио в дополнение к аналогичному "из операционной".

В первой части статьи рассказывалось о новом программном алгоритме игры человека с компьютером в качестве «Х» или «О» игрока, избегая классического «дерева для конечного числа ходов». Цель - ситуационный анализ только текущего поля и выбор "лучшего следующего хода".

Во второй части "лучший ход" будет взят на основе нейросети из базового файла .csv с результатами 50000 случайных игр компьютера с самим собой. Причем все последующие игры пользователя и машины будут также продолжать вноситься в файл, если ранее их там не было. Этот принцип я взял из ML шахматных движков, основанных на записи в DB результатов игр профессионалов за полтора века. Контроль качества провел, сыграв 100 игр с web Tic-Tac-Toe от Google, выбрав роль посредника между ним и моей программой на Python. 

Кому будет полезен материал: любителям Python, логики, алгоритмов. В финальном коде обоих проектов все переменные, функции и действия прокомментированы на английском.

Читать далее

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.8K

Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики.

Организаторы поставили простую, казалось бы, задачу — точно определить, в каких случаях игроки сталкиваются друг с другом во время матча по американскому футболу. Мы с коллегами приняли участие, но не успели реализовать все свои идеи. Зато изучили подходы других команд и поняли, что были на верном пути. В этой статье я рассмотрю некоторые из решений, которые принесли денежное вознаграждение и золотые медали участникам этого челленджа. 

Читать далее

Теория вероятностей в разработке: где применяется и что можно изучить для более глубокого понимания темы

Время на прочтение4 мин
Количество просмотров4.7K

Часто приходится слышать, что математика, включая статистику и теорию вероятностей с комбинаторикой, не слишком нужна разработчику. Что ж, в некоторых случаях это действительно так. Но для представителей ряда направлений всё это нужно. Кому именно требуется теория вероятностей с сопутствующими дисциплинами и зачем? Об этом поговорим под катом. И сразу хочу пояснить, что статья предназначена для начинающих специалистов. 

Читать далее

Как изменится проверка паспорта в банках после отключения сервиса МВД

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров13K

С июля российские банки лишились возможности использовать решение МВД для проверки подлинности паспорта РФ. Отключение сервиса, работавшего более 7 лет, стало неприятным сюрпризом для банкиров. ЦБ напомнил им о возможности использования прочих информационных систем, как предполагает 115-ФЗ. На этом фоне AI-компания Smart Engines заметила рост интереса к собственной системе распознавания и проверки подлинности паспорта Smart ID Engine 2.0. В нашей статье мы расскажем о вариантах идентификации клиентов, и о том, какие преимущества дает банкам Smart ID Engine 2.0 в цифровых каналах и офисах.

Читать далее

Обработка растровых данных для ML-индикации оруденения. Или как можно сэкономить миллиарды на геологоразведке

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров1.8K

Цифровой бум в поисках золота продолжается.

Мы активно стали применять метод обработки первичных растровых данных для последующего применения методов ML с целью индикации вероятной локализации оруденения. И даже есть отличные результаты.

История индикатора уходит в недалекий 2018 год, когда с развитием цифровых технологий многие разочаровались в этом, ожидая что‑то грандиозного, когда система сама покажет, где искать, где копать. Тогда и зародилась идея о том, что нужна не просто «указка», где искать, а индикатор, чтобы он как бы подсвечивал вероятные участки оруденения. В данной статье разберу пару успешных кейсов как следствие применения данной разработки.

Но сначала о самом методе...

Читать далее

Книга «Грокаем глубокое обучение с подкреплением»

Время на прочтение13 мин
Количество просмотров13K
image Привет, Хаброжители!

Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах.

Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Читать дальше →

Как создавать качественные ML-системы. Часть 2: приручаем хаос

Время на прочтение11 мин
Количество просмотров4.1K


Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
Читать дальше →

Ближайшие события

Как мы научили Алису реагировать на быстрые команды

Время на прочтение9 мин
Количество просмотров22K

Голосовые ассистенты активируются «по имени» — это всем привычно. Но как быть, если нужно несколько раз повторять команду из одного слова? Например, чтобы настроить музыку, говорить каждый раз «Алиса, громче» и «Алиса, дальше» утомляет. Кроме того, в некоторых сценариях важна скорость выполнения действия: например, когда нужно включить свет в комнате. 

Для таких случаев мы научили Алису распознавать быстрые команды — то есть те, для которых её не нужно звать по имени. Достаточно просто сказать «громче», «дальше» или «включи свет». И в этой статье я расскажу, что из себя представляет новая функция, как мы её разрабатывали, с какими сложностями столкнулись. А ещё немного поговорим про распознавание и свёрточные модели.

Дальше!

Как аннотировать документы для обучения ИИ распознавания текста

Время на прочтение6 мин
Количество просмотров2.7K

Введение в ИИ для распознавания текста



Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.

Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.

По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать дальше →

Как ML не стал «новым» программированием, но улучшил старое

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.8K

Сегодня мы находимся на переходе от ML творческого, в котором человек творит как художник, к ML энтерпрайзному, похожему на разработку в классическом понимании. В 2014 году в России появилась магистратура по машинному обучению, то есть уже начали готовить специалистов. Примерно тогда рандом форест и градиентный бустинг начали заезжать в прод. Тем не менее всё ещё мало кто может внедрить весь этот зоопарк моделей и алгоритмов ML в бизнес.

Меня зовут Андрей Зубков, я глава отдела AI в ЕВРАЗе. Расскажу о том почему и откуда возникают проблемы внедрения ML в бизнес и подумаю вместе с вами как достигать взаимопонимания с заказчиком.

Читать далее

Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана

Время на прочтение7 мин
Количество просмотров8.3K


Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта, проектной документации, ценности для бизнеса и требованиях. О том, как начинать с малого и быстро отказываться от слабых идей. Руководство пригодится дата-сайентистам, специалистам по машинному обучению, руководителям отделов, техническим руководителям или тем, кто хочет дорасти до этого уровня. 
Читать дальше →

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров6.4K

Лавка — сервис быстрой доставки продуктов. Один из важнейших сценариев использования сервиса для покупателя — это поиск. Примерно 30% товаров добавляются в корзину именно из его результатов. А ещё, если в пользовательской сессии был успешный запрос в поиск, вероятность совершения заказа вырастает на 10–15%. То есть, если клиенту нужен конкретный продукт и он его быстро находит через поиск, вероятность совершения заказа становится выше.

Корректная и качественная организация поиска — нетривиальная задача, поэтому иногда приходится придумывать нестандартные решения, чтобы всё работало как нужно. В этой статье я расскажу историю развития поиска в Лавке от самого начала до текущего момента. Нам пришлось объединить всю силу и мощь целых трёх движков, чтобы пользователи получали точный и актуальный результат. Параллельно погрузимся в различные технические детали, проблемы и прочие нюансы.

Найти товары!

Большие языковые модели: вносим порядок в семейный балаган

Время на прочтение21 мин
Количество просмотров11K

Часто в прикладных задачах NLU при создании эмбеддингов приходится использовать уже обученные модели. Но что если вы работаете со специфичными или нестандартными текстами? Какие модели для создания эмбеддингов выбрать и где их взять, а может быть лучше обучить их на своих данных? О том, какую модель из растущего семейства больших языковых моделей выбрать, как их обучать, а также немного о кейсах применения нашумевшей ChatGPT разбираемся в блоге ЛАНИТ под катом. 

Читать далее

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Время на прочтение6 мин
Количество просмотров47K

Технологии распознавания печатного текста появились около 30 лет назад, существенно облегчив жизнь и ускорив многие бизнес-процессы. В то же время распознавание курсива оказалось куда более сложной задачей, которую удалось решить лишь благодаря развитию нейросетей.

В этом посте рассказываем о собственной технологии Content AI — распознавании русского рукописного текста, которая уже вошла в новую версию нашего продукта ContentCapture — универсальную платформу для интеллектуальной обработки информации.

Читать далее

Вклад авторов