Обновить
753.87

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Нейросеть-эмпат от Yandex Cloud сможет помочь бизнесу лучше понять эмоции клиентов. Новая ML-модель уже может определить негатив, неформальные высказывания и нецензурную лексику, а также пол спикера и его фразы в диалоге. Это позволяет улучшить качество аналитики телефонных разговоров, а также лучше адаптировать работу кол-центров под каждого клиента и оперативно реагировать на внештатные ситуации во время диалога.

В будущем алгоритм заработает в связке с YandexGPT: вместе нейросети смогут распознать более сложные эмоции, в частности — сарказм.

Новая ML-модель от Yandex Cloud работает в потоковом режиме, расшифровка и анализ эмоций происходит сразу во время разговора. Например, если абонент негативно общается с голосовым помощником, нейросеть может передать информацию об этом во внутреннюю систему заказчика, которая автоматически переключит его на сотрудника кол-центра. Если оператор нагрубил клиенту, эта система оповестит менеджмент о проблемах во время разговора.

Алгоритм может определять эмоции не только по содержанию речи спикера, но и по голосу, по скорости речи, высоте,тембру и другим параметрам. Нейросеть определяет пол участников разговора и поддерживает технологию speaker labeling – она отмечает, кому принадлежит та или иная реплика. Это позволяет полноценно работать с одноканальными звуковыми дорожками: например, при записи с диктофона или при технологических ограничениях виртуальной АТС.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Claude 3 можно научить черкесскому языку. Из-за принадлежности к адыгской подгруппе язык относительно изолирован от других. А ещё изучать его не так-то просто из-за сложной морфологии и ограниченности данных.

С таким необычным заявлением выступил энтузиаст hahahahohohe. В длинном твите он описал свою работу последних нескольких лет: из скудных источников он собрал 64 тыс. переведённых терминов и выражений, чтобы обучить модели русско-кабардинского машинного перевода.

Экспериментатор вставил в промпт справочные случайно выбранные 5,7 тыс. пар кабардинский – русский, затем попросил Claude 3 перевести текст. Казалось, что даже с малой толикой датасета БЯМ немедленно освоила то, на что у энтузиаста ушло 2 года.

Модель Opus продемонстрировала глубокое понимание структуры языка, правильно использовала заимствованные термины и проводила правдоподобный этимологический анализ. По запросу она могла даже сочинять новые термины.

Действительно, язык представлен в Интернете относительно слабо: в «Кабардино-черкесской Википедии» на сегодняшний день 1635 статей и 232 482 слов. Но в датасете предобучения язык всё же был в некотором объёме.

Как признался энтузиаст на следующий день, Claude 3 знает черкесский и так. Opus умеет переводить и общаться на языке, пусть и с ошибками. И вообще, поначалу модель переводить с черкесского просто отказывается, что и подкрепило иллюзию изучения языка из промпта.

Впрочем, предоставление дополнительных данных в промпте действительно улучшает качество работы модели.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Юристы и руководство OpenAI ответили на выдвинутые в адрес компании обвинения со стороны Маска.

В OpenAI заявили:

  • претензии Маска могут вытекать из сожалений, что он не участвует сейчас в работе компании;

  • компания категорически не согласна с иском и называла его «глубоко разочаровывающим». В OpenAI не оспаривают центральную роль Маска в первые дни существования OpenAI, но пояснили, что он в какой-то момент требовал полный контроль над компанией и контрольный пакет акций в ней, а также предлагал OpenAI слиться с Tesla;

  • руководство OpenAI опровергло заявление, что компания фактически стала дочкой Microsoft, так как миссия OpenAI — обеспечить, чтобы AGI приносил пользу всему человечеству. По словам руководства OpenAI, компания напрямую конкурирует с Microsoft и является полностью независимой;

  • глава OpenAI Сэм Альтман в отдельном пояснении ситуации назвал Маска своим героем и сказал, что скучает по его предыдущей более философской версии, которая предпочитала конкурировать с другими и создавать лучшие технологии.

Ранее Маск подал в суд на OpenAI и её соучредителей Сэма Альтмана и Грега Брокмана. Маск обвинил создателей ChatGPT в нарушении заключённого с ним учредительного договора, который предусматривал разработку ИИ во благо человечества, а не ради прибыли. «Фактически OpenAI превратилась в дочернюю компанию Microsoft, Под своим новым руководством OpenAI разрабатывает и совершенствует ИИ для максимизации прибыли Microsoft, а не на благо человечества», — говорится в иске.

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Исследователи раскрыли хак, как убрать из ChatGPT цензуру и заставить ИИ отвечать без ограничений со стороны разработчиков. Оказалось. что для этого нужно просто замаскировать запрос под арт ASCII.

После этого ChatGPT может сообщить различные ранее запрещённые для раскрытия инструкции и заблокированную информацию. Этот баг есть во всех популярных нейросетях — GPT-3.5, GPT-4, Gemini, Claude и Llama2.

Теги:
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

На Hugging Face опубликовали модель машинного обучения, которая помещает объекты из видео на хромакей. После этого их можно использовать в видеоредакторах или других приложениях. На платформе опубликовали саму модель и развернули демо, но оно плохо работает с большими видео из-за тайм-аута GPU.

Теги:
Рейтинг0
Комментарии0

Эксперты из JFrog выявили в репозитории Hugging Face вредоносные модели машинного обучения, установка которых может привести к выполнению кода атакующего для получения контроля за системой пользователя.

Проблема вызвана тем, что некоторые форматы распространения моделей допускают встраивание исполняемого кода, например, модели, использующие формат pickle, могут включать сериализированные объекты на языке Python, а также код, выполняемый при загрузке файла, а модели Tensorflow Keras могут исполнять код через Lambda Layer.

Для предотвращения распространения подобных вредоносных моделей в Hugging Face применяется сканирование на предмет подстановки сериализированного кода, но выявленные вредоносные модели показывают, что имеющиеся проверки можно обойти.

Кроме того, Hugging Face в большинстве случаев лишь помечает модели опасными, не блокирую к ним доступ.

Всего выявлено около 100 потенциально вредоносных моделей, 95% из которых предназначены для использования с фреймворком PyTorch, а 5% c Tensorflow.

Наиболее часто встречающимися вредоносными изменениями названы захват объекта, организация внешнего входа в систему (reverse shell), запуск приложений и запись в файл.

Источник: OpenNET.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

«Сбер» в публикации с финансовой отчетностью за 2023 год оценил финансовый эффект от применения ИИ в своем бизнесе в 350 млрд рублей.

GigaChat обходит ChatGPT-3,5 на русском и английском языках по результатам экзамена MMLU, утверждает «Сбер». Разработчики проекта пояснили, что они существенно дообучили нейросеть GigaChat, и теперь она способна общаться с пользователем, генерировать изображения и писать программный код на еще более продвинутом уровне.

По информации финансовой компании, число пользователей GigaChat достигло 2,6 млн человек. Генеративная модель для творчества Kandinsky 3.0 теперь создает более фотореалистичные изображения, полноценные художественные картины и стала одной из самых популярных в мире — число запросов к ней превысило 65 млн.

Для сокращения времени разработчиков на создание и совершенствование продуктов в «Сбере» используется ИИ-ассистент GigaCode. Он ускоряет процесс написания кода, предлагая наиболее вероятные и релевантные варианты продолжения кода в среде разработки в режиме реального времени. GigaCode помогает разработчикам «Сбера» писать более 20% кода в день.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Генеральный директор Google заявил, что ошибки, которые допустила модель Gemini, «совершенно неприемлемы». По словам Сундара Пичаи, они «оскорбили пользователей и продемонстрировали предвзятость» ИИ.

Глава Google говорит, что компания «работает круглосуточно» над решением проблем. «Ни один ИИ не идеален, особенно на этом новом этапе развития отрасли, но мы знаем, что планка для нас высока, и будем держать ее столько, сколько потребуется», — пишет он.

По словам Пичаи, Gemini уже демонстрирует существенные улучшения по выводу контента для широкого спектра подсказок. Однако он не уточнил, когда ИИ снова откроют для использования.

Теги:
Всего голосов 6: ↑5 и ↓1+4
Комментарии1

Ультрапромпты для ChatGPT:

  • задачи в наиболее эффективной последовательности: Analyze my tasks below and help me prioritize them using the Eisenhower Matrix: [Ваши задачи];

  • совет у любого топ-менеждера нужной сферы: I will provide you with an argument or opinion of mine. I want you to criticize it as if you were [Jensen Huang];

  • объяснить сложное просто: Can you explain the concept of (тема) in simple terms? Summarize the main principles and illustrate with examples to facilitate understanding;

  • сделать текст сильнее, исправить ошибки, проверить по теме: The following text is about (тема). Correct all the mistakes and incorrect sentence structures. If anything is wrong with the topic, please report it to me: (Ваш текст);

  • ёмкие выжимки из книг: Distill the most important lessons from {название книги} into a comprehensive, but digestible summary;

  • связь между явлениями, темами и исследованиями: Describe and explain with simple words the relationship between (тема 1) and (тема 2);

  • ссылки на достоверные источники: I want you to act as a research assistant and provide me with 5 reliable sources to learn about (тема). Give me the date and source link each time;

  • список ключевых терминов и определений из текста: What are some key terms I should know about (тема)? Make a list with a short and simple definition of each term each time;

  • финал: You are GPT-4, OpenAI’s advanced language model. Today, your job is to generate prompts for GPT-4. Can you generate the best prompts on ways to [Ваши задачи].

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Google временно закрыла опцию генерации изображений людей в Gemini. Ранее выяснилось, что ИИ создаёт неточные исторические изображения. 

«Мы уже работаем над решением недавних проблем с функцией генерации изображений Gemini», — говорится в заявлении компании. 

Теперь модель реагирует на соответствующие запросы так: «Мы работаем над улучшением способности Gemini создавать изображения людей. Ожидается, что эта функция скоро вернётся, мы сообщим вам об этом в обновлениях выпуска».

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Как добиться идеального качества локализации с автоматическим переводом нейронками?

Да все просто -- дать контекст!

Казалось бы, ML продукт, а на сайте перевод уровня 90-x. :) Train -- это ПОЕЗД, понимаешь ли, а модели -- это режимы. :)

Испанский стыд...
Испанский стыд...

Обычно типичная проблема «олд-скульного» подхода -- недостаток контекста. Даже если переводить самыми современными нейросетями, нельзя абсолютно всегда получать корректный результат, если подавать на вход какие-нибудь пункты меню, либо отдельные названия предметов в игре, либо пункты меню на сайте. Просто потому, что слова могут иметь несколько значений.

Современное решение довольно простое. Текстовые файлы для локализаций должны описываться в специальном формате, где каждый элемент будет иметь контекст, который используется лишь для описания объекта для нейросети, а само целевое слово/предложение будет выделяться (например, квадратыми скобками [ ] ) .

Например, у нас какой-то редактор с комнатой и кнопка "изменить пол". Без понимания контекста любая нейронка переведет это как "change gender", так что переводчику прийдется вручную эту ошибку исправлять.

Но если мы укажем

пункт меню для изменения дизайна вида поверхности пола в помещении: [изменить пол]

то нейросеть поймет контекст и выдаст нам корректный результат

Menu item to change the design of the floor surface view in the room: [change floor]

Нам остается только взять нужный текст внутри квадратных скобок, отбросив ненужный уже контекст.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

В 16:00 начинаем вебинар «Аналитические инструменты для ленивых».

Присоединяйтесь! Все участники получат бонусы для работы с ML-проектами.

Подробнее о программе вебинара →

Смотрите трансляцию прямо в этом посте или переходите на YouTube.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Ближайшие события

Эксперт предположил появление в РФ профессии по ИИ-этике.

«В будущем станет ещё больше профессий, связанных с разработкой, обучением и интеграцией ИИ-технологий. Среди них, например, аналитики, тестировщики и инженеры в сфере безопасности искусственного интеллекта, специалисты по комплаенсу использования ИИ-данных, эксперты по ИИ-этике и количественному анализу этики, дизайнеры пространства и аватаров для искусственного интеллекта, а также кураторы данных», — сообщил СМИ директор направления Data Fusion ГК «Лига цифровой экономики» Александр Кобозев.

Также эксперт добавил, что Минэкономразвития и Минтруд будут проводить анализ рисков, которые могут возникнуть после внедрения нейросетей в экономику. Кобозев уточнил, что сейчас большое внимание уделяется развитию высокочувствительных датчиков, в том числе квантовых сенсоров, которые будут применяться в промышленной сфере и системе здравоохранения.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Сооснователь компании OpenAI, экс-директор по ИИ и бывший глава отдела разработки автопилота Tesla Андрей Карпаты выпустил новую лекцию на Youtube под названием Let's build the GPT Tokenizer.

Это двухчасовая понятная и доступная лекция о токенах и токенизации в ChatGPT и других нейросетях. В видео Карпаты буквально на пальцах показывает, как именно нейросеть GPT читает текст, как дробит его на единицы и что в нём выделяет. Учебный материал поможет начинающим пользователям углубиться в изучение нейросетей, а также лучше понимать их устройство.

Сопроводительный материал к лекции с подробными комментариями к используемому коду Карпаты выложил на GitHub.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

В своих разработках «Криптонит» активно использует искусственные нейронные сети. Поэтому мы решили расшифровать связанные с этой сферой термины и их практический смысл. Все материалы из рубрики "Нейрословарь" подготовлены при помощи наших экспертов из лаборатории больших данных.

MPNet — это гибридная языковая модель, разработанная в 2020 году компанией Microsoft и китайским Университетом науки и технологий в Нанкине. Её название расшифровывается как Masked and Permuted Pre-training for Language Understanding (маскированное и перестановочное предварительное обучение для понимания языка).

Необходимость в разработке MPNet была продиктована тем, что в современных языковых моделях используются два основных подхода к обработке лексем: это масочное и пермутационное моделирование языка (MLM и PLM соответственно). PLM лучше учитывает зависимости между лексемами на выходе, а MLM эффективнее выполняет предварительное обучение и тонкую настройку согласованности.

MPNet объединяет сильные стороны MLM и PLM. Перестановки учитывают только локальный контекст (соседние слова) и ничего не знают о положении предсказываемого слова (или токена) в предложении, а при маскировании модель видит всё предложение целиком, кроме замаскированного слова. Она знает глобальный контекст предложения и положение слова, но плохо учитывает локальный контекст.

#нейрословарь

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Вебинар для тех, кто работает с аналитикой данных и ML

Привет! 22 февраля мы проведем вебинар «Аналитические инструменты для ленивых».

Что будем делать:

  • покажем, что делать, если хочется заниматься аналитикой данных, а не установкой библиотек и инструментов;

  • расскажем, как получить доступ к GPU без лишней настройки;

  • запустим несколько изолированных JupyterLab на одной GPU;

  • поговорим об обучении ML-моделей и о том, как развернуть собственную LLM. 

Вебинар будет полезным для всех, кто работает с аналитикой данных и ML, а также интересуется темами Data science, MLOps, DevOps и BI.

Регистрация на вебинар →

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

OpenAI представила свою первую Text-To-Video модель Sora.

Sora — генеративная модель, которая создаёт видеоролики по текстовому описанию. Первая версия даёт возможность генерировать видео продолжительностью до одной минуты.

На данный момент модель недоступна широкой публике. OpenAI разрешила её использование только ограниченному числу тестеров опасаясь злонамеренного использования.

Пример видео:

Prompt: Beautiful, snowy Tokyo city is
bustling. The camera moves through the bustling city street, following
several people enjoying the beautiful snowy weather and shopping at
nearby stalls. Gorgeous sakura petals are flying through the wind along
with snowflakes.

Теги:
Всего голосов 11: ↑11 и ↓0+11
Комментарии3

Amazon изъяла из продажи новые книги о Карле III, написанные с помощью ИИ, из-за опасений, что произведения содержат ложную информацию о заболевании короля.

Согласно заявлению Amazon, компания прекратила продажу изданий, которые «нарушают правила содержания». Контент, созданный ИИ, не запрещен, однако неприемлем тот, который наносит ущерб клиентам.

Книги на площадке рекламировались как написанные неизвестными авторами. Одно из подобных сочинений под названием «Битва короля: Карл III и его борьба с раком» появилось в продаже 5 февраля — в тот же день, когда было объявлено о диагнозе монарха.

В книгах есть главы с предположениями относительно того, какой тип онкологического заболевания у 75-летнего короля. Также они включают подробности, что испытывал монарх, узнав о диагнозе.

Букингемский дворец заявил, что любые публикации, в которых высказываются предположения о диагнозе и лечении короля, «навязчивы, бесчувственны и полны неточностей». Команда юристов королевского дома «внимательно изучит этот вопрос», говорится в сообщении.

5 февраля у Карла III диагностировано онкологическое заболевание, он проходит
курс амбулаторного лечения. 

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Глава OpenAI Сэм Альтман раскрыл, что чат-боты компании сейчас генерируют около 100 миллиардов слов в день. Он напомнил, что люди на земле генерируют около 100 триллионов слов в день. Чтобы догнать человечество по этому параметру, Альтману нужно больше мощностей и ИИ-чипов.

Ранее СМИ сообщили, что OpenAI ищет до $7 трлн для производства собственных чипов искусственного интеллекта. Компания намерена запустить программу, которая будет уделять больше внимания аппаратной части. План OpenAI направлен на решение текущих проблем, с которыми сталкивается отрасль. Речь идёт о нехватке ИИ-чипов, необходимых для обучения больших языковых моделей, таких как ChatGPT. Требуемая OpenAI сумма значительно превышает общий объём продаж всей полупроводниковой промышленности. Кроме того, эта сумма превышает рыночную капитализацию Microsoft и Apple вместе взятых.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Вклад авторов