Статьи / Профиль Ologos / Хабр

@Ologos

Пользователь

Подписчики

ПрофильСтатьи4Посты1НовостиКомментарии12

Ologos 14 дек 2024 в 00:10

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Средний

11 мин

6.6K

Информационная безопасность * Искусственный интеллектМашинное обучение * Программирование * Научно-популярное

Мнение

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.

Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио.

Суть BoN Jailbreaking — в добавлении искажений во входные данные модели для поиска уязвимостей защиты методом проб и ошибок. Исследователи продемонстрировали высокую эффективность метода на моделях GPT-4, Claude, Gemini и др.

Ologos 8 дек 2024 в 17:49

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Средний

33 мин

40K

Кейс

Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного перевыполнил свой план. К сожалению, я был ограничен в объеме по написанию научной статьи, и много интересного материала пришлось вырезать или сократить. Поэтому, тут я хотел бы написать полную версию моей статьи, во всяком случаи, какой я бы хотел ее видеть.

Как итог - у меня получилось полностью снять защиту в современной и защищенной языковой модели, и написать программу которая это автоматизирует. Эта модель признана одной из лучших.

+62

Ologos 2 дек 2024 в 21:34

Как получить доступ к Claude (web/api) из России в 2024?

Простой

10 мин

175K

Проектирование API * ДизайнПрограммирование * Искусственный интеллект

Туториал

Получить доступ к Claude из России может показаться сложной задачей из-за региональных ограничений сервиса. В этой статье я подробно расскажу, как зарегистрироваться в веб-версии и API Claude, какие инструменты потребуются для обхода ограничений, и как безопасно пользоваться сервисом в дальнейшем. Руководство основано на личном опыте и включает актуальные на конец 2024 года способы регистрации, проверенные на практике.

Поискав на русскоязычных ресурсах я понял, что практический полезной информации там крайне мало, либо же она могла не учитывать изменения в работе сервиса. Простым пользователям приходиться собирать информации буквально по крупицам - с разных видео на ютюбе, форумах или поверхностных статьях.

Поэтому я решил создать актуальное руководство, основанное на своем личном опыте, знаниях и учитывая все подводные камни, которые могут встретить неопытного пользователя Claude.

Ologos 29 ноя 2024 в 08:16

Обзор на Model Context Protocol (MCP) от Anthropic

Средний

6 мин

24K

TypeScript * Искусственный интеллектПроектирование API * Программирование *

Из песочницы

Перевод

На заре появления LLM пользователям приходилось просто копировать свой код в текстовое окно, чтобы ИИ могла его обработать. Естественно, такой подход быстро всех утомил, и разработчики начали искать свои способы загрузки данных в модель. У этого подхода была серьезная проблема — каждому приходилось изобретать велосипед заново.

Именно поэтому появился протокол MCP (Model Context Protocol) — универсальный способ дать искусственному интеллекту доступ к нужным данным, неважно где они хранятся — на компьютере пользователя или же в интернете.

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Как получить доступ к Claude (web/api) из России в 2024?

Обзор на Model Context Protocol (MCP) от Anthropic

Информация

Специализация