Articles / Profile of Ologos / Habr

@Ologos

User

ProfileArticles4Posts1NewsComments12

Ologos Dec 14 2024 at 00:10

Новый универсальный метод взлома LLM от Anthropic «Best-of-N Jailbreaking»

Medium

11 min

6.6K

Information Security * Artificial IntelligenceMachine learning * Programming * Popular science

Opinion

Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.

Новый способ взлома «Best‑of‑N Jailbreaking» описывает универсальный метод обхода защиты передовых AI‑моделей, работающий с текстом, изображениями и аудио.

Суть BoN Jailbreaking — в добавлении искажений во входные данные модели для поиска уязвимостей защиты методом проб и ошибок. Исследователи продемонстрировали высокую эффективность метода на моделях GPT-4, Claude, Gemini и др.

Ologos Dec 8 2024 at 17:49

Как я взломал одну из самых топовых нейросетей (Claude 3.5 Sonnet) для студенческой научной статьи

Medium

33 min

39K

Case

Я — простой студент, который обучается по направлению «Информационная безопасность». Так вышло, что по программе мне нужно было написать научную статью по теме ИБ. Будучи авантюристом я выбрал тему, которая была мне ближе и интереснее... и так получилось, что в пылу энтузиазма я немного перевыполнил свой план. К сожалению, я был ограничен в объеме по написанию научной статьи, и много интересного материала пришлось вырезать или сократить. Поэтому, тут я хотел бы написать полную версию моей статьи, во всяком случаи, какой я бы хотел ее видеть.

Как итог - у меня получилось полностью снять защиту в современной и защищенной языковой модели, и написать программу которая это автоматизирует. Эта модель признана одной из лучших.

+62

Ologos Dec 2 2024 at 21:34

Как получить доступ к Claude (web/api) из России в 2024?

Easy

10 min

160K

API * DesignProgramming * Artificial Intelligence

Tutorial

Получить доступ к Claude из России может показаться сложной задачей из-за региональных ограничений сервиса. В этой статье я подробно расскажу, как зарегистрироваться в веб-версии и API Claude, какие инструменты потребуются для обхода ограничений, и как безопасно пользоваться сервисом в дальнейшем. Руководство основано на личном опыте и включает актуальные на конец 2024 года способы регистрации, проверенные на практике.

Поискав на русскоязычных ресурсах я понял, что практический полезной информации там крайне мало, либо же она могла не учитывать изменения в работе сервиса. Простым пользователям приходиться собирать информации буквально по крупицам - с разных видео на ютюбе, форумах или поверхностных статьях.

Поэтому я решил создать актуальное руководство, основанное на своем личном опыте, знаниях и учитывая все подводные камни, которые могут встретить неопытного пользователя Claude.

Ologos Nov 29 2024 at 08:16

Обзор на Model Context Protocol (MCP) от Anthropic

Medium

6 min

23K

TypeScript * Artificial IntelligenceAPI * Programming *

From sandbox

Translation

На заре появления LLM пользователям приходилось просто копировать свой код в текстовое окно, чтобы ИИ могла его обработать. Естественно, такой подход быстро всех утомил, и разработчики начали искать свои способы загрузки данных в модель. У этого подхода была серьезная проблема — каждому приходилось изобретать велосипед заново.

Именно поэтому появился протокол MCP (Model Context Protocol) — универсальный способ дать искусственному интеллекту доступ к нужным данным, неважно где они хранятся — на компьютере пользователя или же в интернете.