Как стать автором
Обновить
9
0
Владислав @Gers1972

Аналитик данных

Отправить сообщение

Выбираем правильный инференс: Как мы сэкономили 70к $ на ЛЛМках

Время на прочтение4 мин
Количество просмотров4.9K

Недавно ко мне обратились знакомые, которые активно впиливали LLM в своей продукт, однако их смущала стоимость такого решения - они платили около 8$/час за Huggingface inference Endpoint 24/7, на что уходили просто невиданные ~100 тысяч долларов в год. Мне нужно было заресерчить какие есть способы развертывания больших текстовых моделей, понять какие где есть проблемы и выбрать оптимальных из них. Результатами этого ресерча и делюсь в этой статье)

Читать далее
Всего голосов 15: ↑5 и ↓10-4
Комментарии19

Как в Купере масштабировали машинное обучение и что из этого получилось

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров4.1K

Не секрет, что ML‑модели требуют огромного количества данных. Информации не просто много, она организовывается в многообразные структуры, версионируется, употребляется разными моделями. Скорость обращения данных тоже критична, особенно для систем, взаимодействующих с пользователями в режиме реального времени.

При возросшей сложности не обойтись без специализированных инструментов, например Feature Store. Однако случается, что все решения на рынке не годятся по тем или иным причинам. Тогда приходится рассчитывать исключительно на свои силы.

Рассказываем, как в Купере внедрили Feast, хранилище признаков (Feature Store) с открытым исходным кодом. После прочтения вы познакомитесь с инструментом и сможете решить, подходит ли Feast для коммерческого использования. Подробности под катом!
Читать дальше →
Всего голосов 32: ↑31 и ↓1+42
Комментарии3

Как мы генерируем GPT-нейросетями миллиарды объявлений на малом количестве GPU. Доклад Яндекса

Время на прочтение15 мин
Количество просмотров6.9K

Привет! Меня зовут Ольга Зайкова, в Яндексе я руковожу группой автоматической генерации рекламы. Сегодня расскажу о соединении тяжёлых процессингов и GPU‑вычислений. Обсудим, как мы реализовали высоконагруженный процессинг, который обрабатывает миллиарды товаров и превращает их в объявления, используя тяжёлые модели, такие как YandexGPT, DSSM, CatBoost и другие. И, конечно, не обойду стороной тему проблем с нагрузкой: они возникали почти на каждом шагу.

Читать далее
Всего голосов 27: ↑22 и ↓5+24
Комментарии6

Как я создавал аудиоплеер на python с FFmpeg

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров6.8K

Всех приветствую. Сегодня хочу поделиться опытом создания своего первого проекта на Python. Мой проект — это простой аудиоплеер, и я хочу рассказать, как я его создавал, с какими сложностями столкнулся и что из этого вышло.

Читать далее
Всего голосов 18: ↑17 и ↓1+19
Комментарии20

Как мы научили ML-модель выбирать товары для акций в СберМаркете и увеличили ROI скидок в 8 раз

Время на прочтение7 мин
Количество просмотров5.3K

Всем привет! На связи Никита Губин, менеджер продуктов машинного обучения в СберМаркете. Моя команда занимается внедрением ML-решений в маркетинге. И сегодня хочу рассказать, как нам удалось в 8 раз увеличить ROI одного регулярного промо, которое вы можете увидеть в нашем приложении ежедневно.

Статья будет полезна: 

Продактам и менеджерам по маркетингу. Разберем конкретный кейс, эффект от которого мы получаем уже более 6 месяцев. Можно забирать на инсайты и гипотезы ?

Лидам и инженерам машинного обучения. Расскажу про конкретные алгоритмы при помощи которых получили высокий импакт.

Поехали!

Читать далее
Всего голосов 14: ↑11 и ↓3+13
Комментарии7

Интеграция LLM в корпоративные чат-боты: RAG-подход и эксперименты

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров5K

Всем привет! На связи команда AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. В этой статье мы опишем наш опыт работы с большими языковыми моделями (LLM), их внедрение для обработки корпоративных данных, а также поделимся нашими результатами и выводами.

Ещё мы расскажем о нашем подходе к использованию LLM, подробно остановимся на методе Retrieval Augmented Generation (RAG) и рассмотрим примеры использования чат-ботов на корпоративных порталах X5.

Эта статья будет полезна разработчикам, которые интересуются внедрением LLM для работы с корпоративными данными. Она основана на нашем выступлении на митапе, но не ограничивается им, а, скорее, дополняет его. 

Читать далее
Всего голосов 15: ↑15 и ↓0+17
Комментарии6

VseGPT — сервис для доступа к ChatGPT, Claude, Palm, LLama2 с вебчатом и OpenAI API

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров27K

Вообще, я люблю опенсорс - мой голосовой помощник Ирина тому подтверждение.

Тем не менее, в текстовых нейросетях пока опенсорс решений уровня GPT-4 нет - а пользоваться им при написании кода, честно говоря, правда полезно.

Если честно, меня несколько утомило решать вопросы доступа и оплаты OpenAI аккаунта, необходимого для доступа к GPT-4 и API (да, я провожу эксперименты, и API мне нужен).

Я бы с удовольствием поэкспериментировал и с другими сетями - например, Claude, о которой говорят гораздо меньше, но которая, по-видимому, не намного хуже (спойлер: я пробовал - по моему мнению, Claude 2 вполне на уровне GPT-4).

Постепенно реализовывая свои "хотелки", я создал сервис VseGPT.ru, который решает мои основные проблемы - предоставляет общий интерфейс в виде чата и OpenAI API к разным топовым нейросетям - ChatGPT, Claude, Google Palm и опенсорсным Llama 70b, 34b Code и пр.

Конечно, сервис я делал в основном под свои профессиональные потребности, так что давайте посмотрим, чего хотел я, и насколько это подойдёт вам:

Читать далее
Всего голосов 10: ↑7 и ↓3+8
Комментарии32

Как развивалась технология экстремального сжатия LLM: от QuIP до AQLM с PV-tuning

Время на прочтение4 мин
Количество просмотров9.1K

Мы живём в эпоху LLM — компании применяют на практике всё более крупные модели с миллиардами параметров. Это здорово, потом что большие модели открывают пользователям сервисов новые возможности, но не всё так просто. Размер накладывает ограничения — запускать такие модели очень дорого, а на пользовательских компьютерах — ещё дороже и сложнее. Поэтому часто исследователи и инженеры сначала обучают большую модель, а потом придумывают, как сжать её с минимальными потерями качества, чтобы сделать доступнее. 

Модели выкладываются в формате float16, где на один вес выделяется 16 бит. Два года назад человечество научилось хорошо сжимать нейросети до 4 бит с помощью таких методов, как GPTQ. Но на этом исследователи не остановились, и сейчас актуальная задача — сжатие моделей до 2 бит, то есть в 8 раз. 

Недавно исследователи Yandex Research совместно с коллегами из IST Austria и KAUST предложили новый способ сжатия моделей в 8 раз с помощью комбинации методов AQLM и PV-tuning, который уже доступен разработчикам и исследователям по всему миру — код опубликован в репозитории GitHub. Специалисты также могут скачать сжатые с помощью наших методов популярные опенсорс-модели. Кроме того, мы выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии.

О том, как исследователи пришли к сегодняшним результатам, мы расскажем на примере двух «конкурирующих» команд и их state-of-the-art алгоритмов сжатия — QuIP и AQLM. Это короткая, но увлекательная история «противостояния» исследователей, в которой каждые пару месяцев случаются новые повороты, появляются оптимизации и оригинальные подходы к решению проблем.

Читать далее
Всего голосов 35: ↑35 и ↓0+44
Комментарии14

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.4K

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB.

Читать далее
Всего голосов 29: ↑27 и ↓2+35
Комментарии6

Prompt engineering 101

Уровень сложностиПростой
Время на прочтение26 мин
Количество просмотров13K

Привет!

Использование LLM все больше проникает в бизнес. И ритейл — не исключение. В X5 мы решили сделать небольшую методичку по prompt engineering для обычного бизнес‑пользователя. Мы посмотрели на получившийся результат и решили поделиться этой методичкой с сообществом, чтобы как можно больше людей смогли овладеть разными техниками, позволяющими работать с LLM эффективнее.

Для этого нам сначала придется разобраться с тем, как вообще устроены LLM, затем поговорим о промптах: общие принципы построения, техники оптимизации и промпты для изображений. А на десерт предложим вам продвинутые техники работы с LLM: автоматизированные подходы по улучшению промптов, Retrieval‑Augmented Generation и разметка данных для ML с помощью LLM.

Читать далее
Всего голосов 16: ↑14 и ↓2+16
Комментарии9

Phoenix: разбираемся со сбоями ML системы прямо в вашем ноутбуке

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.5K

Нам до сих пор не до конца понятны некоторые возможности больших языковых моделей. Приложения с большими языковыми моделями должны быть оснащены необходимыми инструментами и оставлять данные о событиях, произошедших в процессе работы. Более того, когда данные собраны, их необходимо оценить на предмет критических ошибок, таких как галлюцинации и токсичность.

В статье рассматривается open-source библиотека Phoenix, основная цель которой — помочь специалистам по данным понять и оценить сложные LLM-приложения, чтобы они могли узнать больше о внутренней работе системы.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

17 продвинутых RAG-техник: как превратить прототип LLM-приложения в готовое решение

Время на прочтение18 мин
Количество просмотров8.1K

GenAI стремительно ворвался в нашу жизнь. Ещё вчера мы с опаской смотрели на него, а сегодня уже вовсю используем в работе. Многие эксперты пророчат GenAI большое будущее, считая его предвестником новой промышленной революции.

И ведь действительно, LLM и мультимодальные модели уже сейчас демонстрируют впечатляющие возможности и при этом относительно просты во внедрении. Создать простое приложение на их основе - дело нескольких строк кода. Однако переход от эксперимента к стабильному и надежному решению — задача посложнее.

Как метко подметил Мэтт Тёрк: если в 2023 году мы боялись, что GenAI нас погубит, то в 2024-м мечтаем хоть как-то приручить его и запустить в "мелкосерийное производство".

Если вы уже успели создать свои первые LLM-приложения и готовы вывести их на новый уровень, эта статья для вас. Мы рассмотрим 17 продвинутых RAG-техник, которые помогут избежать типичных ошибок и превратить ваш прототип в мощное и стабильное решение.

Пристегните ремни, мы отправляемся в увлекательное путешествие по миру AGI! Вместе мы:

Поймем, как система отличает ценную информацию от информационного шума;

Разберемся, как правильно подготовить данные для LLM;

Выясним, можно ли строить цепочки из нескольких LLM;

Поймем, как направлять запросы через разные компоненты системы.

Приятного прочтения(:

Читать далее
Всего голосов 18: ↑18 и ↓0+19
Комментарии8

Он победил LLM RAG: реализуем BM25+ с самых азов

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров15K

Привет, меня зовут Борис. Я автор телеграм канала Борис опять. Периодически мне на глаза попадается что-то интересное и я глубоко в этом закапываюсь. В данном случае это алгоритм поиска BM25+, который победил продвинутые методы векторного поиска на LLM.

Разберемся, что это за зверь и почему он так хорошо работает. В этой статье мы реализуем его на Python с нуля. Начнем с самого простого поиска, перейдем к TF-IDF, а затем выведем из него BM25+.

Статья подойдет тем, кто вообще ничего не знает о поиске, а более опытные ребята могут пролистать до реализации алгоритма.

Код доступен в Google Collab.

Читать далее
Всего голосов 33: ↑32 и ↓1+39
Комментарии13

Архитектура RAG: полный гайд

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров23K

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

Читать далее
Всего голосов 27: ↑26 и ↓1+28
Комментарии11

Пишем Телеграм бота на Python c использованием API ChatGPT

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров55K

Данная статья является вольным переводом статьи на medium.com, плюсом от себя реализация API ChatGPT в Телеграм боте.

Тема как написать телеграм бота уже довольно тривиальная, статей в интернете полно, поэтому тут я затронул это дело не так глубоко, ниже выложу ссылки на исходный код, разобраться будет не сложно. Основным мотивом написания статьи послужил тот факт, что ChatGPT не доступен в ряде стран, в том числе в России, и хотелось сделать его по настоящему общедоступным.

Готовый/работающий телеграм бот ChatGPT доступен тут.

На вопрос "Кто ты?" сама нейросеть отвечает примерно следующее "Я - ChatGPT, крупнейшая языковая модель, созданная OpenAI. Я разработана для обработки естественного языка и могу помочь вам ответить на вопросы, обсудить темы или предоставить информацию на различные темы".

Другими словами, по моему субъективному мнению нейросеть затачивается в первую очередь для поддержки разговора, в идеале показать, что там сидит живой человек, а не обученная AI модель. Поэтому когда будете играть с чатом не забывайте об этом, не следует ожидать от чата достоверных и точных данных, или глубокого смысла, сейчас она не об этом, пока еще не об этом.

Итак, как получить доступ к сервису ChatGPT из запрещенных стран написано в статье на хабре, хочу обратить ваше внимание, что будет необходимо сперва создать gmail почту с подтверждением по СМС на иностранный номер телефона, затем при регистрации на сайте ChatGPT также подтвердить номер телефона по СМС, и эти два номера телефона совсем не обязательно должны быть одинаковыми, поэтому сервисы по продаже номеров мобильных телефонов на одну смс вполне годятся.

Читать далее
Всего голосов 9: ↑3 и ↓6-3
Комментарии7

ChatGPT + YandexGPT API = ЛЮБОФ. Часть 1

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров17K

Сказ о том, как мы, дата-сайентист и аналитик данных, на троих с ChatGPT, без программиста и девопса, создали сервис пересказа новостей TechMix с текстом и озвучкой. ChatGPT писал код, а мы ему только поддакивали.

Авторы: Эдуард Ланчев, Илья Кузнецов, ChatGPT

Читать далее
Всего голосов 21: ↑17 и ↓4+16
Комментарии39

YandexGPT API быстро и без труда с Python SDK. Делимся опытом интеграции

Уровень сложностиСредний
Время на прочтение25 мин
Количество просмотров11K

YandexGPT API — сервис для доступа к генеративным языковым моделям, хоть и является мощным инструментом во многих задачах, однако может озадачить разработчика, решившего внедрить его в свои проекты отсутствием официального SDK, разнообразием способов авторизации, видов моделей и эндпоинтов API. В данной статье я рассказываю, как мы внедряли YandexGPT в свои проекты, а в конце делюсь всеми наработками.

Читать далее
Всего голосов 10: ↑9 и ↓1+10
Комментарии5

Как пользоваться Claude: знакомство с главным конкурентом ChatGPT и базовые правила его использования

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров21K

В последние годы мы стали свидетелями стремительного развития и роста популярности чат-ботов на базе искусственного интеллекта. Одним из наиболее известных и широко используемых чат-ботов стал ChatGPT от компании OpenAI, который продемонстрировал впечатляющие возможности в общении и решении разнообразных задач.

Однако ChatGPT - далеко не единственный продвинутый чат-бот, доступный сегодня. Не так давно компания Anthropic представила миру Claude v.3 Opus - ИИ-ассистента нового поколения, который во многом превосходит возможности ChatGPT и имеет ряд значимых отличий. И хотя на первый взгляд Claude может показаться похожим на своего более известного "коллегу", при ближайшем рассмотрении становятся видны существенные различия в архитектуре, возможностях и особенностях взаимодействия с пользователем.

В этой статье мы рассмотрим ключевые отличия Claude от ChatGPT, дадим практические рекомендации по эффективной работе с этим ИИ-помощником и обсудим перспективы дальнейшего развития подобных систем. Наша цель - предоставить полезное руководство, которое поможет вам в полной мере освоить и применять Claude, избегая распространенных ошибок и открывая новые горизонты в решении задач с помощью ИИ. Конечно, в этой статье не получится рассказать все, но самое основное - однозначно.

Приятного прочтения!:)

Читать далее
Всего голосов 16: ↑14 и ↓2+15
Комментарии18

GPT или GigaChat — ответит RAGAS

Время на прочтение8 мин
Количество просмотров4.6K

В предыдущей статье мы разбирались с тем, как RAGAS помогает оценить работу ретриверов в RAG-системах. Продолжая наше исследование, теперь мы переключаемся на другой важный аспект - качество языковых моделей, или LLM. Эти модели играют центральную роль в создании тех ответов, которые мы видим при общении с чат-ботами. Понять, насколько эффективны они в своей задаче, крайне важно, так как именно от их работы зависит успешное взаимодействие пользователей с системой.

Читать далее
Всего голосов 6: ↑5 и ↓1+5
Комментарии7

Как сделать чат-бота лучше, нужен всего лишь простой советский… RAGAS

Время на прочтение8 мин
Количество просмотров7K

В вводной части обзора мы познакомились с концепцией Retrieval Augmented Generation (RAG) и её расширением через методологию RAGAS (Retrieval Augmented Generation Automated Scoring). Мы разобрались, как RAGAS подходит к процессу оценки эффективности и точности RAG-систем.

В этой части мы более подробно рассмотрим техническую сторону RAGAS. Как обычно, начнем с более простых и интуитивно понятных примеров, потом перейдем к более сложным сценариям.

Читать далее
Всего голосов 13: ↑13 и ↓0+13
Комментарии1
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Тверь, Тверская обл., Россия
Дата рождения
Зарегистрирован
Активность