Статьи / Закладки / Профиль SetGet / Хабр

@SetGet^{read⁠-⁠only}

Пользователь

Профиль Публикации 1Комментарии 72Закладки 32

dimasklyarov 9 дек 2023 в 19:31

RAG (Retrieval Augmented Generation) — простое и понятное объяснение

Простой

8 мин

68K

Natural Language Processing*

Из песочницы

Краткое и понятное описание подхода RAG (Retrieval Augmented Generation) при работе с большими языковыми моделями.

valyaevilya 30 сен в 09:00

Как работает поисковое ранжирование для миллионов объявлений Авито

Средний

14 мин

6.9K

Блог компании AvitoTechПоисковые технологии*Поисковая оптимизация*Машинное обучение*Высокая производительность*

Туториал

Привет! Меня зовут Илья Валяев, я data science team lead поискового ранжирования в Авито. В статье расскажу, как у нас всё устроена система ранжирования, какие технологии используем и как именно улучшаем поисковые выдачи.

Статья будет интересна ML-инженерам, которые владеют базовой теорией машинного обучения и хотят разобраться в том, как устроено поисковое ранжирование.

+25

MisterClever 30 июн в 13:37

Новая модель интеллекта. Как пошатнулись принципы генетики, медицины и нейросетей

Средний

14 мин

35K

БиотехнологииИскусственный интеллектМозг

Обзор

Перевод

Предложенная концепция проходится буквально по грани, предложив настолько разрушительные и философски глубокие идеи, насколько это вообще возможно для того, чтобы остаться в рамках научных исследований. Работа Майкла Левина в области клеточного интеллекта, биоэлектрической коммуникации и вариантах того, какой может быть модель интеллекта, основательно перетряхивает всё, что мы знали про мозг и сознание.

+46

daria_dein 4 мая в 10:15

Как защититься от скликивания в Яндекс Директе

4 мин

5.9K

Антивирусная защита*Контекстная реклама*

Из песочницы

Привет! Меня зовут Дарья Дейн. 10 лет я масштабирую бизнесы с помощью контекстной рекламы.

В этой статье я расскажу про скликивание рекламы: что это такое, откуда берется и как его победить.

SetGet 23 апр в 20:15

Пишем программу на Python для доступа к YandexGPT с помощью ChatGPT

Простой

37 мин

12K

Python*Программирование*Искусственный интеллект

Из песочницы

В данной программе можно будет самостоятельно составлять собственные system massage (в программе это называется «Специализация»), а это по сути своей программирование GPT модели естественным языком, так же можно будет изменять temperature (в программе это названо «Креативность») это изменяет вариативность ответов, при значении 0.0 на один и тот же вопрос будет получен всё время одинаковый ответ при 1.0 могут быть разные ответы с похожим смыслом но разные по словесному выражению, так же можно использовать две модели YandexGPT и YandexGPT Lite, вторая быстрее и чуть попроще но и дешевле в четыре раза. Описание программы в разделе меню «Информация».

+11

Squirrelfm 30 апр в 09:07

Фундамент AI: обратное распространение ошибки простыми словами

Простой

7 мин

9.1K

Блог компании RaftМашинное обучение*Искусственный интеллект

Туториал

Что если бы я вам сказал, что без понимания того, что такое backpropagation (обратное распространение ошибки), вы никогда не сможете использовать AI эффективно? Тогда я бы, конечно, соврал. Знать такие детали не требуется для использования AI в прикладных задачах, но, тем не менее, это базовый фундамент ML/AI, и понимать, как все устроено, полезно, ну или как минимум, интересно.

+26

slivka_83 29 апр в 18:34

Подбор гиперпараметров RAG-системы с помощью Optuna

Средний

16 мин

5.9K

Python*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Сказ о том, как с помощью Opuna’ы сделать вашу RAG-систему чуточку (а может и не чуточку) эффективнее :)

+14

nmzgnv 23 апр в 11:34

Векторные базы данных: простым языком про устройство и принцип работы

Простой

11 мин

23K

Блог компании ТочкаOpen source*Big Data*Хранение данных*Искусственный интеллект

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

+35

SLY_G 22 апр в 17:40

Как 8 сотрудников Google изобрели современный искусственный интеллект

16 мин

12K

История ITИскусственный интеллект

Перевод

Восемь имён указаны в качестве авторов научной работы «Всё, что вам нужно – это внимание», написанной весной 2017 года. Все они были исследователями из Google, хотя к тому времени один из них уже покинул компанию. Когда ветеран исследования, Ноам Шазир, увидел ранний вариант работы, он был удивлён, что его имя стоит первым, что говорит о том, что его вклад был первостепенным. «Я не думал об этом», — говорит он.

Перечисление имён — это всегда тонкий баланс: кому достанется желанное место лидера, а кого отодвинут на задний план. Особенно в таком случае, как рассматриваемый нами, где каждый участник оставил свой след в по-настоящему групповой работе. Торопясь закончить работу, исследователи в конце концов решили «саботировать» традицию ранжирования участников. Они добавили звёздочку к каждому имени и сноску: «Равноценный вкладчик, — гласила надпись. — Порядок перечисления случайный». Авторы отправили статью на престижную конференцию по искусственному интеллекту когда сроки уже почти истекли и положили начало революции.

+25

veseluha 22 апр в 18:00

На какие AI Coding Assistants стоит обратить внимание в 2024?

8 мин

19K

Блог компании BotHubПрограммирование*Машинное обучение*Искусственный интеллект

Обзор

Не является секретом, что LLM в настоящее время являются неотъемлемой частью нашего рабочего процесса. Особое внимание заслуживает AI Coding Assistant — искусственный интеллект, или просто программный помощник, который поддерживает разработчиков, помогая писать более качественный и точный код, тем самым экономя время и ресурсы.

Давайте рассмотрим различные программные помощники, доступные на рынке для разработчиков с разными уровнями навыков, включая как бесплатные, так и платные варианты.

Но прежде чем мы погрузимся в детали этих инструментов, давайте ответим на вопрос: "Что такое эти помощники?".

Приятного прочтения(:

+20

AleksandrTallinn 23 апр в 21:44

Вселенная, материя, поля, тёмная материя, законы природы, жизнь, человечество и прочие случайности и иллюзии нашего мира

Простой

31 мин

11K

Читальный залНаучно-популярноеФизикаАстрономия

Современная наука, и физика в частности, имеют в своей основе одну, как я полагаю, ложную аксиому. И если её поправить, то всё научное мировоззрение значительно изменится и многое станет гораздо более ясным. Это аксиома о том, что человеческие способности познания Мира безграничны и рано или поздно, при более совершенных приборах и способах исследования, мы познаем всё и до конца.

Когда-то люди считали Землю центром, вокруг которого вращаются и Солнце и звёзды. Коперник разрушил такое представление людей об устройстве Мира. Пришло время разрушить ещё одно неверное представление, о том, что человек это существо, способное генерировать абсолютно объективное знание о Мире с помощью своего сознания.

+19

175

17 апр в 15:28

Долгая дорога к дому: как вода очищается на пути из скважины в частный коттедж

9 мин

18K

Блог компании БарьерЭкологияХимияЗдоровьеНаучно-популярноеЧитальный зал

О том, как очищается вода на пути в частные квартиры, на Хабре писали уже довольно много. Эта вода приходит в водопровод уже частично очищенной местным поставщиком. А потом дополнительно фильтруется системами фильтрации на вход, стоящими в квартире, — и становится питьевой.

В частном доме чистую воду получить сложнее — придя из скважины, она не очистится простым фильтром-кувшином или трехступенчатой конструкцией под раковиной. Подготовкой воды придется заниматься самостоятельно, иначе даже для бытовых нужд, вроде стирки, она будет непригодна.

Мы в БАРЬЕР много лет изучаем этот путь воды и стараемся его облегчить, совершенствуя собственные системы фильтрации для коттеджей. Под катом мы проследим путь воды из скважины к потребителю в частном доме на примере нашей коттеджной системы очистки, покажем состав воды из скважины до и после фильтрации, и подробно расскажем про каждый этап.

Пройти путь воды

+30

ZlodeiBaal 23 мая 2012 в 13:30

Назад в прошлое: Печать фотографий на фотоувеличителе

10 мин

123K

Фототехника

Недавно мне захотелось обновить воспоминания далёкого детства, когда напечатанные фотографии рождались не в фотолабораториях, а каким-то магическим образом из света и тени возникали в чуланах и ваннах обычных советских граждан. Несмотря на те смутные воспоминания, опыта печати фотографий на у меня никогда не было, так что это будет статья абсолютного нуба, попробовавшего разобраться в том, как работают технологии двадцатилетней давности и как запустить всю эту кухню в современных реалиях.
Вероятно, у старшего поколения всё это вызовет лишь улыбку, но ведь из тех, кому нет 30 лет лишь единицы имеют опыт печати фотографий. И сейчас даже отдалённое понимание того, какими способами такие люди как Энсель Адамс или Майкл Кенна достигали или достигают шедевральности своих фотографий уходит потихоньку в историю.

Читать дальше →

+56

ksenia-plesovskikh 13 фев в 16:35

Можно ли научить чат-бота всегда говорить правду

Средний

6 мин

2.6K

Блог компании Группа IT-компаний LadМашинное обучение*Искусственный интеллект

Из песочницы

Привет, Хабр, меня зовут Ксения Плесовских и я развиваю генеративный ИИ в компании lad, разрабатывая чат-боты для бизнеса на основе LLM. В процессе работы над точностью ответов чат-бота, проверкой фактов и устранением галлюцинаций от LLM, мне довелось проанализировать и опробовать разные подходы к этой проблеме, чем сегодня и хочу с вами поделиться. Поскольку объем материала получился достаточно большой, на несколько публикаций, в этой части расскажу лишь о подходе самокритики SELF-RAG.

Squirrelfm 2 фев в 19:29

Архитектура RAG: полный гайд

Сложный

13 мин

25K

Блог компании RaftМашинное обучение*Искусственный интеллект

Туториал

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

+28

Kouki_RUS 6 фев 2020 в 17:09

Transformer в картинках

14 мин

128K

Машинное обучение*

Перевод

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучшить показатели эффективности приложений нейронного машинного перевода. В данной статье мы рассмотрим Трансформер (Transformer) – модель, которая использует механизм внимания для повышения скорости обучения. Более того, для ряда задач Трансформеры превосходят модель нейронного машинного перевода от Google. Однако самое большое преимущество Трансформеров заключается в их высокой эффективности в условиях параллелизации (parallelization). Даже Google Cloud рекомендует использовать Трансформер в качестве модели при работе на Cloud TPU. Попробуем разобраться, из чего состоит модель и какие функции выполняет.

Впервые модель Трансформера была предложена в статье Attention is All You Need. Реализация на TensorFlow доступна как часть пакета Tensor2Tensor, кроме того, группа NLP-исследователей из Гарварда создали гид-аннотацию статьи с реализацией на PyTorch. В данном же руководстве мы попробуем максимально просто и последовательно изложить основные идеи и понятия, что, надеемся, поможет людям, не обладающим глубоким знанием предметной области, понять данную модель.

Читать дальше →

+16

PatientZero 18 янв в 10:16

Как работают трансформеры: разбираем математику

Средний

28 мин

20K

Математика*Машинное обучение*Искусственный интеллект

Туториал

Перевод

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].

+40

devops_ht 13 сен 2023 в 11:30

Сам себе DevOps: как разобраться с доступами в Yandex Cloud

16 мин

13K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании Hilbert TeamИнформационная безопасность*Облачные сервисы*

Туториал

✏️ Технотекст 2023

Предположим, у вас появилась задача развернуть сервис на виртуальной машине в Yandex Cloud. Казалось бы, всё просто: создал виртуальную машину, развернул приложение, и всё готово. В общем случае это работает именно так, но лишь при условии, что кто-то уже настроил для вас все доступы и выдал вам все необходимые права.

Но что делать, если тот самый человек, которому нужно всё настроить — это вы сами? Для этого разберёмся с базовыми особенностями ресурсной модели в Yandex Cloud.

AlexeySushkov 9 янв в 11:40

Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать

Простой

11 мин

61K

Алгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

✏️ Технотекст 2023

В настоящее время искусственный интеллект (ИИ) стремительно развивается. Мы являемся свидетелями интеллектуальной мощи таких нейросетей, как GPT-4 Turbo от OpenAI и Gemini Ultra от Google. В Интернете появляется огромное количество научных и популярных публикаций. Зачем же нужна еще одна статья про ИИ? Играя с ребенком в ChatGPT, я неожиданно осознал, что не понимаю значения аббревиатуры GPT. И, казалось бы, простая задача для айтишника, неожиданно превратилась в нетривиальное исследование архитектур современных нейросетей, которым я и хочу поделиться. Сгенерированная ИИ картинка, будет еще долго напоминать мою задумчивость при взгляде на многообразие и сложность современных нейросетей.

+60

dvgureev 22 дек 2023 в 11:38

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1

Средний

7 мин

23K

Data Engineering*Искусственный интеллектМашинное обучение*Python*

Из песочницы

Меня зовут Дмитрий Гуреев. Я занимаю должность CDTO в одной из медицинских компаний и параллельно веду работу по популяризации ИИ в среднем бизнесе. Генеративные модели привлекли мое внимание ещё в феврале 2022 года. Тогда я внедрил цифрового ассистента для полевых продавцов.

Летом 2022 года хороший знакомый из крупной компании предложил совместный эксперимент. Создать цифрового юриста, способного отвечать на вопросы первой линии, используя в качестве базы знаний 200-страничный регламент из более чем 1200 пунктов. Все это должно было функционировать в закрытом контуре. Без интернета.

Задача представлялась крайне интересной...

Вторая часть здесь.

+30