Как стать автором
Обновить
@SetGetread⁠-⁠only

Пользователь

Отправить сообщение

RAG (Retrieval Augmented Generation) — простое и понятное объяснение

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров68K

Краткое и понятное описание подхода RAG (Retrieval Augmented Generation) при работе с большими языковыми моделями.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии28

Как работает поисковое ранжирование для миллионов объявлений Авито

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров6.9K

Привет! Меня зовут Илья Валяев, я data science team lead поискового ранжирования в Авито. В статье расскажу, как у нас всё устроена система ранжирования, какие технологии используем и как именно улучшаем поисковые выдачи. 

Статья будет интересна ML-инженерам, которые владеют базовой теорией машинного обучения и хотят разобраться в том, как устроено поисковое ранжирование.

Читать далее
Всего голосов 25: ↑23 и ↓2+25
Комментарии16

Новая модель интеллекта. Как пошатнулись принципы генетики, медицины и нейросетей

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров35K

Предложенная концепция проходится буквально по грани, предложив настолько разрушительные и философски глубокие идеи, насколько это вообще возможно для того, чтобы остаться в рамках научных исследований. Работа Майкла Левина в области клеточного интеллекта, биоэлектрической коммуникации и вариантах того, какой может быть модель интеллекта, основательно перетряхивает всё, что мы знали про мозг и сознание. 

Читать далее
Всего голосов 46: ↑41 и ↓5+46
Комментарии33

Как защититься от скликивания в Яндекс Директе

Время на прочтение4 мин
Количество просмотров5.9K

Привет! Меня зовут Дарья Дейн. 10 лет я масштабирую бизнесы с помощью контекстной рекламы.

В этой статье я расскажу про скликивание рекламы: что это такое, откуда берется и как его победить.

Читать далее
Всего голосов 29: ↑18 и ↓11+9
Комментарии5

Пишем программу на Python для доступа к YandexGPT с помощью ChatGPT

Уровень сложностиПростой
Время на прочтение37 мин
Количество просмотров12K

В данной программе можно будет самостоятельно составлять собственные system massage (в программе это называется «Специализация»), а это по сути своей программирование GPT модели естественным языком, так же можно будет изменять temperature (в программе это названо «Креативность») это изменяет вариативность ответов, при значении 0.0 на один и тот же вопрос будет получен всё время одинаковый ответ при 1.0 могут быть разные ответы с похожим смыслом но разные по словесному выражению, так же можно использовать две модели YandexGPT  и  YandexGPT Lite, вторая быстрее и чуть попроще но и дешевле в четыре раза. Описание программы в разделе меню «Информация».

Читать далее
Всего голосов 12: ↑9 и ↓3+11
Комментарии3

Фундамент AI: обратное распространение ошибки простыми словами

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров9.1K

Что если бы я вам сказал, что без понимания того, что такое backpropagation (обратное распространение ошибки), вы никогда не сможете использовать AI эффективно? Тогда я бы, конечно, соврал. Знать такие детали не требуется для использования AI в прикладных задачах, но, тем не менее, это базовый фундамент ML/AI, и понимать, как все устроено, полезно, ну или как минимум, интересно.

Читать далее
Всего голосов 22: ↑22 и ↓0+26
Комментарии9

Подбор гиперпараметров RAG-системы с помощью Optuna

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров5.9K

Сказ о том, как с помощью Opuna’ы сделать вашу RAG-систему чуточку (а может и не чуточку) эффективнее :)

Читать далее
Всего голосов 14: ↑13 и ↓1+14
Комментарии1

Векторные базы данных: простым языком про устройство и принцип работы

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров23K

Только изучили один инструмент, как сразу же появились новые? Придется разбираться! В статье мы рассмотрим новый тип баз данных, который отлично подходит для ML задач. Пройдем путь от простого вектора до целой рекомендательной системы, пробежимся по основным фишкам и внутреннему устройству. Поймем, а где вообще использовать этот инструмент и посмотрим на векторные базы данных в деле.

Читать далее
Всего голосов 30: ↑29 и ↓1+35
Комментарии16

Как 8 сотрудников Google изобрели современный искусственный интеллект

Время на прочтение16 мин
Количество просмотров12K

Восемь имён указаны в качестве авторов научной работы «Всё, что вам нужно – это внимание», написанной весной 2017 года. Все они были исследователями из Google, хотя к тому времени один из них уже покинул компанию. Когда ветеран исследования, Ноам Шазир, увидел ранний вариант работы, он был удивлён, что его имя стоит первым, что говорит о том, что его вклад был первостепенным. «Я не думал об этом», — говорит он.

Перечисление имён — это всегда тонкий баланс: кому достанется желанное место лидера, а кого отодвинут на задний план. Особенно в таком случае, как рассматриваемый нами, где каждый участник оставил свой след в по-настоящему групповой работе. Торопясь закончить работу, исследователи в конце концов решили «саботировать» традицию ранжирования участников. Они добавили звёздочку к каждому имени и сноску: «Равноценный вкладчик, — гласила надпись. — Порядок перечисления случайный». Авторы отправили статью на престижную конференцию по искусственному интеллекту когда сроки уже почти истекли и положили начало революции.

Читать далее
Всего голосов 21: ↑19 и ↓2+25
Комментарии5

На какие AI Coding Assistants стоит обратить внимание в 2024?

Время на прочтение8 мин
Количество просмотров19K

Не является секретом, что LLM в настоящее время являются неотъемлемой частью нашего рабочего процесса. Особое внимание заслуживает AI Coding Assistant — искусственный интеллект, или просто программный помощник, который поддерживает разработчиков, помогая писать более качественный и точный код, тем самым экономя время и ресурсы.

Давайте рассмотрим различные программные помощники, доступные на рынке для разработчиков с разными уровнями навыков, включая как бесплатные, так и платные варианты.

Но прежде чем мы погрузимся в детали этих инструментов, давайте ответим на вопрос: "Что такое эти помощники?".

Приятного прочтения(:

Читать далее
Всего голосов 19: ↑19 и ↓0+20
Комментарии11

Вселенная, материя, поля, тёмная материя, законы природы, жизнь, человечество и прочие случайности и иллюзии нашего мира

Уровень сложностиПростой
Время на прочтение31 мин
Количество просмотров11K

Современная наука, и физика в частности, имеют в своей основе одну, как я полагаю, ложную аксиому. И если её поправить, то всё научное мировоззрение значительно изменится и многое станет гораздо более ясным. Это аксиома о том, что человеческие способности познания Мира безграничны и рано или поздно, при более совершенных приборах и способах исследования, мы познаем всё и до конца.

Когда-то люди считали Землю центром, вокруг которого вращаются и Солнце и звёзды. Коперник разрушил такое представление людей об устройстве Мира. Пришло время разрушить ещё одно неверное представление, о том, что человек это существо, способное генерировать абсолютно объективное знание о Мире с помощью своего сознания.

Читать далее
Всего голосов 33: ↑23 и ↓10+19
Комментарии175

Долгая дорога к дому: как вода очищается на пути из скважины в частный коттедж

Время на прочтение9 мин
Количество просмотров18K

О том, как очищается вода на пути в частные квартиры, на Хабре писали уже довольно много. Эта вода приходит в водопровод уже частично очищенной местным поставщиком. А потом дополнительно фильтруется системами фильтрации на вход, стоящими в квартире, — и становится питьевой. 

В частном доме чистую воду получить сложнее — придя из скважины, она не очистится простым фильтром-кувшином или трехступенчатой конструкцией под раковиной. Подготовкой воды придется заниматься самостоятельно, иначе даже для бытовых нужд, вроде стирки, она будет непригодна.

Мы в БАРЬЕР много лет изучаем этот путь воды и стараемся его облегчить, совершенствуя собственные системы фильтрации для коттеджей. Под катом мы проследим путь воды из скважины к потребителю в частном доме на примере нашей коттеджной системы очистки, покажем состав воды из скважины до и после фильтрации, и подробно расскажем про каждый этап. 

Пройти путь воды
Всего голосов 29: ↑24 и ↓5+30
Комментарии48

Назад в прошлое: Печать фотографий на фотоувеличителе

Время на прочтение10 мин
Количество просмотров123K
imageНедавно мне захотелось обновить воспоминания далёкого детства, когда напечатанные фотографии рождались не в фотолабораториях, а каким-то магическим образом из света и тени возникали в чуланах и ваннах обычных советских граждан. Несмотря на те смутные воспоминания, опыта печати фотографий на у меня никогда не было, так что это будет статья абсолютного нуба, попробовавшего разобраться в том, как работают технологии двадцатилетней давности и как запустить всю эту кухню в современных реалиях.
Вероятно, у старшего поколения всё это вызовет лишь улыбку, но ведь из тех, кому нет 30 лет лишь единицы имеют опыт печати фотографий. И сейчас даже отдалённое понимание того, какими способами такие люди как Энсель Адамс или Майкл Кенна достигали или достигают шедевральности своих фотографий уходит потихоньку в историю.
Читать дальше →
Всего голосов 64: ↑60 и ↓4+56
Комментарии69

Можно ли научить чат-бота всегда говорить правду

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.6K

Привет, Хабр, меня зовут Ксения Плесовских и я развиваю генеративный ИИ в компании lad, разрабатывая чат-боты для бизнеса на основе LLM. В процессе работы над точностью ответов чат-бота, проверкой фактов и устранением галлюцинаций от LLM, мне довелось проанализировать и опробовать разные подходы к этой проблеме, чем сегодня и хочу с вами поделиться. Поскольку объем материала получился достаточно большой, на несколько публикаций, в этой части расскажу лишь о подходе самокритики SELF-RAG.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии5

Архитектура RAG: полный гайд

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров25K

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

Читать далее
Всего голосов 27: ↑26 и ↓1+28
Комментарии11

Transformer в картинках

Время на прочтение14 мин
Количество просмотров128K

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучшить показатели эффективности приложений нейронного машинного перевода. В данной статье мы рассмотрим Трансформер (Transformer) – модель, которая использует механизм внимания для повышения скорости обучения. Более того, для ряда задач Трансформеры превосходят модель нейронного машинного перевода от Google. Однако самое большое преимущество Трансформеров заключается в их высокой эффективности в условиях параллелизации (parallelization). Даже Google Cloud рекомендует использовать Трансформер в качестве модели при работе на Cloud TPU. Попробуем разобраться, из чего состоит модель и какие функции выполняет.


Впервые модель Трансформера была предложена в статье Attention is All You Need. Реализация на TensorFlow доступна как часть пакета Tensor2Tensor, кроме того, группа NLP-исследователей из Гарварда создали гид-аннотацию статьи с реализацией на PyTorch. В данном же руководстве мы попробуем максимально просто и последовательно изложить основные идеи и понятия, что, надеемся, поможет людям, не обладающим глубоким знанием предметной области, понять данную модель.

Читать дальше →
Всего голосов 16: ↑16 и ↓0+16
Комментарии5

Как работают трансформеры: разбираем математику

Уровень сложностиСредний
Время на прочтение28 мин
Количество просмотров20K

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].

Читать далее
Всего голосов 40: ↑40 и ↓0+40
Комментарии8

Сам себе DevOps: как разобраться с доступами в Yandex Cloud

Время на прочтение16 мин
Количество просмотров13K

Предположим, у вас появилась задача развернуть сервис на виртуальной машине в Yandex Cloud. Казалось бы, всё просто: создал виртуальную машину, развернул приложение, и всё готово. В общем случае это работает именно так, но лишь при условии, что кто-то уже настроил для вас все доступы и выдал вам все необходимые права. 

Но что делать, если тот самый человек, которому нужно всё настроить — это вы сами? Для этого разберёмся с базовыми особенностями ресурсной модели в Yandex Cloud.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии7

Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров61K

В настоящее время искусственный интеллект (ИИ) стремительно развивается. Мы являемся свидетелями интеллектуальной мощи таких нейросетей, как GPT-4 Turbo от OpenAI и Gemini Ultra от Google. В Интернете появляется огромное количество научных и популярных публикаций. Зачем же нужна еще одна статья про ИИ? Играя с ребенком в ChatGPT, я неожиданно осознал, что не понимаю значения аббревиатуры GPT. И, казалось бы, простая задача для айтишника, неожиданно превратилась в нетривиальное исследование архитектур современных нейросетей, которым я и хочу поделиться. Сгенерированная ИИ картинка, будет еще долго напоминать мою задумчивость при взгляде на многообразие и сложность современных нейросетей.

Читать далее
Всего голосов 44: ↑43 и ↓1+60
Комментарии7

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров23K

Меня зовут Дмитрий Гуреев. Я занимаю должность CDTO в одной из медицинских компаний и параллельно веду работу по популяризации ИИ в среднем бизнесе. Генеративные модели привлекли мое внимание ещё в феврале 2022 года. Тогда я внедрил цифрового ассистента для полевых продавцов.

Летом 2022 года хороший знакомый из крупной компании предложил совместный эксперимент. Создать цифрового юриста, способного отвечать на вопросы первой линии, используя в качестве базы знаний 200-страничный регламент из более чем 1200 пунктов. Все это должно было функционировать в закрытом контуре. Без интернета.

Задача представлялась крайне интересной...

Вторая часть здесь.

Читать далее
Всего голосов 30: ↑30 и ↓0+30
Комментарии52
1

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность