Articles / Bookmarks / Profile of PanDubls / Habr

@PanDubls

User

ProfileArticles1PostsNewsComments2.7K

@Squirrelfm Feb 2 2024 at 16:29

Архитектура RAG: полный гайд

Hard

13 min

108K

Raft corporate blogMachine learning * Artificial Intelligence

Tutorial

✏️ Technotext 7

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

+29

@ivankarmanow Apr 27 2023 at 22:02

За границей Hello World: полный гайд по разработке Telegram ботов с помощью Python и Aiogram 3. Часть 1

Easy

7 min

351K

Python *

Tutorial

From sandbox

Нетипичный туториал по разработке Telegram-бота на Python и Aiogram 3. В отличие от большинства гайдов и туториалов про разработку ботов «для новичков», здесь будут рассмотрены все аспекты создания бота, от установки редактора кода до подключения оплаты и развёртывания на сервере. В первой части мы рассмотрим подготовку окружения, файловую структуру бота и напишем первый рабочий код бота.

@btseytlin Jun 21 2024 at 13:49

Он победил LLM RAG: реализуем BM25+ с самых азов

Easy

18 min

14K

Search engines * Python * Algorithms * Machine learning * Artificial Intelligence

Tutorial

Привет, меня зовут Борис. Я автор телеграм канала Борис опять. Периодически мне на глаза попадается что-то интересное и я глубоко в этом закапываюсь. В данном случае это алгоритм поиска BM25+, который победил продвинутые методы векторного поиска на LLM.

Разберемся, что это за зверь и почему он так хорошо работает. В этой статье мы реализуем его на Python с нуля. Начнем с самого простого поиска, перейдем к TF-IDF, а затем выведем из него BM25+.

Статья подойдет тем, кто вообще ничего не знает о поиске, а более опытные ребята могут пролистать до реализации алгоритма.

Код доступен в Google Collab.

+39

@troitskii Jun 7 2024 at 07:03

Что такое векторизация текста в NLP и какая она бывает: One-hot encoding, Bag of words, TF-IDF, Word2Vec, BERT и другие

Medium

7 min

6.4K

Python * Artificial IntelligenceBig Data *

Review

Привет, Хабр! Меня зовут Александр Троицкий, я автор канала AI для чайников, и в этой статье я расскажу про разные способы векторизации текстов.

Всем привет! Вдохновившись прикольной и понятной статьей на английском языке, и не найдя сходу чего-то похожего в русскоязычном сегменте интернета, решил написать о том, как обрабатывается текст перед тем, как на нем начинают применять разные модели ИИ. Эту статью я напишу нетехническим языком, потому что сам не технарь и не математик. Надеюсь, что она поможет узнать о NLP тем, кто не сталкивается с AI в продуктах на ежедневной основе.

О чем эта статья:

@avshkol Jun 4 2024 at 21:25

Справочник по применению GPU в машинном обучении

Medium

35 min

8.8K

Machine learning * GadgetsComputer hardware

Tutorial

Translation

Это перевод популярного лонгрида Тима Детмерса "Выбор графического процессора для глубокого обучения: мой опыт и советы".

Глубокое обучение (Deep learning, DL) - область с высокими вычислительными требованиями, и выбор графического процессора будет в корне определять ваши возможности в этой сфере. Какие характеристики важны при выборе нового GPU? Оперативная память GPU, ядра, тензорные ядра, кэш? Как сделать экономически эффективный выбор? Мы рассмотрим эти вопросы, заодно разберемся с распространенными заблуждениями, разберемся в характеристиках GPU, дадим советы, которые помогут вам сделать правильный выбор.

+25

@DimDimDimDimDim Apr 17 2024 at 08:39

Что такое дрифт ML-моделей и как его мониторить?

8 min

7.7K

Selectel corporate blogProgramming * Machine learning * IT-companiesIT Infrastructure *

Даже при наличии качественных входных данных качество предсказаний ML-модели со временем ухудшается. Под катом рассмотрим, как команда Neoflex с помощью мониторинга обнаруживает изменения вовремя и поделимся подборкой open source-библиотек для определения дрифта данных.

Теперь клиенты Selectel могут оптимизировать управление DS/ML-моделями с помощью MLOps-платформы Neoflex Dognauts. Она обеспечивает автоматизацию полного цикла разработки и эксплуатации моделей машинного обучения.

Читать дальше →

+46

@AlekSandrDr Mar 30 2018 at 20:38

Мега-Учебник Flask, Часть XVII: Развертывание под Linux

18 min

61K

Flask * Python * Website development *

Tutorial

(издание 2018)

Miguel Grinberg

Туда Сюда

Это семнадцатая часть серии Мега-учебников Flask, в которой я собираюсь развернуть микроблог на сервере Linux.

Читать дальше →

@mr-pickles Mar 4 2024 at 09:37

Азы больших языковых моделей и трансформеров: декодер

Hard

14 min

14K

Wunder Fund corporate blogAlgorithms * Machine learning * Python * Artificial Intelligence

Translation

В этом материале мы поговорим об устройстве компонента‑декодера в системах машинного обучения, построенных по архитектуре «трансформер», уделив особое внимание отличию декодера от энкодера. Уникальной особенностью декодеров является то, что они похожи на циклы. Они, по своей природе, итеративны, что контрастирует с линейными принципами обработки данных, на которых основаны энкодеры. В центре декодера находятся две модифицированные формы механизма внимания: механизм множественного внимания с маскировкой (masked multi‑head attention) и механизм множественного внимания энкодера‑декодера (encoder‑decoder multi‑head attention).

Слой множественного внимания с маскировкой в декодере обеспечивает последовательную обработку токенов. Благодаря такому подходу предотвращается воздействие последующих токенов на сгенерированные токены. Маскировка важна для поддержки порядка следования и согласованности сгенерированных данных. Взаимодействие между выходом декодера (из слоя множественного внимания с маскировкой) и выходом энкодера организовано с помощью механизма множественного внимания энкодера‑декодера. Этот последний шаг даёт декодеру доступ к входным данным.

Мы, кроме того, продемонстрируем реализацию этих концепций с использованием Python и NumPy. Мы создали простой пример перевода предложения с английского языка на португальский. Практическая демонстрация обсуждаемых здесь идей поможет проиллюстрировать работу внутренних механизмов декодера в трансформерах и позволит лучше понять роль декодеров в больших языковых моделях (Large Language Model, LLM).

+24

@ru_vds Feb 28 2024 at 13:00

Руководство по веб-скрейпингу на Python

Medium

17 min

74K

RUVDS.com corporate blogProgramming * Python *

Tutorial

Translation

В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу.

Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.

Читать дальше →

+55

@Maxilect Jan 24 2024 at 07:06

Как писать более чистый CSS: дюжина советов от банальных до неочевидных

Easy

9 min

18K

Maxilect corporate blogCSS * HTML * Web design * Website development *

FAQ

Если CSS для вас все еще боль и страдания, добро пожаловать под кат. Мы наткнулись на интересную подборку советов по CSS на английском языке и решили перевести ее, дополнив собственными примерами с кодом.

CSS как технология действительно немного раздут, но не так хаотичен и сложен, как его иногда описывают. Просто нужно стремиться к лаконичности - в том числе, с помощью описанных подходов.

+19

@aio350 Feb 14 2024 at 08:01

Начало работы с Axum — самым популярным веб-фреймворком Rust

Medium

11 min

27K

Timeweb Cloud corporate blogRust * Website development *

Review

Translation

Когда дело доходит до выбора серверного веб-фреймворка в экосистеме Rust, можно запутаться из-за большого количества вариантов. В прошлом, лидером по популярности был Rocket, но сейчас за первенство сражаются Axum и actix-web, и Axum все больше набирает обороты. В этой статье мы немного погрузимся в Axum — веб-фреймворк для создания REST API на Rust, разрабатываемый командой Tokio. Он прост в использовании и хорошо совместим с Tower — надежной библиотекой для создания модульных компонентов сетевых приложений.

В этой статье мы подробно рассмотрим, как использовать Axum для создания веб-сервиса. Кроме того, мы рассмотрим изменения, которые произошли в версии 0.7.

Читать дальше →

+22

@PanDubls Feb 4 2024 at 17:17

Двуязычный словарь от ChatGPT за 7 (нет) простых шагов

Medium

29 min

6.1K

Artificial IntelligenceDIYLearning languages

Case

В жизни каждого человека наступает миг, когда ему нужен загружаемый испано-английский словарь с открытой лицензией. В этой статье я расскажу о том, как сконструировал собственный иллюстрированный словарь, используя ChatGPT (и выложил его на GitHub). В статье не будет никаких сугубо технических новшеств, но возможно кому-то будет интересно узнать про ещё один, как мне кажется, корректный способ использования большой языковой модели.

+12

@Andchir Feb 3 2024 at 17:47

api2app — быстрое создание графического интерфейса для API

Easy

3 min

21K

Usability * Data visualization *

Review

Хочу рассказать о своём небольшом проекте с открытым исходным кодом, который создал для своих нужд. Возможно, кому-то он тоже будет полезен или найдутся люди, желающие помочь в его развитии.

При помощи api2app можно быстро создать графический интерфейс для API. Его можно использовать для тестирования или демонстрации работы вашего API. Созданным приложением можно поделиться со всеми желающими или использовать по приватной ссылке.

+53

@s_valuev Jan 31 2024 at 15:01

Годовой дайджест по аналитике и ML за 2023

Medium

5 min

5.6K

Selectel corporate blogArtificial IntelligenceBig Data *

Digest

Привет, Хабр! Я Стас, занимаюсь развитием аналитических и ML-продуктов в Selectel. В новом мегадайджесте мы с командой собрали для вас свои лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Под катом — ежемесячные дайджесты, которые вы могли пропустить, экспертные статьи по совместному использованию GPU, кэшированию датасетов и бэкапированию данных в Kubernetes, а также записи докладов с наших мероприятий.

Читать дальше →

+33

@kashokhin Jan 14 2024 at 11:31

Mamba. От начала до конца

Medium

5 min

34K

Machine learning * Artificial Intelligence

FAQ

From sandbox

Во времена повсеместного заполонения трансформерами, которые пожирали в себя все больше и больше кремниевых чипов; когда казалось, что лучше уже не будет и за каждый новый токен нужно платить в квадрате от предыдущих, в эту холодную зимнюю пору появилась она - Мамба.

+27

@feanoref Sep 20 2023 at 12:30

От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению

Medium

21 min

17K

Selectel corporate blogData Engineering * Artificial IntelligenceMathematics * Machine learning *

Opinion

✏️ Technotext 2023

Привет, Хабр! Меня все еще зовут Ефим, и я все еще MLOps-инженер в отделе Data- и ML-продуктов Selectel. В предыдущей статье я кратко рассказал про основные ресурсы, которые могут помочь начинающему специалисту ворваться в бурлящий котел Data Science. Но после выхода материала я понял, что задача систематизации знаний гораздо сложнее, чем казалось. Настолько, что проиллюстрировать ее можно только табличкой ниже:

В этом тексте хочу исправиться: разбить знания по Data Science и машинному обучению на несколько теоретических блоков и дать больше полезных материалов. Подробности под катом!

Читать дальше →

+42

@PatientZero Jun 14 2019 at 04:49

Краткое введение в цепи Маркова

16 min

253K

Mathematics * Popular scienceSearch engines *

Translation

В 1998 году Лоуренс Пейдж, Сергей Брин, Раджив Мотвани и Терри Виноград опубликовали статью «The PageRank Citation Ranking: Bringing Order to the Web», в которой описали знаменитый теперь алгоритм PageRank, ставший фундаментом Google. Спустя чуть менее двух десятков лет Google стал гигантом, и даже несмотря на то, что его алгоритм сильно эволюционировал, PageRank по-прежнему является «символом» алгоритмов ранжирования Google (хотя только немногие люди могут действительно сказать, какой вес он сегодня занимает в алгоритме).

С теоретической точки зрения интересно заметить, что одна из стандартных интерпретаций алгоритма PageRank основывается на простом, но фундаментальном понятии цепей Маркова. Из статьи мы увидим, что цепи Маркова — это мощные инструменты стохастического моделирования, которые могут быть полезны любому эксперту по аналитическим данным (data scientist). В частности, мы ответим на такие базовые вопросы: что такое цепи Маркова, какими хорошими свойствами они обладают, и что с их помощью можно делать?

Читать дальше →

+48

@artur_sosnovikov Jul 28 2023 at 13:22

Разбираем особенности алгоритмов CatBoost и LightGBM: какой от них профит

Medium

11 min

29K

Точка Банк corporate blogArtificial IntelligenceMachine learning * Algorithms *

Review

Всем привет. Меня зовут Артур. Готовясь к выступлению на внутреннем митапе по теме особенности алгоритмов у CatBoost и LightGBM, я понял, что не смог найти единого места, где были бы понятным языком рассказаны основные особенности того, что алгоритмически работает под капотом у CatBoost и LightGBM. Причём не формальные записи алгоритмов на псевдокоде, а понятные пошаговые инструкции. Так появилась эта статья.

+17

@UprightMan Apr 4 2023 at 08:08

Быстрее, больше, сильнее: фреймворки Python с параллельной обработкой данных

12 min

17K

FirstVDS corporate blogHigh performance * Open source * Python * Programming *

Хотите распределить тяжелую рабочую нагрузку в проектах на Python между несколькими процессорами или вычислительным кластером? В этой статье расскажем про лучшие фреймворки, которые помогут реализовать подобно желание на практике.

+13

@alex222g Mar 14 2023 at 15:41

Описательная статистика перформанс-распределений

40 min

30K

JUG Ru Group corporate blogIT systems testing * Mathematics * ConferencesStatistics in IT

Нужна ли разработчику математика? Если анализировать замеры производительности, то матстатистика понадобится. Но оказывается, о ней полезно знать не совсем то, что в учебниках. А что тогда?

Андрей Акиньшин @DreamWalker поговорил об этом в докладе на нашей конференции Heisenbug. И теперь, пока мы готовим следующий Heisenbug (где тоже будут доклады о производительности), решили опубликовать текстовую версию его выступления (а для тех, кому удобнее другие форматы, прикрепляем видеозапись и слайды). Предупреждаем: много букв, цифр, графиков и формул!

+51