Articles / Bookmarks / Profile of yailya / Habr

How to become an author

User

Profile Publications Comments 11Bookmarks 123

Neurohudozhnik Mar 16 at 15:30

Художественные приемы и профессиональные термины для создания изображений с ИИ. Всё, что нужно знать

7 min

8K

Image processing*Artificial Intelligence

В этой статье собраны все основные понятия для написания текстовой подсказки для генерации изображений с помощью нейросети.

Если вы хотите создавать качественные изображения, нужно понимать (или просто запомнить) некоторые профессиональные термины и приемы, используемые художниками и фотографами.

В этой статье мы разберем такие ключевые факторы, как высокая детализация, освещение, стиль изображения и другое.

Читать далее

+24

gromyko21 Mar 15 at 09:30

Аннотировать или да?

Easy

4 min

5.6K

Python*Programming*

Что такое аннотации типов в Python?

Читая эту статью надеюсь, что вы знакомы с аннотациями в Python. Но все же в вкратце напомню. Они нужны для того, чтобы придать некой строгости нашему динамически типизированному языку.

Читать далее

+6

veseluha Mar 12 at 17:30

Пишем чат-бот для работы с PDF

7 min

7.6K

Python*PDFMachine learning*Artificial IntelligenceBotHub corporate blog

Tutorial

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

Читать далее

+13

Kenya-West Mar 11 at 12:20

Как я чтение всего контента на RSS переводил

Easy

13 min

6.9K

Search engines*Data Mining*IT Standards*Cloud services*

Recovery Mode

TL;DR В статье рассказывается о том, как мне удалось перевести чтение лент в ВКонтакте**, Telegram, Facebook*, Instagram**, Reddit и почтовых рассылок в единый сервис InoReader. Причем почти без написания своих велосипедов.

Подписаться на RSS

+40

egaoharu_kensei Mar 11 at 21:19

Стекинг и блендинг в ML. Ключевые особенности и реализация с нуля на Python

Hard

11 min

5.5K

Python*Data Mining*Algorithms*Machine learning*Artificial Intelligence

Tutorial

Среди всех методов ансамблирования особое внимание заслуживают две очень мощные техники, известные как стекинг (stacked generalization) и блендинг, особенность которых заключается в возможности использования прогнозов не только однородных, но и сразу нескольких разных по природе алгоритмов в качестве обучающих данных для другой модели, на которой будет сделан итоговый прогноз. Например, прогнозы логистической регрессии и градиентного бустинга могут быть использованы для обучения случайного леса, на котором уже будет выполнен итоговый прогноз.

Стекинг и блендинг очень схожи между собой, однако между ними есть существенные различия, заключающиеся в разделении и использовании тренировочных данных. Рассмотрим более подробно как это происходит.

Читать далее

+7

egaoharu_kensei Mar 9 at 19:56

Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python

Hard

8 min

13K

Python*Data Mining*Algorithms*Machine learning*Artificial Intelligence

Tutorial

Метод главных компонент (Principal Component Analysis или же PCA) — алгоритм обучения без учителя, используемый для понижения размерности и выявления наиболее информативных признаков в данных. Его суть заключается в предположении о линейности отношений данных и их проекции на подпространство ортогональных векторов, в которых дисперсия будет максимальной.

Такие вектора называются главными компонентами и они определяют направления наибольшей изменчивости (информативности) данных. Альтернативно суть PCA можно определить как линейное проецирование, минимизирующее среднеквадратичное расстояние между исходными точками и их проекциями.

Читать далее

+10

egaoharu_kensei Mar 8 at 22:01

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Hard

34 min

21K

Python*Data Mining*Algorithms*Machine learning*Artificial Intelligence

Tutorial

✏️ Technotext 2023

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

Читать далее

+36

Flokis_guy Mar 6 at 13:31

WaveSync: Новый путь к нелинейному анализу эмбеддингов

Medium

8 min

2.7K

Mathematics*Machine learning*Natural Language Processing*

WaveSync — новый алгоритм для детального, нелинейного и быстрого анализа сходства эмбеддингов и векторов.

Алгоритм является в большинстве задач заменой линейному косиносному сходству. Он позволяет улучшить точность обработки языка и открывает новые перспективы для разработчиков и исследователей в области NLP.

Читать далее

+6

Grigory_T Mar 2 at 20:18

Cross-Encoder для улучшения RAG на русском

Medium

15 min

4.8K

Python*Machine learning*Artificial IntelligenceDIY

Tutorial

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников.

Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос.

Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста.

В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить.

Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

Читать далее

+14

The-Founder-1 Mar 4 at 18:49

Как развернуть виртуальную среду модели машинного обучения на любой машине?

Medium

8 min

9.2K

Python*Machine learning*

Tutorial

Иногда возникают проблемы с развертыванием среды разработки в облаке, ведь бесплатных сервисов с большими облачными вычислительными мощностями почти нет. Тот же Google Collab имеет свои лимиты по использованию GPU, после израсходования всей памяти необходимо ждать сутки. А цена платной версии порой не совсем оправдана... Если у вас есть своя неплохая видеокарта, всегда можно отказаться от облачной разработки и перейти к домашнему варианту.

Напоминаем, что GPU выполняет вычислительную работу быстрее из-за возможности параллельного выполнения процессов. Если вы хотите использовать много видеокарт? то следует подключить ее к одной системе, сформировав своеобразную ферму.

Итак, как же контейнизировать собственную виртуальную среду и развернуть ее с использованием своего GPU?

Читать далее

+4

Kouki_RUS Feb 6 2020 at 17:09

Transformer в картинках

14 min

121K

Machine learning*

Translation

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучшить показатели эффективности приложений нейронного машинного перевода. В данной статье мы рассмотрим Трансформер (Transformer) – модель, которая использует механизм внимания для повышения скорости обучения. Более того, для ряда задач Трансформеры превосходят модель нейронного машинного перевода от Google. Однако самое большое преимущество Трансформеров заключается в их высокой эффективности в условиях параллелизации (parallelization). Даже Google Cloud рекомендует использовать Трансформер в качестве модели при работе на Cloud TPU. Попробуем разобраться, из чего состоит модель и какие функции выполняет.

Впервые модель Трансформера была предложена в статье Attention is All You Need. Реализация на TensorFlow доступна как часть пакета Tensor2Tensor, кроме того, группа NLP-исследователей из Гарварда создали гид-аннотацию статьи с реализацией на PyTorch. В данном же руководстве мы попробуем максимально просто и последовательно изложить основные идеи и понятия, что, надеемся, поможет людям, не обладающим глубоким знанием предметной области, понять данную модель.

Читать дальше →

+16

dvlunin Aug 18 2021 at 15:35

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 2

27 min

46K

Mobile App Analytics*Product Management*AvitoTech corporate blog

Это вторая часть статьи о том, как улучшить A/B-тесты. Здесь я подробно остановлюсь на методах увеличения мощности: поговорим про CUPED, бутстрап-критерии, стратификацию и парную стратификацию.

Читать далее

+8

dvlunin Dec 27 2021 at 15:13

ML-критерии для A/B-тестов

24 min

20K

AvitoTech corporate blog

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

Читать далее

+8

Squirrelfm Feb 2 at 19:29

Архитектура RAG: полный гайд

Hard

13 min

16K

Machine learning*Artificial IntelligenceRaft corporate blog

Tutorial

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

Читать далее

+28

271828 Feb 6 at 13:28

Как стать VPN провайдером за один вечер

Medium

13 min

71K

Information Security*Network technologies*

Tutorial

Рассказываю о своём опыте использования Xray (с протоколом VLESS-Reality) - одного из лучших решений для преодоления интернет-цензуры на сегодняшний день. Я потратил много времени на то, чтобы разобраться с ним - теперь вам достаточно одного вечера, чтобы поднять свой сервер на несколько десятков пользователей, c xray на борту!

• скрипт ex.sh для простой настройки и установки; есть поддержка Docker

• легко добавлять пользователей; клиентские конфиги в форме url-ссылок

• правильные конфиги: скрытность + удобство

• трафик популярных российских сайтов идёт напрямую, a не через сервер

• для xray есть приложения под все популярные ОС - делюсь инструкциями

• только https, нет udp; торренты через сервер блокируются по возможности

• мой проект на гитхабе: easy-xray

Интересны детали? Добро пожаловать под кат

+69

egaoharu_kensei Dec 31 2022 at 11:03

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Easy

7 min

85K

Data Mining*Big Data*Mathematics*Machine learning*Studying in IT

Roadmap

Technotext 2022

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

Читать далее

+22

LidiaISKIN Dec 15 2023 at 09:15

Математика для взрослых. Дорожная карта от выпускника Хармфульского клуба математики

9 min

36K

Mathematics*Studying in ITГазинформсервис corporate blogLifehacks for geeks

Roadmap

✏️ Technotext 2023

Математика для взрослых. Дорожная карта от выпускника Хармфульского клуба математики.

(1) Школа. (2) Матанализ. (3) Аналитическая геометрия. (4) Линейная алгебра.

Все плейлисты, материалы, курсы в открытом доступе и бесплатны.

Читать далее

+25

SN4KEBYTE Jun 7 2023 at 12:21

Poetry: from zero to hero

Easy

13 min

34K

Привет, Хабр! Меня зовут Тимур, я тружусь ML-инженером в одной сибирской IT-компании.

Данная статья представляет собой руководство по Poetry. Я постарался покрыть все основные сценарии использования и возможности данного инструмента: создание проекта, работа с зависимостями из различных источников, управление виртуальными окружениями, сборка и публикация.

В качестве бонусов - готовая GitLab CI джоба для сборки и публикации пакетов, а также шаблон Dockerfile для multi-stage сборки образов в проектах с использованием Poetry.

Добро пожаловать под кат!

Читать далее

+4

anikengur Feb 11 at 23:23

Шпаргалка по рекомендательным системам

Medium

7 min

5.4K

Machine learning*Artificial Intelligence

Рекомендательные системы стали неотъемлемой частью нашей жизни, помогая нам легко находить новые фильмы, музыку, книги, товары и многое другое. Цель этой шпаргалки - дать краткий обзор основных методов: коллаборативная фильтрация, матричная факторизация и некоторые нейросетевые методы.

Надеюсь, что эта шпаргалка станет полезным ресурсом для вас, помогая разобраться в мире рекомендательных систем и использовать их потенциал для улучшения пользовательского опыта.

Читать далее

+7

codethentestit Feb 10 at 10:30

Полезные ресурсы для Python-разработчиков

Easy

4 min

17K

Привет, Хабр! Меня зовут Катерина. Вот уже пять лет я профессионально занимаюсь переводами статей по Python. Для работы мне пришлось освоить основы этого языка и попутно ознакомиться со множеством ресурсов. Я решила собрать эти ресурсы в одной статье, чтобы поделиться ими. Надеюсь, кому-нибудь это пригодится!

Читать далее

+9

2