Статьи / Закладки / Профиль yailya / Хабр

Как стать автором

Пользователь

Профиль Публикации Комментарии 11Закладки 123

Neurohudozhnik 16 мар в 15:30

Художественные приемы и профессиональные термины для создания изображений с ИИ. Всё, что нужно знать

7 мин

9.9K

Искусственный интеллектОбработка изображений*

Из песочницы

В этой статье собраны все основные понятия для написания текстовой подсказки для генерации изображений с помощью нейросети.

Если вы хотите создавать качественные изображения, нужно понимать (или просто запомнить) некоторые профессиональные термины и приемы, используемые художниками и фотографами.

В этой статье мы разберем такие ключевые факторы, как высокая детализация, освещение, стиль изображения и другое.

Читать далее

+24

gromyko21 15 мар в 09:30

Аннотировать или да?

Простой

4 мин

6K

Python*Программирование*

Из песочницы

Что такое аннотации типов в Python?

Читая эту статью надеюсь, что вы знакомы с аннотациями в Python. Но все же в вкратце напомню. Они нужны для того, чтобы придать некой строгости нашему динамически типизированному языку.

Читать далее

+6

veseluha 12 мар в 17:30

Пишем чат-бот для работы с PDF

7 мин

8.1K

Блог компании BotHubИскусственный интеллектМашинное обучение*PDFPython*

Туториал

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

Читать далее

+13

Kenya-West 11 мар в 12:20

Как я чтение всего контента на RSS переводил

Простой

13 мин

7.6K

Поисковые технологии*Data Mining*IT-стандарты*Облачные сервисы*

Recovery Mode

TL;DR В статье рассказывается о том, как мне удалось перевести чтение лент в ВКонтакте**, Telegram, Facebook*, Instagram**, Reddit и почтовых рассылок в единый сервис InoReader. Причем почти без написания своих велосипедов.

Подписаться на RSS

+40

egaoharu_kensei 11 мар в 21:19

Стекинг и блендинг в ML. Ключевые особенности и реализация с нуля на Python

Сложный

11 мин

6.6K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Среди всех методов ансамблирования особое внимание заслуживают две очень мощные техники, известные как стекинг (stacked generalization) и блендинг, особенность которых заключается в возможности использования прогнозов не только однородных, но и сразу нескольких разных по природе алгоритмов в качестве обучающих данных для другой модели, на которой будет сделан итоговый прогноз. Например, прогнозы логистической регрессии и градиентного бустинга могут быть использованы для обучения случайного леса, на котором уже будет выполнен итоговый прогноз.

Стекинг и блендинг очень схожи между собой, однако между ними есть существенные различия, заключающиеся в разделении и использовании тренировочных данных. Рассмотрим более подробно как это происходит.

Читать далее

+7

egaoharu_kensei 9 мар в 19:56

Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python

Сложный

8 мин

16K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Метод главных компонент (Principal Component Analysis или же PCA) — алгоритм обучения без учителя, используемый для понижения размерности и выявления наиболее информативных признаков в данных. Его суть заключается в предположении о линейности отношений данных и их проекции на подпространство ортогональных векторов, в которых дисперсия будет максимальной.

Такие вектора называются главными компонентами и они определяют направления наибольшей изменчивости (информативности) данных. Альтернативно суть PCA можно определить как линейное проецирование, минимизирующее среднеквадратичное расстояние между исходными точками и их проекциями.

Читать далее

+10

egaoharu_kensei 8 мар в 22:01

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Сложный

34 мин

26K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

✏️ Технотекст 2023

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

Читать далее

+36

Flokis_guy 6 мар в 13:31

WaveSync: Новый путь к нелинейному анализу эмбеддингов

Средний

8 мин

2.8K

Математика*Natural Language Processing*Машинное обучение*

Из песочницы

WaveSync — новый алгоритм для детального, нелинейного и быстрого анализа сходства эмбеддингов и векторов.

Алгоритм является в большинстве задач заменой линейному косиносному сходству. Он позволяет улучшить точность обработки языка и открывает новые перспективы для разработчиков и исследователей в области NLP.

Читать далее

+6

Grigory_T 2 мар в 20:18

Cross-Encoder для улучшения RAG на русском

Средний

15 мин

6K

Машинное обучение*Искусственный интеллектDIY или Сделай самPython*

Туториал

Одно из самых прикладных применений языковых моделей (LLM) - это ответы на вопросы по документу/тексту/договорам. Языковая модель имеет сильную общую логику, а релевантные знания получаются из word, pdf, txt и других источников.

Обычно релевантные тексты раскиданы в разных местах, их много и они плохо структурированы. Одна из проблем на пути построения хорошего RAG - нахождение релевантных частей текста под заданный пользователем вопрос.

Еще В. Маяковский писал: "Изводишь единого слова ради, тысячи тонн словесной руды." Примерно это же самое делают би-энкодеры и кросс-энкодеры в рамках RAG, ищут самые важные и полезные слова в бесконечных тоннах текста.

В статье мы посмотрим на способы нахождения релевантных текстов, увидим проблемы, которые в связи с этим возникают. Попытаемся их решить.

Главное - мы натренируем свой кросс-энкодер на русском языке, что служит важным шагом на пути улучшения качества Retrieval Augmented Generation (RAG). Тренировка будет проходит новейшим передовым способом. Схематично он изображен на меме справа)

Читать далее

+14

The-Founder-1 4 мар в 18:49

Как развернуть виртуальную среду модели машинного обучения на любой машине?

Средний

8 мин

9.6K

Машинное обучение*Python*

Туториал

Иногда возникают проблемы с развертыванием среды разработки в облаке, ведь бесплатных сервисов с большими облачными вычислительными мощностями почти нет. Тот же Google Collab имеет свои лимиты по использованию GPU, после израсходования всей памяти необходимо ждать сутки. А цена платной версии порой не совсем оправдана... Если у вас есть своя неплохая видеокарта, всегда можно отказаться от облачной разработки и перейти к домашнему варианту.

Напоминаем, что GPU выполняет вычислительную работу быстрее из-за возможности параллельного выполнения процессов. Если вы хотите использовать много видеокарт? то следует подключить ее к одной системе, сформировав своеобразную ферму.

Итак, как же контейнизировать собственную виртуальную среду и развернуть ее с использованием своего GPU?

Читать далее

+4

Kouki_RUS 6 фев 2020 в 17:09

Transformer в картинках

14 мин

126K

Машинное обучение*

Перевод

В прошлой статье мы рассматривали механизм внимания (attention) – чрезвычайно распространенный метод в современных моделях глубокого обучения, позволяющий улучшить показатели эффективности приложений нейронного машинного перевода. В данной статье мы рассмотрим Трансформер (Transformer) – модель, которая использует механизм внимания для повышения скорости обучения. Более того, для ряда задач Трансформеры превосходят модель нейронного машинного перевода от Google. Однако самое большое преимущество Трансформеров заключается в их высокой эффективности в условиях параллелизации (parallelization). Даже Google Cloud рекомендует использовать Трансформер в качестве модели при работе на Cloud TPU. Попробуем разобраться, из чего состоит модель и какие функции выполняет.

Впервые модель Трансформера была предложена в статье Attention is All You Need. Реализация на TensorFlow доступна как часть пакета Tensor2Tensor, кроме того, группа NLP-исследователей из Гарварда создали гид-аннотацию статьи с реализацией на PyTorch. В данном же руководстве мы попробуем максимально просто и последовательно изложить основные идеи и понятия, что, надеемся, поможет людям, не обладающим глубоким знанием предметной области, понять данную модель.

Читать дальше →

+16

dvlunin 18 авг 2021 в 15:35

Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито. Часть 2

27 мин

48K

Блог компании AvitoTechАналитика мобильных приложений*Управление продуктом*

Это вторая часть статьи о том, как улучшить A/B-тесты. Здесь я подробно остановлюсь на методах увеличения мощности: поговорим про CUPED, бутстрап-критерии, стратификацию и парную стратификацию.

Читать далее

+8

dvlunin 27 дек 2021 в 15:13

ML-критерии для A/B-тестов

24 мин

21K

Блог компании AvitoTech

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

Читать далее

+8

Squirrelfm 2 фев в 19:29

Архитектура RAG: полный гайд

Сложный

13 мин

22K

Блог компании RaftМашинное обучение*Искусственный интеллект

Туториал

Если, открывая холодильник вы еще не слышали из него про RAG, то наверняка скоро услышите. Однако, в сети на удивление мало полных гайдов, учитывающих все тонкости (оценка релевантности, борьба с галлюцинациями и т.д.) а не обрывочных кусков. Базируясь на опыте нашей работы, я составил гайд который покрывает эту тему наиболее полно.

Итак зачем нужен RAG?

Читать далее

+28

271828 6 фев в 13:28

Как стать VPN провайдером за один вечер

Средний

13 мин

124K

Информационная безопасность*Сетевые технологии*

Туториал

Рассказываю о своём опыте использования Xray (с протоколом VLESS-Reality) - одного из лучших решений для преодоления интернет-цензуры на сегодняшний день. Я потратил много времени на то, чтобы разобраться с ним - теперь вам достаточно одного вечера, чтобы поднять свой сервер на несколько десятков пользователей, c xray на борту!

• скрипт ex.sh для простой настройки и установки; есть поддержка Docker

• легко добавлять пользователей; клиентские конфиги в форме url-ссылок

• правильные конфиги: скрытность + удобство

• трафик популярных российских сайтов идёт напрямую, a не через сервер

• для xray есть приложения под все популярные ОС - делюсь инструкциями

• только https, нет udp; торренты через сервер блокируются по возможности

• мой проект на гитхабе: easy-xray

Интересны детали? Добро пожаловать под кат

+69

egaoharu_kensei 31 дек 2022 в 11:03

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Простой

7 мин

93K

Data Mining*Big Data*Математика*Машинное обучение*Учебный процесс в IT

Роадмэп

Технотекст 2022

Из песочницы

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

Читать далее

+22

LidiaISKIN 15 дек 2023 в 09:15

Математика для взрослых. Дорожная карта от выпускника Хармфульского клуба математики

9 мин

43K

Блог компании ГазинформсервисМатематика*Учебный процесс в ITЛайфхаки для гиков

Роадмэп

✏️ Технотекст 2023

Математика для взрослых. Дорожная карта от выпускника Хармфульского клуба математики.

(1) Школа. (2) Матанализ. (3) Аналитическая геометрия. (4) Линейная алгебра.

Все плейлисты, материалы, курсы в открытом доступе и бесплатны.

Читать далее

+25

SN4KEBYTE 7 июн 2023 в 12:21

Poetry: from zero to hero

Простой

13 мин

39K

Из песочницы

Привет, Хабр! Меня зовут Тимур, я тружусь ML-инженером в одной сибирской IT-компании.

Данная статья представляет собой руководство по Poetry. Я постарался покрыть все основные сценарии использования и возможности данного инструмента: создание проекта, работа с зависимостями из различных источников, управление виртуальными окружениями, сборка и публикация.

В качестве бонусов - готовая GitLab CI джоба для сборки и публикации пакетов, а также шаблон Dockerfile для multi-stage сборки образов в проектах с использованием Poetry.

Добро пожаловать под кат!

Читать далее

+4

anikengur 11 фев в 23:23

Шпаргалка по рекомендательным системам

Средний

7 мин

5.9K

Машинное обучение*Искусственный интеллект

Рекомендательные системы стали неотъемлемой частью нашей жизни, помогая нам легко находить новые фильмы, музыку, книги, товары и многое другое. Цель этой шпаргалки - дать краткий обзор основных методов: коллаборативная фильтрация, матричная факторизация и некоторые нейросетевые методы.

Надеюсь, что эта шпаргалка станет полезным ресурсом для вас, помогая разобраться в мире рекомендательных систем и использовать их потенциал для улучшения пользовательского опыта.

Читать далее

+7

codethentestit 10 фев в 10:30

Полезные ресурсы для Python-разработчиков

Простой

4 мин

18K

Из песочницы

Привет, Хабр! Меня зовут Катерина. Вот уже пять лет я профессионально занимаюсь переводами статей по Python. Для работы мне пришлось освоить основы этого языка и попутно ознакомиться со множеством ресурсов. Я решила собрать эти ресурсы в одной статье, чтобы поделиться ими. Надеюсь, кому-нибудь это пригодится!

Читать далее

+9

2