Articles / Bookmarks / Profile of zartdinov / Habr

@zartdinov

User

ProfileArticlesPostsNewsComments390

dimanosov007 Oct 5 2022 at 07:49

Дообучение EasyOCR

4 min

33K

Python*Data Mining*Machine learning*Artificial Intelligence

Tutorial

Technotext 2022

Всем привет!

Представляю краткий tutorial по дообучению EasyOCR. возможно обучение на Google colab.

ekazakov May 18 2021 at 04:00

Cypress и его место в нашей тестовой пирамиде

13 min

45K

Plesk corporate blogWeb services testing*JavaScript*IT systems testing*

Стабильность и скорость ― это то, что ожидается от автотестов. В этой статье я расскажу о нашей стратегии по оптимизации тестовой пирамиды, о том, почему мы сделали выбор в пользу Cypress и какие выработали подходы к написанию тестов, а также о запуске тестов на инфраструктуре AWS.

+14

Solar_webProxy Sep 29 2022 at 07:02

Категоризация веб-ресурсов при помощи… трансформеров?

13 min

3.6K

Солар corporate blogInformation Security*Machine learning*Natural Language Processing*

Привет! Меня зовут Анвар, я аналитик данных RnD-лаборатории. Перед нашей исследовательской группой стоял вопрос проработки внедрения ИИ в сервис фильтрации веб-контента SWG-решения Solar webProxy. В этом посте я расскажу, зачем вообще нужен анализ веб-контента, почему из многообразия NLP-моделей для автоматизации решения этой задачи мы выбрали модель-трансформер. Кратко объясню, как с помощью математики взвесить смысловые отношения между словами. И, конечно, опишу, как мы приземлили веб-фильтрацию в продукт.

mr-pickles Sep 26 2022 at 09:15

Taichi и 100-кратное ускорение Python-кода

12 min

36K

Wunder Fund corporate blogServer optimization*Client optimization*Programming*Python*

Translation

Python стал самым популярным языком во многих быстроразвивающихся областях, таких, как глубокое обучение и различные направления анализа и обработки данных. Но при этом за удобство работы с Python-кодом, за высокий уровень его читабельности, приходится платить производительностью. Конечно, все мы время от времени жалуемся на скорость работы программ, и Python, безусловно, не стоит винить во всех грехах. Несмотря на это, справедливым будет заявление о том, что природа Python, интерпретируемого языка, не способствует высокой производительности кода, особенно когда речь идёт о «тяжёлых» вычислениях (один из признаков таких вычислений — наличие в программе нескольких вложенных циклов).

Если вы когда-либо попадали в одну из следующих ситуация — тогда эта статья, определённо, написана для вас.

+53

mrtirax Sep 18 2022 at 12:14

Обучение модели Stable Diffusion текстовой инверсии с помощью diffusers

5 min

24K

The future is hereArtificial IntelligenceGraphic design*GitHub*Python*

From sandbox

Листая интернет на наличие интересных технологий в области нейронных сетей и различного искуства,я наткнулся на пост в Твиттере, в котором Suraj Patil объявил о возможности обучения модели Stable Diffusion текстовой инверсии используя всего 3-5 изображений.

+12

datist Sep 16 2022 at 10:36

SVTR — state-of-the-art нейросеть для задачи OCR

8 min

7.8K

Image processing*Machine learning*Artificial Intelligence

Tutorial

SVTR - state-of-the-art модель-трансформер для решения задачи OCR.

Авторами статьи была предложена архитектура с одним "зрительным" модулем для эффективного распознавания текста. Основная идея работы заключается в обработке признаков разного уровня, то есть локальных, которые представляют собой признаки отдельных частей символов, и глобальных, признаков целого изображения. Входное изображение с текстом сперва разбивается на компоненты, которым соответствуют определенные части изображения. Далее, применяя механизм self-attention между компонентами модель извлекает важную информацию, используя локальные и глобальные признаки. Также, уменьшая размерность и объединяя признаки после блоков self-attention, модель формирует многогранное представление о тексте на изображении. В результате, модель выдаёт последовательность признаков, в которой уже закодирован текст без использования рекуррентных сетей!

Clickru Sep 16 2022 at 09:11

Где брать изображения в 2022 году

9 min

31K

Click.ru corporate blogImage processing*Graphic design*Increasing Conversion Rate*

Если вы занимаетесь интернет-маркетингом, вам потребуются качественные изображения. Они влияют на эффективность рекламы ничуть не меньше, чем правильно подобранные ключи, составленное объявление или выбранная аудитория, помогают лучше воспринимать информацию из текста, хорошо запоминаются.

Мы подготовили подборку из 19 популярных фотостоков, на которых вы без проблем сможете найти изображения для любых целей. Почти все фотобанки бесплатные, а платные легко оплатить из России.

+12

DAN_SEA Sep 15 2022 at 09:00

О самодельном тепловизоре

8 min

43K

RUVDS.com corporate blogDIYDeveloping for Arduino*PhysicsElectronics for beginners

Периодически для разных целей возникает потребность в измерении диапазона температур. Достичь этой цели можно разными средствами, но лучше всего для этого подходит тепловизор. Одна проблема, — подобное устройство не отличается низкой ценой. А реально ли его построить самому? Об этом мы и поговорим в этой статье.

Читать дальше →

+66

mryab Sep 15 2022 at 09:06

Самая большая BERT-подобная модель на русском, которая поместится на ваш компьютер

7 min

22K

Яндекс corporate blogOpen source*Artificial IntelligenceMachine learning*Distributed systems*

Technotext Winner 2022

Привет, это снова Максим Рябинин, исследователь в Yandex Research. В прошлом году я рассказывал на Хабре о том, как вместе с Hugging Face, Университетом Торонто и волонтёрами мы обучили state-of-the-art модель для бенгальского языка и написали об этом статью на конференцию NeurIPS. Теперь хотим поделиться новым результатом: оказывается, технологии для обучения на нестабильном железе находят приложение и внутри привычных всем кластеров.

Используя вычислительную платформу Яндекса, мы обучили RuLeanALBERT — нейросеть, показывающую сравнимые с другими открытыми моделями и где-то даже близкие к state-of-the-art результаты на бенчмарках по пониманию русского языка — Russian SuperGLUE и RuCoLA. Наша модель хотя и имеет миллиарды параметров, но вполне способна вместиться в одну домашнюю GPU: вы можете использовать её в своих проектах для классификации предложений, представления текстов и других языковых задач, не требующих генерации. В статье можно прочитать о подробностях обучения, которые мы реализовали в открытом коде, а чекпоинт теперь тоже доступен всем желающим.

^{Примерно так выглядит процесс обучения на множестве независимых серверов}

Читать дальше →

+52

arch1baald Sep 14 2022 at 14:11

Шерудим под капотом Stable Diffusion

10 min

36K

Image processing*Machine learning*Artificial IntelligenceNatural Language Processing*

Tutorial

Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию.

Я решил разобраться, и заодно сделать небольшой туториал, по архитектуре модели Stable Diffusion. Сегодня мы не будем глубоко погружаться в математику и процесс тренировки. Вместо этого сфокусируемся на применении и устройстве основных компонент: UNet, VAE, CLIP.

+81

PatientZero Sep 13 2022 at 08:10

Эмуляция видеоигр нейросетью

12 min

20K

Games and game consolesArtificial IntelligenceMachine learning*

Translation

Я создал играбельный верхний мир Pokémon. Он очень похож на обычную видеоигру, можете попробовать сыграть в него в браузере здесь:

Хотя он похож на видеоигру, я не писал код игры. На самом деле это нейросеть, подражающая видеоигре.

Читать дальше →

+31

YourChief Sep 10 2022 at 22:49

Безопасный HTTPS-прокси менее чем за 10 минут

5 min

133K

Information Security*Network technologies*Browser extensionsBrowsersSoftware

Tutorial

Это руководство описывает развёртывание HTTPS-прокси с помощью dumbproxy на практически любом Linux-сервере. Потребуется только curl и рутовый доступ.

+52

Green111 Aug 31 2022 at 21:28

Ещё раз о гидропонике

15 min

43K

BiologyHealthPopular science

From sandbox

Статья об успешном опыте выращивания шести кустов помидоров на гидропонике - дома, на балконе, ~~без регистрации и СМС~~ без ардуино и автоматизации, а только с помощью разума и сил природы. Написана чайником для чайников.

+74

119

Tayrinn Aug 26 2022 at 05:55

Яндекс выпускает DivKit — фреймворк для server-driven UI с открытым кодом

12 min

58K

Яндекс corporate blogGitHub*Open source*Interfaces*Development of mobile applications*

Technotext 2022

Привет! Сегодня Яндекс выкладывает в опенсорс DivKit — фреймворк для отрисовки интерфейсов из ответа сервера. Серверная вёрстка поможет ускорить разработку: наладить отправку апдейтов от сервера разным версиям приложения, создать прототип или просто написать интерфейс один раз для нескольких платформ.

Фреймворк включает в себя несколько библиотек: клиентскую часть по отрисовке интерфейсов для Android, iOS и веба, а также DSL для формирования ответа сервера на Kotlin, TypeScript и Python. Исходный код опубликован на Гитхабе под лицензией Apache 2.0.

Сейчас DivKit используется в приложении Яндекс, Алисе, Едадиле, Маркете, ТВ и других приложениях. В этом посте я постараюсь вспомнить историю фреймворка, затем мы напишем с его помощью небольшой просмотрщик ленты Хабра, а в конце я покажу ещё несколько простых примеров интеграции.

Читать дальше →

+110

Weshid Aug 11 2022 at 11:16

Алгоритм обучения CBOW архитектуры для векторизации слов

5 min

6.2K

Unistar Digital | Юнистар Диджитал corporate blogSemantics*Mathematics*Machine learning*Natural Language Processing*

В этой статье подробно разбирается алгоритм обучения архитектуры CBOW (Continuous Bag of Words), которая появилась в 2013 году и дала сильный толчок в решении задачи векторного представления слов, т.к. в первый раз на практике использовался подход на основе нейронных сетей. Архитектура CBOW не столь требовательна к наличию GPU и вполне может обучаться на ЦП (хотя и более медленно). Большие готовые модели, обученные на википедии или новостных сводках, вполне могут работать на 4-х ядерном процессоре, показывая приемлемое время отклика.

pskucherov Aug 10 2022 at 08:52

История о том, как фронтендер YaLM 100B на одной RTX 3070 TI запускал

5 min

Open source*Python*Machine learning*Natural Language Processing*

В июне Яндекс опубликовал нейросеть YaLM 100B. Нейросеть умеет генерировать тексты. А это очень мощная вещь, можно попробовать массу всего полезного (и не очень) создать с ее помощью, от сюжетов для книг, игр и приложений, заканчивая рерайтом статей или того хуже, дорвеями.

Эта штука имеет лицензию Apache 2.0. Но чтобы запустить нужно ~ 200GB GPU видеопамяти!

И еще есть нюанс, проверить нейронку в работе, не так-то просто. Яндекс не предоставили ни демок, ни инструкций, как запустить бюджетно YaLM 100B. Пока все ждут урезанную или онлайн версию, я познакомился с ней поближе. Об этом и лонгрид.

Спойлер, дальше рассказ пойдёт о том, через что я прошёл и результаты. Исходников не будет.

Поехали!

+19

dmitriizolotov Aug 9 2022 at 15:23

Ищем скрытые смыслы. Графовые нейронные сети на основе Spektral

5 min

4.6K

OTUS corporate blogPython*Open data*TensorFlow*

Развитие методов глубокого машинного обучения привело к росту популярности нейронных сетей в задачах распознавания образов, машинного перевода, генерации изображений и текстов и многих других. С 2009 года нейронные сети попытались применить напрямую в задачах обработки графов (к которым могут относиться системы веб-страниц, связанных ссылками, словари с определенными отношениями между словами, граф социальных связей и другие) и среди возможных задач можно определить поиск кластеров узлов, создание новых графов на основе имеющейся информации о структуре графа, расширение графа и предсказание новых связей и другие. Сейчас выделяют несколько типов нейронных сетей на основе графов - сверточные графовые сети (Convolutional Graph Network), графовые изоморные сети (Graph Isomorphism Network) и многие другие и они часто используются для анализа цитирования статей, исследования текста (представление предложения как графа с указанием типов отношений между словами), изучения взаимосвязанных структур (например, исследования белковых молекул, в частности сеть Alphafold использует модель GNN) и т.д. В статье мы рассмотрим некоторые общие вопросы создания и обучения графовых сетей на основе библиотеки Python Spektral.

Aleron75 Aug 3 2022 at 09:00

Feature Engineering или стероиды для ML моделей

6 min

19K

RUVDS.com corporate blogPython*Data Engineering*Big Data*

Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными ?.

Читать дальше →

+34

glebklinov Jul 26 2022 at 07:16

Зачем фридайверы закрывают друг другу рот рукой

8 min

44K

Popular science

Неглубокое, простите за каламбур, погружение в основные принципы фридайвинга — подводного плавание на задержке дыхания, без акваланга.

О том, где у человека полости в голове, почему в кино обычно ныряют неправильно и как умный организм не даёт нам безвольно утонуть.

+150

k0rsakov Jul 22 2022 at 13:24

Создание и наполнение PostGIS при использовании Docker

5 min

8.6K

Data visualization*Geoinformation services*OpenStreetMap*SQL*PostgreSQL*

Tutorial

From sandbox

Пошаговая инструкция о том, как установить и использовать расширение PostGIS для PostgreSQL в Docker.

Включает в себя: установка и настройка Docker-контейнера, загрузка данных в базу данных, извлечение и визуализация данных, анализ геоданных с помощью PostGIS функционала.

1 2 ...

21 22

24 25 ...

50 51