Статьи / Закладки / Профиль buriy / Хабр

Юрий Бабуров @buriy

Web, AI, Deep Learning, Python

Профиль Публикации 1Комментарии 835Закладки 223

snakers4 1 фев в 10:29

Всё /var/lib/docker пожрал … docker

Простой

2 мин

4.8K

Системное администрирование*Виртуализация*Серверное администрирование*

Небольшая юмористическая заметка на тему того, что делать, если докер всё пожрал всё место на диске, от для человека, который каждый день работает с докером ~~не шарит за докер.~~

Заметку написала моя коллега, орфография и пунктуация по возможности сохранены. В какой-то момент ей надоело вспоминать или гуглить как чистить мусор, который оставляет докер, его билды, образы и вольюмы, и она свела всё в одну заметку.

Как мне кажется, получилось довольно смешно. Всё написанное в статье выдумка, любые совпадения с реальным миром случайны, если вы вводите в консоль sudo или его аналог - вы делаете это на свой страх и риск. Слова, замененные на другие для соблюдения правил Хабра, выделил курсивом, но думаю всё поймут, что было в оригинале написано.

+12

Ryder95 19 ноя 2023 в 09:19

Землю — крестьянам, gRPC — питонистам

Средний

5 мин

15K

Open source*Python*Сетевые технологии*

Кейс

Протокол gRPC в данный момент является довольно распространёным решением (почему, очень хорошо описано в статье от Яндекса). На работе мы также используем его везде, где идёт речь об общении микросервисов друг с другом. Но, к сожалению, когда я начал вникать в устройство и применять его, столкнулся с некоторыми сложностями в реализации сервера на Python, которые показались мне неоправданными.

Внутри кроется решение!

+14

honyaki 19 авг 2022 в 23:47

О новом простом методе снижения высокой размерности данных

8 мин

8.1K

Python*Математика*Блог компании SkillfactoryR*Matlab*

Перевод

О новом методе решения проблемы оценки ковариационной матрицы в данных высокой размерности [научная работа опубликована в 2012 году] рассказываем к старту нашего флагманского курса по Data Science. Подробности — под катом:

Узнать больше

lahmatiy 14 мар 2018 в 13:05

Unit-тестирование скриншотами: преодолеваем звуковой барьер. Расшифровка доклада

24 мин

27K

Веб-разработка*JavaScript*Программирование*Тестирование веб-сервисов*Блог компании AvitoTech

Тестировать регресс верстки скриншотами модно, этим никого не удивишь. Мы давно хотели внедрить этот вид тестирования у себя. Всё время смущали вопросы простоты поддержки и применения, но в большей степени — пропускная способность решений. Хотелось, чтобы это было что-то простое в использовании и быстрое в работе. Готовые решения не подошли, и мы взялись делать свое.

Под катом расскажем, что из этого вышло, какие задачи решали, и как мы добились того, чтобы тестирование скриншотами практически не влияло на общее время прохождения тестов. Этот пост — расшифровка доклада, который прозвучал на HolyJS 2017 Moscow. Видео можно посмотреть по ссылке, а почитать и посмотреть слайды — далее.

+38

nkarpov 22 июл 2021 в 13:37

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

Простой

5 мин

7.4K

Машинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*Блог компании SberDevices

Туториал

Меня зовут Николай, когда в 2009 году я защищал диссертацию по распознаванию речи, скептики мне говорили, что слишком поздно, так как Microsoft и Google уже “всё сделали”. Сейчас в SberDevices я обучаю модели распознавания речи, которые используются в семействе виртуальных ассистентов Салют и других банковских сервисах. Я расскажу, как обучил модель распознавания речи, используя Common Voice и недавно открытый датасет Golos. Ошибка распознавания составила от 3 до 11 % в зависимости от типа тестовой выборки, что очень неплохо для открытой модели.

Не так давно наша команда подготовила и опубликовала общедоступный датасет Golos. Почему встал вопрос об обучении и публикации акустической модели QuartzNet? Во-первых, чтобы узнать, какую точность достигает система распознавания речи при обучении на новом датасете. Во-вторых, обучение само по себе ресурсоёмкое, поэтому сообществу полезно иметь в открытом доступе предобученную модель на русском языке. Полная версия статьи опубликована на сайте arxiv.org и будет представлена на конференции INTERSPEECH2021.

kmike 15 апр 2013 в 04:48

pymorphy2

16 мин

81K

Python*Алгоритмы*Natural Language Processing*

В далеком 2009 году на хабре уже была статья "Кузявые ли бутявки.." про pymorphy — морфологический анализатор для русского языка на Python (штуковину, которая умеет склонять слова, сообщать информацию о части речи, падеже и т.д.)

В 2012м я начал потихоньку делать pymorphy2 (github, bitbucket) — думаю, самое время представить эту библиотеку тут: pymorphy2 может работать в сотни раз быстрее, чем pymorphy (втч без использования C/C++ расширений) и при этом требовать меньше памяти; там лучше словари, лучше качество разбора, лучше поддержка буквы ё, проще установка и более «честный» API. Из негатива — не все возможности pymorphy сейчас реализованы в pymorphy2.

Эта статья о том, как pymorphy2 создавался (иногда с довольно скучными техническими подробностями), и сколько глупостей я при этом наделал; если хочется просто все попробовать, то можно почитать документацию.

Читать дальше →

+97

smirnovevgeny 1 ноя 2021 в 11:15

Классификация кассовых чеков

6 мин

8.5K

Big Data*Блог компании Альфа-БанкХакатоныМашинное обучение*Искусственный интеллект

Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из товарных позиций, большинство же, видимо, сильно экономят на бумаге и сокращают все названия.

В кассовых чеках не содержатся штрих-коды и другие идентификаторов товаров. К сожалению, исходя из вышеописанных причин, не может существовать единого каталога с категоризацией всех названий товаров из чеков. А ведь наличие такого каталога помогло бы более качественно отображать детализацию покупок клиенту. Дополнительно категоризация товарных позиций может быть использована в качестве дополнительных признаков в моделях, использующих транзакционные переменные.

Весной 2021-го года ВТБ организовывал соревнование на платформе Boosters с целью решения этой задачи.

+16

thedenk 27 дек 2020 в 16:04

Первое место на AI Journey 2020 Digital Петр

7 мин

7.1K

Python*Обработка изображений*Машинное обучение*Искусственный интеллектNatural Language Processing*

Из песочницы

Совсем недавно закончилось ежегодное международное соревнование AI Journey, организатором которого является Сбер. В этот раз нам была предоставлена возможность решать несколько задач: Digital Петр: распознавание рукописей Петра I, NoFloodWithAI: паводки на реке Амур и AI 4 Humanities: ruGPT-3. Наша команда приняла участие в решении задачи "Digital Петр: распознавание рукописей Петра I" и заняла первое место.

+16

Newchronik 13 ноя 2020 в 10:24

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

4 мин

12K

Python*Алгоритмы*Машинное обучение*Искусственный интеллектData Engineering*

Эта статья внеплановая. В прошлый раз я рассматривал нюансы и проблемы различных методов нормализации данных. И только после публикации понял, что не упомянул некоторые важные детали. Кому-то они покажутся очевидными, но, по-моему, лучше сказать об этом явно.

Читать дальше →

sim0nsays 23 апр 2016 в 10:02

Заметки с MBC Symposium: применение deep learning в моделировании мозга

6 мин

11K

Обработка изображений*Машинное обучение*

Посетил Стенфордский симпозиум, посвященный пересечению deep learning и neurosciencе, получил массу удовольствия.

Рассказываю про интересное — например, доклад Дэна Яминса о применении нейросетей для моделирования работы зрительной коры головного мозга.

Осторожно, хардкор

+24

ZlodeiBaal 27 окт 2020 в 09:34

Как запихать нейронку в кофеварку

12 мин

30K

Анализ и проектирование систем*Блог компании RecognitorМашинное обучение*DevOps*Компьютерное железо

Мир машинного обучения продолжает стремительно развиваться. Всего за год технология может стать мейнстримом, и разительно измениться, придя в повседневность.

За прошедший год-полтора, одной из таких технологий, стали фреймворки выполнения моделей машинного обучения. Не то, что их не было. Но, за этот год, те которые были — стали сильно проще, удобнее, мощнее.

В статье я попробую осветить всё что повылезало за последнее время. Чтобы вы, решив использовать нейронную сеть в очередном калькуляторе, знали куда смотреть.

Читать дальше →

+31

Kouki_RUS 29 сен 2020 в 16:28

Более эффективное предварительное обучение NLP моделей с ELECTRA

5 мин

4.6K

Машинное обучение*

Перевод

Последние разработки в области предварительного обучения языковых моделей привели к значительным успехам в сфере обработки естественного языка (Natural Language Processing, NLP), породив такие высокоэффективные модели, как BERT, RoBERTa, XLNet, ALBERT, T5 и многие другие. Эти методы, имеющие различную архитектуру, тем не менее, объединяет идея использования больших объемов неразмеченных текстовых данных для создания общей модели понимания естественного языка, которая затем дообучается и тонко настраивается для решения конкретных прикладных задач, вроде анализа тональности или построения вопросно-ответных систем.

Читать дальше →

+10

ipostny 18 авг 2020 в 17:25

Искусственный интеллект в области юриспруденции. Статья 3

45 мин

6.8K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Введение

Мы продолжаем цикл статей на тему юридического искусственного интеллекта, аспектов его разработки и перспектив практического применения на отечественном рынке. В предыдущих публикациях мы неоднократно говорили, что, по нашему мнению, разработка Legal AI может быть обеспечена с помощью создания и применения нового семантического блока, включающего в себя:

инструменты лингвистического анализа текстов на естественном языке;
структурированную модель юридических знаний (графы знаний и онтологии);
предобученные нейронные сети.

В первой статье мы детально исследовали существующие инструменты процессинга русскоязычного текста. Во второй статье мы рассмотрели подходы к созданию продуктов на основе искусственного интеллекта, а также вопросы взаимодействия специалистов в области IT и юриспруденции. В настоящей статье мы предлагаем погрузиться в тему онтологий и ответить на следующие вопросы:

Какова роль онтологий в процессе создания искусственного интеллекта?
Почему существующие онтологии в области права неприменимы для Legal AI, несмотря на многолетние попытки зарубежных специалистов структурировать юридические знания?
Какими свойствами должны обладать онтологии для Legal AI, чтобы решать практические задачи?

Читать дальше →

+10

cointegrated 21 июн 2020 в 17:26

Как предсказать гипероним слова (и зачем). Моё участие в соревновании по пополнению таксономии

8 мин

12K

Python*Алгоритмы*ХакатоныМашинное обучение*Natural Language Processing*

Как может машина понимать смысл слов и понятий, и вообще, что значит — понимать? Понимаете ли вы, например, что такое спаржа? Если вы скажете мне, что спаржа — это (1) травянистое растение, (2) съедобный овощ, и (3) сельскохозяйственная культура, то, наверное, я останусь убеждён, что вы действительно знакомы со спаржей. Лингвисты называют такие более общие понятия гиперонимами, и они довольно полезны для ИИ. Например, зная, что я не люблю овощи, робот-официант не стал бы предлагать мне блюда из спаржи. Но чтобы использовать подобные знания, надо сначала откуда-то их добыть.

В этом году компьютерные лингвисты организовали соревнование по поиску гиперонимов для новых слов. Я тоже попробовал в нём поучаствовать. Нормально получилось собрать только довольно примитивный алгоритм, основанный на поиске ближайших соседей по эмбеддингам из word2vec. Однако этот простой алгоритм каким-то образом оказался наилучшим решением для поиска гиперонимов для глаголов. Послушать про него можно в записи моего выступления, а если вы предпочитаете читать, то добро пожаловать под кат.

Читать дальше →

+23

ZlodeiBaal 15 июн 2020 в 11:03

Самая сложная задача в Computer Vision

13 мин

67K

Python*Обработка изображений*Блог компании RecognitorМашинное обучение*Искусственный интеллект

Туториал

Среди всего многообразия задач Computer Vision есть одна, которая стоит особняком. К ней обычно стараются лишний раз не притрагиваться. И, если не дай бог работает, — не ворошить.
У неё нет общего решения. Практически для каждого применения существующие алгоритмы надо тюнинговать, переобучать, или судорожно копаться в куче матриц и дебрях логики.

Статья о том как делать трекинг. Где он используется, какие есть разновидности. Как сделать стабильное решение.

+127

AlexeyAB 21 мая 2020 в 19:13

YOLOv4 – самая точная real-time нейронная сеть на датасете Microsoft COCO

9 мин

77K

Программирование*Обработка изображений*Машинное обучение*Искусственный интеллект

Darknet YOLOv4 быстрее и точнее, чем real-time нейронные сети Google TensorFlow EfficientDet и FaceBook Pytorch/Detectron RetinaNet/MaskRCNN.

Эта же статья на medium: medium
Код: github.com/AlexeyAB/darknet
Статья: arxiv.org/abs/2004.10934
Обсуждение YOLOv4-tiny 1770 FPS: www.reddit.com/r/MachineLearning/comments/hu7lyt/p_yolov4tiny_speed_1770_fps_tensorrtbatch4
Обсуждение: www.reddit.com/r/MachineLearning/comments/gydxzd/p_yolov4_the_most_accurate_realtime_neural

Мы покажем некоторые нюансы сравнения и использования нейронных сетей для обнаружения объектов.

Нашей целью было разработать алгоритм обнаружения объектов для использования в реальных продуктах, а не только двигать науку вперед. Точность нейросети YOLOv4 (608x608) – 43.5% AP / 65.7% AP50 Microsoft-COCO-testdev.

62 FPS – YOLOv4 (608x608 batch=1) on Tesla V100 – by using Darknet-framework
400 FPS – YOLOv4 (320x320 batch=4) on RTX 2080 Ti – by using TensorRT+tkDNN
32 FPS – YOLOv4 (416x416 batch=1) on Jetson AGX Xavier – by using TensorRT+tkDNN

Читать дальше →

+27

SLY_G 29 мая 2020 в 14:00

Компьютеры постепенно приближаются к обладанию здравым смыслом

13 мин

8.1K

Машинное обучение*Искусственный интеллект

Перевод

Специалисты, изучающие искусственный интеллект, уже 50 лет борются с задачей построения рассуждений при помощи здравого смысла. Новый подход к этой проблеме, созданный на основе двух совершенно разных подходов к мышлению, демонстрирует важные достижения.

Однажды вечером, в октябре прошлого года, исследователь ИИ Гэри Маркус развлекался со своим айфоном, раз за разом убеждаясь в идиотизме одной из самых продвинутых нейросетей. Мишенью для развлечения Маркуса была сеть глубокого обучения под названием GPT-2, которая недавно прославилась своей непревзойдённой возможностью выдавать правдоподобно выглядящие английские тексты на основе одного-двух начальных предложений. Когда журналисты из The Guardian скормили ей текст из отчёта по Брекзиту, GPT-2 написала несколько параграфов в стиле газетной заметки, с убедительными политическими и географическими отсылками.

Читать дальше →

+17

Sobolev5 19 мая 2020 в 19:59

Авторизация пользователя при помощи Starlette + Vue.js

7 мин

Python*Django*

Из песочницы

Вступление

Задача — создать пример авторизации пользователя с использованием фреймворков Starlette (https://www.starlette.io/) и Vue.js *, который был бы максимально комфортным разработчикам Django для «миграции» в асинхронный стек.

Почему Starlette? В первую очередь скорость. Starlette ультимативно быстр, и в тестах уступает только BlackSheep (https://pypi.org/project/blacksheep/). Во вторых Starlette весьма прост и писать на нем в силу его продуманности легко и приятно.

В качестве ORM мы будем использовать Tortoise ORM (со моделями и выборками «аля Django ORM»).

В качестве сессионного механизма мы будем использовать JWT.

* Описание фронтенда на Vue.js не входит в данную заметку.

Читать дальше →

netricks 22 мая 2020 в 02:18

Сознание и тезис Макса Фрая

26 мин

29K

Искусственный интеллектМозг

КДПВ

С древних времен считалось, что в феномене сознания есть что-то непонятное. Что-то непостижимое. Считалось, что сознание есть проявление нематериального, привнесенного высшими силами. Если для мифологического мировосприятия такой порядок вещей естественен, то со сменой парадигм и зарождением естествознания феномен сознания потребовал объяснения.

Читать дальше →

+56

272

nlevashov 3 дек 2019 в 15:40

Бот на нейросетках: как работает и учится виртуальный ассистент

12 мин

22K

Клиентская оптимизация*Алгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*

В 2016 году на пике популярности чат-ботов наша команда делала кнопочных помощников для бизнеса. Пока не пришла мысль поинтереснее: «А что, если автоматизировать клиентскую поддержку нейронными сетями?». Нам хотелось, чтобы роботы в чатах наконец научились понимать естественный язык и стали удобными.

Потребовалось четыре математика, шесть месяцев запойной работы, один новый язык программирования и много ошибок — и мы создали конструктор, в котором каждый может собрать виртуального ассистента с ИИ.

В материале мы расскажем

Чем виртуальный ассистент отличается от обычного чат-бота
Правда ли, что виртуальные ассистенты понимают язык
Как мы научили робота понимать контекст и написали язык lialang
Проверка кейсами: как мы автоматизировали поддержку в трёх банках
Создание Lia Platform и движка для интерфейсов
Три шага: как работает платформа для сборки виртуальных ассистентов (где собрать робота может любой, даже не-программист)

Читать дальше →

+10

2 3 ...

9 10

Всё /var/lib/docker пожрал … docker

Землю — крестьянам, gRPC — питонистам

О новом простом методе снижения высокой размерности данных

Unit-тестирование скриншотами: преодолеваем звуковой барьер. Расшифровка доклада

Как улучшить распознавание русской речи до 3% WER с помощью открытых данных

pymorphy2

Классификация кассовых чеков

Первое место на AI Journey 2020 Digital Петр

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

Заметки с MBC Symposium: применение deep learning в моделировании мозга

Как запихать нейронку в кофеварку

Более эффективное предварительное обучение NLP моделей с ELECTRA

Искусственный интеллект в области юриспруденции. Статья 3

Введение

Как предсказать гипероним слова (и зачем). Моё участие в соревновании по пополнению таксономии

Самая сложная задача в Computer Vision

YOLOv4 – самая точная real-time нейронная сеть на датасете Microsoft COCO

Компьютеры постепенно приближаются к обладанию здравым смыслом

Авторизация пользователя при помощи Starlette + Vue.js

Вступление

Сознание и тезис Макса Фрая

Бот на нейросетках: как работает и учится виртуальный ассистент

В материале мы расскажем

Информация

Специализация