Статьи / Профиль UtrobinMV / Хабр

Михаил Утробин@UtrobinMV

Machine Learning

Подписчики

ПрофильСтатьи7ПостыНовостиКомментарии144

UtrobinMV 3 фев 2025 в 23:43

Как я объединил перевод и суммаризацию текстов, и что из этого вышло

Средний

8 мин

3.5K

Data Mining * Машинное обучение * Искусственный интеллектNatural Language Processing * Data Engineering *

Туториал

Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали.

Однако при ближайшем рассмотрении эти задачи имеют много общего...

UtrobinMV 5 фев 2024 в 13:33

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Простой

10 мин

16K

Data Engineering * Natural Language Processing * Искусственный интеллектМашинное обучение * Data Mining *

Обзор

"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьер в доступности информации на различных языках. Большинство данных в интернете представлены на английском и русском языках. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше. Поэтому необходимо всё больше инструментов позволяющих использовать все эти языки для своей работы.

UtrobinMV 9 мар 2023 в 13:19

Первая бесплатная модель перевода с русского на китайский язык и обратно

6 мин

11K

Data Mining * Машинное обучение * Искусственный интеллектNatural Language Processing * Data Engineering *

Кейс

Cезон machine learning

Представляю вашему вниманию, первую бесплатную offline модель по переводу с русского языка на китайский и обратно.

Ранее, я писал, как можно достаточно легко обучить свою модель по машинному переводу на примере перевода с английского на русский.

В этот раз я решил, реализовать, модель перевода с китайского языка, так как давно хотел и о чем заявлял в комментариях к предыдущей своей статье.

+14

UtrobinMV 22 сен 2022 в 09:21

Как создать переводчик, который переводит лучше, чем Google Translate

8 мин

42K

Data Engineering * Natural Language Processing * Искусственный интеллектМашинное обучение * Data Mining *

Туториал

Cезон Data Mining

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В этот раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

+60

UtrobinMV 18 мая 2022 в 07:05

Большое сравнение 400 нейронных сетей для задачи классификации на более 8000 классов

7 мин

17K

Python * Data Mining * Машинное обучение * Искусственный интеллектData Engineering *

Думаю, вы знакомы с графиками сравнения точности архитектур. Их применяют в задачах по классификации изображений на ImageNet.

В каждом сравнении которые я мог встретить ранее в Интернете, как правило это было сравнение небольшого количества архитектур нейросетей, произведенными разными командами, и возможно в разных условиях.

Кроме того в последнее время я наблюдаю изменения: появилось большое количество архитектур. Однако их сравнений с ранее созданными архитектурами я не встречал, либо оно было не столь масштабным.

Мне захотелось столкнуть большое количество существующих архитектур для решения одной задачи, при это объективно посмотреть как поведут себя новые архитектуры типа Трансформер, так и ранее созданные архитектуры.

+10

UtrobinMV 16 апр 2022 в 23:20

Как я переходил с Windows на Linux 10 лет назад

7 мин

45K

*nix * IT-инфраструктура * HabrOpen source * Настройка Linux *

Туториал

Come back to school!

В Linux есть что-то неполноценное, и нет ничего лучше, чем Windows или, например, MacOS. Вы наверняка слышали такое мнение много раз. Я же считаю, что подобная оценка возникает из-за человеческих привычек.

Однажды научившись работать с одной операционной системой, тяжело перейти на новую, или просто не хочется, ведь изучение ОС - долгий процесс. Нельзя просто так лишь в порыве страсти или минутного желания перейти на новую систему полностью, по-настоящему, так чтобы не ставить свою прошлую операционную систему на виртуальную машину, или как вторую (запасную) систему на своем ПК.

Если вы готовы почувствовать себя студентом снова, я расскажу, что нужно сделать….

329

UtrobinMV 12 окт 2021 в 09:51

Как я сжимал модель fastText для реальной задачи в 80 раз в 2021 году

3 мин

6.4K

Python * Машинное обучение * Искусственный интеллект

Из песочницы

FastText — это отличное решение для предоставления готовых векторных представлений слов, для решения различных задач в области ML и NLP. Но основным недостатком данных моделей является, то что на текущий момент обученная модель FastText на русскоязычном корпусе текстов Википедии занимает немногим более 16Гигабайт, что в значительной мере сужает возможности использования данной технологией.

На просторах хабра вы уже найдете примеры такого сжатия описанные ранее «Давидом Дале» в статье «Как сжать модель fastText в 100 раз». Решая эту задачу, а применял рекомендации из данной статьи, и к ним мы еще вернемся, но эта статья уже несколько потеряла свою актуальность, так как часть используемых методов более не работают в новой версии библиотеки Gensim 4.0. Кроме того, применяемый в данной статье имеет более общий характер применения, так как сжатая данный образом модель все же не рассчитана на решение узкой задачи, и как показала практика при решении более узких задач, модель теряет в качестве более существенно, чем это показано на примерах.

В этой статье я расскажу о том, как я сжимал модель FastText для решения конкретной, локальной задачи, при этом основной целью, было именно то, чтобы результаты не отличались, от результатов исходной модели FastText.

Основная суть примененного мною метода, была в том, чтобы исключить из словаря модели FastText не используемые слова. Так как например модель «wiki_ru», содержит в своем корпусе 1,88 млн слов в словаре, и 2 млн n-грамм токенов, (300 мерных) векторов.

+10