Pull to refresh
22
Karma
14.1
Rating
Кирилл Косолапов @kirillkosolapov

CEO DATA4

Каких сервисов и продуктов больше всего не хватало в ноябре 2022 года?

Российские аналоги corporate blog Cloud services *Software

Подводим итоги работы Российских аналогов за ноябрь 2022 года и рассказываем о том, каких-же сервисов и продуктов больше всего не хватало в условиях введённых санкций.

Читать далее
Total votes 17: ↑11 and ↓6 +5
Views 2.5K
Comments 14

Пушкин – это нейросеть? Учимся распознавать сгенерированный текст

Amvera corporate blog Semantics *Mathematics *Machine learning *Artificial Intelligence

С появлением в 2020 году нейронной сети GPT3 и других архитектур – трансформеров, генерируемые тексты стали невероятно правдоподобными. Такими правдоподобными, что отдельно взятый текст, не несущий большой смысловой нагрузки, стало сложно отличить от написанного человеком. В статье мы разберем подход к определению сгенерированных текстов. И заодно выясним, является ли, по мнению алгоритма, Пушкин (и другие деятели искусства) искусственной нейронной сетью.

Суть подхода

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 1K
Comments 2

Heroku закрыла бесплатные тарифные планы. Куда мигрировать? Выбираем аналог

Amvera corporate blog IT Infrastructure *DevOps *Cloud services *

С 28 ноября Heroku закрывает бесплатные тарифные планы. В статье мы приведем список конкурентов и альтернатив Heroku для бесплатного или недорогого размещения вашего хобби-проекта.

Если у вас нет карты, оформленной в иностранном банке, то альтернативами Heroku являются:

Замены Heroku

Читать далее
Total votes 12: ↑11 and ↓1 +10
Views 4.9K
Comments 13

Что такое Kubeflow? Основы машинного обучения с Kubeflow

Nixys corporate blog System administration *IT Infrastructure *DevOps *
Translation

У фотографов есть Photoshop, у архитекторов — AutoCAD, а у инженеров машинного обучения — Kubeflow. Каждый получает свои преимущества от использования специализированного программного обеспечения, инженеры ML — не исключение.


В этой статье разберем чем полезен и как работает Kubeflow.

Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views 5.2K
Comments 0

Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark

VK corporate blog Big Data *DevOps *Kubernetes *
Translation


Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.
Читать дальше →
Total votes 17: ↑17 and ↓0 +17
Views 1.9K
Comments 0

Челленджи деплоя, сетевых политик и планировщика: как мы внедряли ML-платформу Kubeflow

VK corporate blog System administration *DevOps *Kubernetes *


Kubeflow — фреймворк на базе Kubernetes, который помогает быстро запускать модели машинного обучения. Мы в VK решили внедрить его в свои рабочие процессы и столкнулись с некоторыми трудностями.

Меня зовут Федюнин Андрей, я системный инженер в команде платформы, которая предоставляет разработчикам Kubernetes для запуска приложений, и отвечаю за ML-кластер в нашей команде. Сегодня расскажу, зачем и как мы внедряли Kubeflow, как решали проблемы и к чему пришли.
Читать дальше →
Total votes 31: ↑31 and ↓0 +31
Views 965
Comments 0

От Single-Instance-прототипа до облачной промышленной платформы интернета вещей: как мы разрабатывали Cloud IoT Platform

VK corporate blog Big Data *Cloud services *IOT Tarantool *

В продуктовой разработке нередко случается, что из кастомного проекта для конкретной компании рождается самостоятельный продукт. Так случилось и с Cloud IoT Platform: из небольшого пилотного проекта мы создали облачную промышленную платформу интернета вещей.

Читать далее
Total votes 37: ↑37 and ↓0 +37
Views 906
Comments 1

Open Source для MLOps: сравнение популярных решений

VK corporate blog Open source *Cloud computing *DevOps *Cloud services *


Здравствуй, Хабр! Меня зовут Александр Волынский, я занимаюсь разработкой ML Platform в VK Cloud. Наша ML-платформа стала доступна пользователям совсем недавно, некоторые из её компонентов сейчас находятся на этапе бета-тестирования. В этой статье я расскажу, как мы выбирали Open-Source-инструменты для MLOps-платформы, какие решения сравнивали, на каком варианте остановили выбор и почему. 
Читать дальше →
Total votes 39: ↑39 and ↓0 +39
Views 2.3K
Comments 0

База данных как сервис: когда, зачем и как использовать DBaaS в облаке

VK corporate blog Cloud computing *Database Administration *Data storage *


Database by Julian-Faylona


Многие облачные платформы предлагают базы данных как сервис (Database as a Service, DBaaS). Базу можно создать в облаке в несколько кликов, не тратя время на настройку и поддержку. Но не всем приложениям облачные базы данных подходят.


Мы расскажем, как на старте проекта не ошибиться с выбором облачной СУБД. Эта статья — вольная переработка нашего вебинара (видео тут).


Мы разберем, когда стоит и не стоит использовать DBaaS, какие особенности нужно учесть при работе с ними и как выбрать подходящую базу данных с учетом особенностей ИТ-инфраструктуры, объема и специфики задач. В конце посмотрим, как устроено создание базы данных в облаке и какие операции с ней доступны, на примере DBaaS Mail.ru Cloud Solutions.

Читать дальше →
Total votes 21: ↑21 and ↓0 +21
Views 5.4K
Comments 5

PUSH в GIT как средство доставки в прод, или как сэкономить время на развертывании и обновлении сервисов

Amvera corporate blog Hosting Programming *DevOps *Cloud services *
Tutorial

Программисты любят программировать. Но если вы – программист, и результат вашего творения делается не “в стол”, рано или поздно наступит момент, когда нужно показать его миру: заказчику, пользователям, инвесторам, etc. Хорошо, когда вы работаете в компании, где есть целый отдел или хотя бы отдельный специально обученный человек, который может развернуть ваше приложение где вы скажете и как вы скажете. Однако не все компании могут себе такое позволить. А уж если вы фрилансер или это ваш пет-проект, развертывание приложения точно ляжет на вас.

О чем вам нужно позаботиться перед развертыванием? Арендовать сервер, настроить его, зарегистрировать доменное имя, получить SSL-сертификат, подумать о доставке обновлений.

Чтобы предметно рассмотреть процесс развертывания, напишем небольшой API-сервис TODO-заметок на языке программирования Python с использованием микрофреймворка Flask.

Планирование

Каждая заметка будет определяться следующим образом:

Читать далее
Total votes 10: ↑6 and ↓4 +2
Views 2.3K
Comments 3

Используем нейросеть для генерации стихов в стиле «Евгения Онегина»

Amvera corporate blog Semantics *Algorithms *Machine learning *

Мне нравится концепция, согласно которой речь – это, в первую очередь, не способ коммуникации, а отражение сознания. В таком случае стихи - это отражение красоты сознания. Но сможет ли нейросеть сгенерировать стихотворения, похожие на рукотворные? Давайте попробуем сделать такой алгоритм.

Шаг 1 – выбираем архитектуру

Тренд последних лет в обработке естественных языков (NLP) - использование нейронных сетей. А если смотреть более узко, то - нейронных сетей архитектуры «трансформер», включающих блок внимания «attention». Суть подхода в том, чтобы использовать при кодировке как в энкодере эмбединга (вектор признаков на выходе слоя нейронной сети), так и в декодере, механизм «attention», позволяющий учитывать взаимосвязь между словами и «фокусировать внимание» нейронной сети только на контексте, имеющем значение для слова.

Одной из архитектур на основе трансформеров является ruBERT, его и возьмем. Но для чистоты эксперимента попробуем также использовать и более старый подход, а именно LSTM нейронную сеть.

Читать далее
Total votes 11: ↑7 and ↓4 +3
Views 1.7K
Comments 14

Считаем, где дешевле распознавание речи — в облаке или на своем сервере

Amvera corporate blog Semantics *Machine learning *Monetization of IT systems *Artificial Intelligence

Когда вы выбираете ASR, важно определиться не только с вендором, но и с моделью закупки. Конечно, если вы банк, облачная система вам не подойдет по умолчанию. Но для всех остальных кейсов мы попробуем сделать расчет и определить, при каком объеме трафика будет выгоднее уже не платить за облако, а поставить решение в контур. 

Читать далее
Total votes 8: ↑6 and ↓2 +4
Views 1.7K
Comments 3

Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли

Amvera corporate blog Semantics *Programming *Machine learning *Reading room

Некоторое время назад к нам пришел клиент – крупный металлургический комбинат с запросам разработки системы распознавания речи. Продукцию комбината перевозят поезда. А во время железнодорожных грузоперевозок машинисты и диспетчеры должны переговариваться согласно регламенту. За переговоры не по регламенту - штраф. Поэтому “боль” клиента была сильной: получить систему автоматического контроля регламента переговоров по рации во избежание финансовых потерь и снижения риска катастроф.  

Мы опрометчиво согласились. А когда получили аудиозаписи, поняли, что поторопились подписывать договор.

Читать, что было дальше
Total votes 22: ↑18 and ↓4 +14
Views 2.5K
Comments 11

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Open Data Science corporate blog Data Mining *Machine learning *Artificial Intelligence Natural Language Processing *
⚒️ Data Mining season
Tutorial

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры". Результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Читать далее
Total votes 32: ↑30 and ↓2 +28
Views 5.4K
Comments 12
Даже консервативные отрасли идут в облака. Для многих компаний облачные сервисы играют роль катализатора цифровой трансформации. Они открывают дорогу к новым бизнес-моделям и продуктам без существенных капитальных вложений. Это было особенно заметно в 2020 ковидный год.

Облачные сервисы — не панацея: тут есть свои проблемы. Но сложности сходят на нет за счёт развития самих облаков. В ЦОДах используются более совершенные железо и технологии, развивается клиентский сервис операторов, появляются новые подходы к эксплуатации и обслуживанию.

Облачные сервисы можно рассматривать на разных уровнях абстракции, и для каждого характерны свои тенденции.
Читать далее
Total votes 59: ↑58 and ↓1 +57
Views 18K
Comments 0

Антиспуфинг: как системы распознавания лиц противостоят мошенникам?

Центр речевых технологий (ЦРТ) corporate blog Information Security *IT Infrastructure *
Sandbox
В этой статье попробую обобщить информацию о существующих методах liveness detection, которые применяются для защиты от взлома систем распознавания лиц.

facial biometrics

От чего защищаем?


С развитием облачных технологий и веб-сервисов все больше транзакций перемещается в онлайн-среду. При этом более 50% онлайн транзакций (ритейл) совершаются с мобильных устройств.

Рост популярности мобильных транзакций не может не сопровождаться активным ростом киберпреступности.
Случаи онлайн-мошенничества на 81% вероятнее, чем мошенничество в точках продаж.

16,7 млн. личных данных американцев были украдены только за 2017 год (Javelin Strategy and Research). Ущерб от мошенничества с захватом аккаунтов составил $5,1 млрд.

В России, по данным Group-IB, за 2017 год хакеры украли у владельцев Android-смартфонов более миллиарда рублей, что на 136% больше, чем годом ранее.
Читать дальше →
Total votes 16: ↑15 and ↓1 +14
Views 11K
Comments 5

Face Anti-Spoofing или технологично узнаём обманщика из тысячи по лицу

Open Data Science corporate blog Information Security *Machine learning *Popular science Artificial Intelligence

Биометрическая идентификация человека – это одна из самых старых идей для распознавания людей, которую вообще попытались технически осуществить. Пароли можно украсть, подсмотреть, забыть, ключи – подделать. А вот уникальные характеристики самого человека подделать и потерять намного труднее. Это могут быть отпечатки пальцев, голос, рисунок сосудов сетчатки глаза, походка и прочее.



Конечно же, системы биометрии пытаются обмануть! Вот об этом мы сегодня и поговорим. Как злоумышленники пытаются обойти системы распознавания лица, выдав себя за другого человека и каким образом это можно обнаружить.

Читать дальше →
Total votes 67: ↑66 and ↓1 +65
Views 24K
Comments 18

Архитектура и технологические подходы к обработке BigData на примере «1С-Битрикс BigData: Персонализация»

Битрикс24 corporate blog Website development *1С-Bitrix *Big Data *
В сентябре этого года в Киеве прошла конференция, посвящённая большим данным — BigData Conference. По старой традиции, мы публикуем в нашем блоге некоторые материалы, представленные на конференции. И начинаем с доклада Александра Демидова.

Сейчас очень многие интернет-магазины осознали, что одной из главных задач для них является повышение собственной эффективности. Возьмем два магазина, каждый из которых привлек по 10 тыс. посетителей, но один сделал 100 продаж, а другой 200. Вроде бы, аудитория одинаковая, но второй магазин работает в два раза эффективнее.

Тема обработки данных, обработки моделей посетителей магазинов актуальна и важна. Как вообще работают традиционные модели, в которых все связи устанавливаются вручную? Мы составляем соответствие товаров в каталоге, составляем связки с аксессуарами, и так далее. Но, как говорит расхожая шутка:


Читать дальше →
Total votes 21: ↑16 and ↓5 +11
Views 14K
Comments 5

Apache Spark в «боевых» проектах — опыт выживания

Битрикс24 corporate blog Programming *
Предлагаем вашему вниманию материалы по мотивам выступления Александра Сербула на конференции BigData Conference. Я, как автор и докладчик, текст немного отредактировал и добавил современных мыслей и актуальных проблем, поэтому надеюсь пост принесет вам как дополнительные практические полезные знания в отрасли, так и пищу для размышлений — куда податься со своими знаниями. Итак — в бой!
Читать дальше →
Total votes 21: ↑19 and ↓2 +17
Views 25K
Comments 39

Алгоритм извлечения информации в ABBYY Compreno. Часть 1

ABBYY corporate blog Search engines *Semantics *
Привет, Хабр!

Меня зовут Илья Булгаков, я программист отдела извлечения информации в ABBYY. В серии из двух постов я расскажу вам наш главный секрет – как работает технология Извлечения Информации в ABBYY Compreno.

Ранее мой коллега Даня Скоринкин DSkorinkin успел рассказать про взгляд на систему со стороны онтоинженера, затронув следующие темы:

В этот раз мы опустимся глубже в недра технологии ABBYY Compreno, поговорим про архитектуру системы в целом, основные принципы ее работы и алгоритм извлечения информации!



Читать дальше →
Total votes 44: ↑40 and ↓4 +36
Views 29K
Comments 15
1

Information

Rating
346-th
Works in
Date of birth
Registered
Activity