Рассмотрим варианты сервисов хостинга проектов в docker контейнерах. Сразу оговорюсь — мы не будем приводить в статье список VPS. Да, сделать на них хостинг docker возможно, но это тема отдельной статьи. В этой мы рассмотрим именно специализированные сервисы для хостинга докер контейнеров.
А вам точно нужен Kubernetes?
В последнее время я вижу много хайпа вокруг Kubernetes. Кажется, что он везде и всюду, а если кто-то его еще не использует, то он безнадежно отстал. Но странно принимать решение о внедрении технологии только на основе ее популярности в СМИ. Давайте разберемся: а вот лично вам правда нужен K8S?
Для чего используют Kubernetes?
Как правило, внедрение Kubernetes означает использование микросервисной архитектуры. Конечно, чтобы реализовать микросервисы, не обязательно внедрять Кубернетес. Но очень часто обращаются именно к нему.
Тогда сформулируем вопрос иначе: а вам правда нужны микросервисы? И потом вернемся к предыдущему вопросу.
Достоинств у микросервисной архитектуры много. Например:
Бесплатный хостинг для Telegram-бота или Discord-бота на Python и не только. Обзор вариантов
Когда у вас небольшой проект (например, телеграмм-бот или дискорд-бот), платить лишние деньги за хостинг не хочется. Давайте попробуем разобраться, какие есть варианты бесплатного – или условно бесплатного – хостинга для ботов.
Как Splunk поплатился за жадность, или почему в бизнесе важна справедливость
Далеко не все в России знают про компанию Splunk. Splunk разрабатывает IT-сервисы (программы для сбора и обработки логов, SIEM системы и т.д.) и зарабатывает около 3 млрд.$ в год. У нас данная американская компания известна, прежде всего, двумя вещами:
• Ее продукты стоят как “чугунный мост”. Средний чек Splunk - несколько сотен тысяч долларов в год.
• Подключив несколько сотен корпоративных клиентов в России, Splunk ушла с российского рынка одним днем в 2019 году, оповестив клиентов в пресс-релизе. После чего все в горящем режиме переходили на Elastic и другие решения.
Данная статья будет как раз о первом пункте - неадекватной цене, и почему лучше так не делать (хотя уходить одним днем тоже не лучшая идея). Материалы для статьи мы случайно нашли, когда выбирали решение для анализа логов. История показалась нам весьма интересной.
Предоставляем бесплатное облачное распознавание речи ASR
В этой статье мы, расскажем, как сделали первое действительно бесплатное облачное распознавание речи и как им воспользоваться.
Разработчики систем распознавания речи, как правило, используют поминутную тарификацию распознавания. В одной из прошлых статей я уточнял почему считаю это далеко не всегда правильным (если кратко, то при такой тарификации вендоры округляют длительность в большую сторону, а значит, за распознавание коротких записей вы заметно переплачиваете, а при большом трафике это очень дорого).
Давайте теперь разберемся, действительно ли для вендоров экономически оправданно брать деньги с хобби-проектов и небольших компаний, которым нужно распознавать не миллионы, а всего лишь десятки или сотни минут в день.
Насколько можно улучшить распознавание речи в записях с АЗС за месяц
Эта история началась с того, что к нам пришел клиент, которому нужна была система распознавания речи. Да не простая, а качественно распознающая разговоры с микрофонов на АЗС, то есть речь в сильных шумах. Цель заказчика простая – контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе. Вы наверняка все это сами слышали на заправках.
Но есть проблема. Хорошо распознать простую чистую речь могут почти все известные решения. Но речь, где на фоне играет радио, слышны звуки с других касс, громкость речи говорящих разная и присутствует много отраслевой лексики (бренды сигарет, марки топлива), качественно распознать не смогло ни одно «коробочное» решение.
Вызов принят! Мы решили за ограниченное время справиться с этим кейсом.
Шаг 1 – транскрибируем несколько файлов и замеряем качество распознавания на своем решении и решении конкурентов.
Для измерения качества распознавания используем метрику WER.
Пушкин – это нейросеть? Учимся распознавать сгенерированный текст
С появлением в 2020 году нейронной сети GPT3 и других архитектур – трансформеров, генерируемые тексты стали невероятно правдоподобными. Такими правдоподобными, что отдельно взятый текст, не несущий большой смысловой нагрузки, стало сложно отличить от написанного человеком. В статье мы разберем подход к определению сгенерированных текстов. И заодно выясним, является ли, по мнению алгоритма, Пушкин (и другие деятели искусства) искусственной нейронной сетью.
Суть подхода
PUSH в GIT как средство доставки в прод, или как сэкономить время на развертывании и обновлении сервисов
Программисты любят программировать. Но если вы – программист, и результат вашего творения делается не “в стол”, рано или поздно наступит момент, когда нужно показать его миру: заказчику, пользователям, инвесторам, etc. Хорошо, когда вы работаете в компании, где есть целый отдел или хотя бы отдельный специально обученный человек, который может развернуть ваше приложение где вы скажете и как вы скажете. Однако не все компании могут себе такое позволить. А уж если вы фрилансер или это ваш пет-проект, развертывание приложения точно ляжет на вас.
О чем вам нужно позаботиться перед развертыванием? Арендовать сервер, настроить его, зарегистрировать доменное имя, получить SSL-сертификат, подумать о доставке обновлений.
Чтобы предметно рассмотреть процесс развертывания, напишем небольшой API-сервис TODO-заметок на языке программирования Python с использованием микрофреймворка Flask.
Планирование
Каждая заметка будет определяться следующим образом:
Используем нейросеть для генерации стихов в стиле «Евгения Онегина»
Мне нравится концепция, согласно которой речь – это, в первую очередь, не способ коммуникации, а отражение сознания. В таком случае стихи - это отражение красоты сознания. Но сможет ли нейросеть сгенерировать стихотворения, похожие на рукотворные? Давайте попробуем сделать такой алгоритм.
Шаг 1 – выбираем архитектуру
Тренд последних лет в обработке естественных языков (NLP) - использование нейронных сетей. А если смотреть более узко, то - нейронных сетей архитектуры «трансформер», включающих блок внимания «attention». Суть подхода в том, чтобы использовать при кодировке как в энкодере эмбединга (вектор признаков на выходе слоя нейронной сети), так и в декодере, механизм «attention», позволяющий учитывать взаимосвязь между словами и «фокусировать внимание» нейронной сети только на контексте, имеющем значение для слова.
Одной из архитектур на основе трансформеров является ruBERT, его и возьмем. Но для чистоты эксперимента попробуем также использовать и более старый подход, а именно LSTM нейронную сеть.
Как мы сделали свое Heroku-подобное облако
Возможно, у вас была (или есть) потребность развернуть свой IT-проект, будь то простой бот, сайт, приложение или сложный высоконагруженный сервис. И, возможно, вы пользовались для этого AWS, MS Azure или другими провайдерами публичных облаков.
Тогда вы знаете, что для использования таких облачных решений нужно иметь весьма «глубокие карманы». Так, чтобы развернуть обычный сервис распознавания речи на 20 потоков вы заплатите Яндексу за виртуальные машины и за СУБД 43500 руб. в месяц (расчет на основе нашего ASR). И это еще достаточно простой, пусть и требовательный к CPU сервис. Кажется, облачные услуги должны быть более доступны с финансовой точки зрения.
В этой статье мы расскажем, как делали свое облако, с чем столкнулись, и что в итоге получилось.
Почему контейнеры «убьют» виртуальные машины?
Предположим, вы программист и вам нужно где-то разместить сайт или приложение.
Но что если проект не такой большой, чтобы платить серьезные деньги за облако по типу Amazon, вы не хотите тратить человеческий ресурс на администрирование инфраструктуры и хотите большую масштабируемость, чем у железного сервера?
Вот как раз в этом случае и пригодятся контейнеры.
Традиционно у вас есть 3 основных варианта: собственный железный сервер, хостинг виртуальной машины, облачные сервисы наподобие Amazon EC2.
Считаем, где дешевле распознавание речи — в облаке или на своем сервере
Когда вы выбираете ASR, важно определиться не только с вендором, но и с моделью закупки. Конечно, если вы банк, облачная система вам не подойдет по умолчанию. Но для всех остальных кейсов мы попробуем сделать расчет и определить, при каком объеме трафика будет выгоднее уже не платить за облако, а поставить решение в контур.
Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли
Некоторое время назад к нам пришел клиент – крупный металлургический комбинат с запросам разработки системы распознавания речи. Продукцию комбината перевозят поезда. А во время железнодорожных грузоперевозок машинисты и диспетчеры должны переговариваться согласно регламенту. За переговоры не по регламенту - штраф. Поэтому “боль” клиента была сильной: получить систему автоматического контроля регламента переговоров по рации во избежание финансовых потерь и снижения риска катастроф.
Мы опрометчиво согласились. А когда получили аудиозаписи, поняли, что поторопились подписывать договор.
Чем гибридные системы распознавания речи лучше End-to-End решений
На хайпе нейронных сетей особую популярность приобрели end-to-end системы распознавания речи. И это неудивительно, ведь можно «просто» взять нейронную сеть известной архитектуры, скормить ей обучающий датасет и ждать результата. Но на практике все оказывается не так просто.
В этой статье мы попробуем рассказать, почему несмотря на эксперименты с нейронными end-to-end сетями, мы продолжаем использовать гибридную архитектуру, состоящую из акустической и лингвистической модели, работающих независимо и в чем заключаются достоинства и недостатки разных архитектур распознавания речи.
Как работают системы распознавания речи
В этой статье мы расскажем, как устроены технологии распознавания речи, и опишем архитектуру собственного решения. В конце статьи – бесплатный телеграм-бот для теста системы распознавания речи, описанной в статье.
Информация
- Сайт
- amvera.ru
- Дата регистрации
- Численность
- 11–30 человек
- Местоположение
- Россия
- Представитель
- Кирилл Косолапов