Статьи / Закладки / Профиль apelsyn / Хабр

Как стать автором

Олег Черний @apelsyn

AI&ML Teach Lead

Профиль Публикации 31Комментарии 375Закладки 501

apelsyn 24 дек 2021 в 06:42

Распознавание номерных знаков. Как все ускорить

8 мин

17K

Python*Машинное обучение*Искусственный интеллект

Nomeroff Net. Как ускорить распознавние номерных знаков.

После запуска моделей на прод рано или поздно приходит понимание того, что Ваши сервисы популярны и что KPI растут. Вместе с популярностью приходят тормоза и нестабильность. В этой статье речь пойдет о прикладном аспекте оптимизации быстродействия алгоритмов/моделей на примере движка распознавания автомобильных номеров “Nomeroff Net”. Буду делиться опытом, полученным на протяжении 2-х летней разработки. Если коротко: нам удалось ускорить время распознавания 1 фото более чем в 10 раз.

“Чел догадался в свой сервер вставить RTX 3090” подумаете Вы… Приблизительно так и было, только если взять замеры до установки GPU то все ускорили в 100+ раз :).
Не будет детального описания архитектуры моделей (они давно известны в узких кругах), хочу поделиться важными моментами, на которые стоит обратить внимание при оптимизации ваших ML-сервисов.

Читать дальше →

+20

snakers4 6 окт 2021 в 16:56

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

8 мин

12K

Python*Big Data*Машинное обучение*Natural Language Processing*

При разработке систем распознавания речи мы сталкиваемся с заблуждениями среди потребителей и разработчиков, в первую очередь связанными с разделением формы и сути. Одним из таких заблуждений является то, что в устной речи якобы "можно услышать" грамматически верные знаки препинания и пробелы между словами, когда по факту реальная устная речь и грамотная письменная речь очень сильно отличаются (устная речь скорее похожа на "поток" слегка разделенный паузами и интонацией, поэтому люди так не любят монотонно бубнящих докладчиков).

Понятно, что можно просто начинать каждое высказывание с большой буквы и ставить точку в конце. Но хотелось бы иметь какое-то относительно простое и универсальное средство расстановки знаков препинания и заглавных букв в предложениях, которые генерирует наша система распознавания речи. Совсем хорошо бы было, если бы такая система в принципе работала с любыми текстами.

По этой причине мы бы хотели поделиться с сообществом системой, которая:

Расставляет заглавные буквы и основные знаки препинания (точка, запятая, дефис, вопросительный знак, восклицательный знак, тире для русского языка);
Работает на 4 языках (русский, английский, немецкий, испанский);
По построению должна работать максимально абстрактно на любом тексте и не основана на каких-то фиксированных правилах;
Имеет минимальные нетривиальные метрики и выполняет задачу улучшения читабельности текста;

На всякий случай явно повторюсь — цель такой системы — лишь улучшать читабельность текста. Она не добавляет в текст информации, которой в нем изначально не было.

Читать дальше →

+24

oldadmin 13 авг 2020 в 12:55

Заметки Дата Сайентиста: маленькие утилиты — большая польза

5 мин

8.4K

Data Mining*Big Data*Блог компании RUVDS.comЛайфхаки для гиков

Чаще всего в работе датасаентиста мне приходится перегонять данные из одного представления в другое, агрегировать, приводить к одинаковой гранулярности и чистить данные, загружать, выгружать, анализировать, форматировать и присылать результаты (которые в общем-то тоже данные в каком-то виде). С данными всегда что-то не так и их нужно шустро гонять туда и обратно — больше всего в этом мне помогают классические юниксовые утилиты и небольшие, но гордые тулзы: вот о них-то мы сегодня и поговорим.

И сегодня будет подборка с примерами и ситуациями, в которых мне приходится их использовать. Все описанное здесь и ниже — это настоящий субъективный опыт и конечно же он у всех разный, но возможно кому-то он будет полезен.

Tools — learn the tools — все написанное субъективно и основано исключительно на личном опыте: помогло мне может быть поможет и вам.

Читать дальше →

+41

eaa 8 авг 2019 в 14:36

Хаки при работе с большим числом мелких файлов

7 мин

42K

Системное администрирование**nix*Серверная оптимизация*Блог компании SRG

Идея статьи родилась спонтанно из дискуссии в комментариях к статье «Кое-что об inode».

Дело в том, что внутренней спецификой работы наших сервисов является хранение огромадного числа мелких файлов. На данный момент у нас порядка сотен терабайт таких данных. И мы натолкнулись на некоторые очевидные и не очень грабельки и успешно по ним прошлись.

Поэтому делюсь нашим опытом, может кому и пригодится.

Читать дальше →

+102

gjf 1 мая 2019 в 01:08

Системы очистки воды обратным осмосом — здорово или не очень?

9 мин

174K

Анализ и проектирование систем*Умный домЗдоровьеХимия

Всем привет.

Сегодня я хотел бы поделиться с Вами своим видением систем очистки воды.

Я не хочу обсуждать различные фильтры, неэффективность которых давно уже известна — поговорим мы про системы очистки обратным осмосом, которые активно используются как на производствах, выпускающих очищенную воду, так и в быту.

К сожалению, вокруг этих систем имеется достаточно много маркетингового шума, который призван к получению прибыли производителем систем, но зачастую никак не связан с качеством получаемого продукта.

Из-за отсутствия понимания того, как работает система и какую воду следует употреблять, пользователь часто покупает лишние узлы и расходные элементы, а производители воды — экономят на жизненно важных деталях, выпуская воду, которая нежелательна для употребления.

Давайте разберёмся.

Читать дальше →

+55

rpiontik 19 фев 2019 в 16:32

REST страсти по 200

8 мин

42K

Анализ и проектирование систем*API*

Recovery Mode

Давно я хотел написать эту статью. Все думал — с какой стороны зайти правильнее? Но, вдруг, недавно, на Хабре появилась подобная статья, которая вызвала бурю в стакане. Больше всего меня удивил тот факт, что статью начали вбивать в минуса, хотя она даже не декларировала что-то, а скорее поднимала вопрос об использовании кодов ответа web-сервера в REST. Дебаты разгорелись жаркие. А апофеозом стало то, что статья ушла в черновики… килобайты комментариев, мнений и т.д. просто исчезли. Многие стали кармо-жертвами, считай, ни за что :)

В общем, именно судьба той статьи побудила меня написать эту. И я очень надеюсь, что она будет полезна и прояснит многое.

Предупреждаю, все ниже написанное является реальным опытом, а не когнитивной эквилибристикой. И так, погнали.

Читать дальше →

+57

m1rko 15 мар 2018 в 14:49

Cжатие и улучшение рукописных конспектов

9 мин

37K

Open source*Python*Алгоритмы*Обработка изображений*

Перевод

Я написал программу для очистки отсканированных конспектов с одновременным уменьшением размера файла.

Исходное изображение и результат:

Слева: исходный скан на 300 DPI, 7,2 МБ PNG / 790 КБ JPG. Справа: результат с тем же разрешением, 121 КБ PNG ^[1]

Примечание: описанный здесь процесс более-менее совпадает с работой приложения Office Lens. Есть другие аналогичные программы. Я не утверждаю, что придумал нечто радикальное новое — это просто моя реализация полезного инструмента.

Если торопитесь, просто посмотрите репозиторий GitHub или перейдите в раздел результатов, где можно поиграться с интерактивными 3D-диаграммами цветовых кластеров.

Читать дальше →

+124

saboteur_kiev 22 окт 2017 в 12:22

Дюжина приемов в Linux, которые действительно сэкономят уйму времени

9 мин

136K

Настройка Linux*Системное администрирование*Программирование**nix*Оболочки*

Эта статья также есть на английском.

Однажды вечером, перечитывая Джеффри Фридла, я осознал, что даже несмотря на всем доступную документацию, существует множество приемов заточенных под себя. Все люди слишком разные. И приемы, которые очевидны для одних, могут быть неочевидны для других и выглядеть какой-то магией для третьих. Кстати, несколько подобных моментов я уже описывал здесь.

Командная строка для администратора или пользователя — это не только инструмент, которым можно сделать все, но и инструмент, который кастомизируется под себя любимого бесконечно долго. Недавно пробегал перевод на тему удобных приемов в CLI. Но у меня сложилось впечатление, что сам переводчик мало пользовался советами, из-за чего важные нюансы могли быть упущены.

Под катом — дюжина приемов в командной строке — из личного опыта.

Читать дальше →

+116

AmberSP 9 окт 2017 в 16:55

Как получать оповещения от Jupyter notebook в Telegram?

2 мин

15K

Туториал

Довольно просто. Нам понадобится свой телеграм-бот, один пакет и одна строчка кода
А результат будет таким:

Читать дальше →

+22

Karaoke 16 дек 2016 в 17:45

Как конструировать слова (от автора, который ненавидит читать)

4 мин

25K

Веб-дизайн*Интерфейсы*Usability*Дизайн мобильных приложений*Блог компании Edison

Перевод

Честно говоря, я писатель. Мне платят за то, чтобы я писал слова. Но есть вещь, которую большинство обо мне не знают: я ненавижу читать.

Теперь не поймите меня неправильно — я все еще немного читаю. Я одолел книги и блоги, новые каналы и журналы. Но когда авторы становятся многословными, у меня замыливается взгляд. Мне скучно.

Все что я вижу — простыня слов.

В детстве я думал, что мое отвращение к чтению — моя слабость. Это было так, пока спустя годы я не осознал, что эта слабость и помогла мне стать хорошим писателем.

Дело в том, что, в основном, я пишу тексты для приложений и сайтов. Здесь краткость лучше восхитительного стиля, на счету каждый знак. А писать текст для интерфейса во многом напоминает дизайн — дизайн слов для людей, которые ненавидят читать.

+55

apelsyn 26 окт 2016 в 13:54

Node.js 7.0.0 зарелизился. Встречайте async/await без babel

1 мин

30K

JavaScript*Node.JS*

7-я нода зарелизилась, ура! Что нового:

Движок V8 обновлён до версии 5.4.500.36, в которой обеспечена поддержка 98% возможностей JavaScript, определённых в спецификации ES2015 (ES6) и, частично, будущим стандартом ES2017.
Отмечается новый парсер URL, соответствующий стандарту оформления URL, подготовленному сообществом WHATWG.
Доработана работа с Buffer, Child Process, Cluster, файловой системой, промисами
Полный список изминений

Для меня это долгожданный релиз, так как появилась возможность изпользовать конструкцию async/await без транспайлера babel. Включается это все ключом --harmony.

Теперь можно без babel так:

Читать дальше →

+31

altolstikov 1 авг 2016 в 17:34

Результаты и разбор задач финала Яндекс.Алгоритма 2016

15 мин

27K

Ненормальное программирование*Спортивное программирование*Программирование*Блог компании ЯндексАлгоритмы*

29 июля в Минске прошёл финальный раунд чемпионата по программированию Яндекс.Алгоритм. Победителем стал Егор EgorK Куликов — выпускник мехмата МГУ и бывший сотрудник Яндекса. Второе место — у Николы Йокича из Швейцарской высшей технической школы Цюриха. В составе команды школы он был финалистом ACM ICPC. Третье место занял Макото Соэдзима, выпускник Университета Токио. Геннадий Короткевич, победитель двух предыдущих Алгоритмов, занял шестое место.

Как и в прошлые годы, мы публикуем подробный разбор финальных задач. 31 июля мы впервые провели зеркало Алгоритма. Поэтому, чтобы не испортить его участникам удовольствие, не стали публиковать ответы сразу же после финала, как мы это обычно делаем.

В этом году мы получили на четверть больше заявок на участие в Алгоритме, чем год назад, — 4578. Среди участников пока немного девушек — 372. В списке зарегистрировавшихся есть представители 70 стран; больше всего соревнующихся — из России, Индии, Украины, Беларуси, Казахстана, США и Китая. В финале приняли участие 25 человек.

Задачи для Яндекс.Алгоритма составляют сотрудники Яндекса и приглашённые эксперты, среди которых — финалисты и призёры ACM ICPC. По условиям состязания, участники могут использовать разные языки программирования. Статистика Яндекс.Алгоритма показывает, что самый популярный язык — С++; его выбрали более двух тысяч человек. Второе место поделили Python и Java.

Читать дальше →

+59

Account_is_busy 27 июл 2016 в 15:39

Видео докладов с DevConf 2016

1 мин

17K

Веб-разработка*MySQL*PostgreSQL*Программирование*Блог компании Badoo

17-го июня в инновационном центре “Сколково” прошла очередная ежегодная конференция DevConf, а Badoo в очередной раз снимали видео выступлений. Программа была богата на именитых спикеров и интересные доклады, поэтому сделать подборку из самых «вкусных» выступлений было крайне сложно. Но мы, как минимум, постарались…

Познавательного вам просмотра!

«Развитие ветки PHP-7», Дмитрий Стогов, Zend Technologies

Читать дальше →

+38

rtsisyk 9 дек 2015 в 14:13

Tarantool как сервер приложений

8 мин

29K

Высокая производительность*Блог компании VKNoSQL*Lua*Tarantool*

Привет, %хабраюзер%. Команда Тарантула продолжает делиться инсайтами и экспертизой для эффективной работы с данными в высоконагруженных проектах. Сегодня мы попытаемся разобраться, почему же Tarantool — это «два в одном»: не только база данных, но и сервер приложений. Наверное, некоторые слышали о Тарантуле как о сверхбыстром персистентном in-memory хранилище с поддержкой репликации и хранимок на Lua. Представьте, что мы берём кусочки Redis, добавляем замороженный Node.js, сверху заправляем Go, после чего варим, медленно перемешивая, в течение пяти минут после закипания. Казалось бы, при чём здесь Application Server?

Читать дальше →

+57

DangelZM 1 дек 2015 в 15:06

Создание десктопного приложения с помощью Electron и веб-технологий

4 мин

67K

JavaScript*HTML*Node.JS*

Из песочницы

Знакомство с Electron

Официальная страница проекта Electron.

Изначально Electron был разработан для редактора Atom компанией GitHub.

Electron (ранее известный как Atom Shell) позволяет нам создавать кроссплатформенные приложения, используя HTML, CSS и JavaScript. Что является большим плюсом для команд, которые занимаются веб-разработкой. Отпадает надобность искать новых разработчиков для создания десктопных версий уже существующих проектов.

Electron являет собой прекомпилированый бинарник и библиотеки, нужные для работы приложения и доступа к native API операционной системы. Он включает в себя Node.js, направленный на работу в десктопной среде, и минимальную версию браузера Chromium, контролируемого JavaScript.

Читать дальше →

+20

mrsuh 11 ноя 2015 в 19:03

Nginx + Lua + Redis. Эффективно обрабатываем сессию и отдаем данные

6 мин

37K

Программирование*Lua*

Предположим, у вас есть данные, которые вы хотите кэшировать и отдавать, не используя тяжелые языки, как php, при этом проверяя, что пользователь аутентифицирован и имеет право на доступ к данным. Сегодня я расскажу, как, используя связку nginx lua redis, выполнить эту задачу, снять нагрузку с сервера и увеличить скорость отдачи информации сервером в десятки раз.

Читать дальше →

+32

dmitrysamsonov 3 сен 2015 в 11:57

Тюним память и сетевой стек в Linux: история перевода высоконагруженных серверов на свежий дистрибутив

10 мин

94K

Высокая производительность*Блог компании ОК

До недавнего времени в Одноклассниках в качестве основного Linux-дистрибутива использовался частично обновлённый OpenSuSE 10.2. Однако, поддерживать его становилось всё труднее, поэтому с прошлого года мы перешли к активной миграции на CentOS 7. На подготовительном этапе перехода для CentOS были отработаны все внутренние процедуры, подготовлены конфиги и политики настройки (мы используем CFEngine). Поэтому сейчас во многих случаях миграция с одного дистрибутива на другой заключается в установке ОС через kickstart и развёртывании приложения с помощью системы деплоя нашей разработки — всё остальное осуществляется без участия человека. Так происходит во многих случаях, хотя и не во всех.

Но с самыми большими проблемами мы столкнулись при миграции серверов раздачи видео. На их решение у нас ушло полгода.

Читать дальше →

+98

23derevo 13 авг 2015 в 12:46

Docker в банке. Видео с лекции Александра Тарасова из Альфа-Банка

1 мин

38K

Программирование*Java*Блог компании JUG Ru Group

Docker — технология, вокруг которой нынче огромное количество хайпа. «Shitstorm» — именно таким словом окрестил в твиттере докеровые войны один из моих немецких знакомых. Ну и конечно, вместе с «Microservices» и «Reactive», слово «Docker» прочно вошло в тройку ведущих айтишных баззвордов последних двух лет.

Неделю назад на московской встрече CodeFreeze Александр aatarasoff Тарасов из Альфа-Лаборатории (подразделение Альфа-банка) рассказал от том, как они внедряли у себя Docker, какой получили профит, какую боль и т.п. Интрига в том, что, с одной стороны, Альфа-банк — это банк, то есть, «кровавый энтерпрайз». С другой стороны… внедрили же.

Под катом — короткое описание того, о чем рассказал нам Александр и видеозапись его выступления.

Читать дальше →

+23

sergeyksv 27 июл 2015 в 13:24

Встраиваемая JavaScript база данных с прицелом на API совместимость с MongoDB

3 мин

13K

JavaScript*Node.JS*MongoDB*

Из песочницы

Как-то давно мы задумали написать один проект для Node.js которому очень нужно было работать с NoSQL базой данных, но при этом не иметь никаких зависимостей от внешних приложений. Как это обычно бывает, все закончилось разработкой новой библиотеки.

Начав разработку два года назад, желание использовать встроенную базу данных для web приложения казалось весьма странным. В самом деле, зачем? Сейчас, когда появился проект node-webkit, объяснить это гораздо легче. Используя встроенную базу данных возможно разработать web приложение двойного назначения. Такое приложение сможет работать как в классической схеме клиент-сервер, так и с использованием node-webkit как обычное загружаемое приложение. Важной особенностью и в том и другом случае является то, что код базы данных является частью вашего приложения, что избавляет от многих проблем совместимости и установки.

Читать дальше →

+13

frii_fond 26 июл 2015 в 17:34

Эммет Шир: Как в Twitch разговаривают с пользователями

7 мин

14K

Веб-дизайн*Интерфейсы*Usability*Блог компании Фонд развития интернет-инициатив

Перевод

Cтэнфордский курс CS183B: How to start a startup. Стартовал в 2012 году под руководством Питера Тиля. Осенью 2014 года прошла новая серия лекций ведущих предпринимателей и экспертов Y Combinator:

Вторая часть курса

Первая часть курса

Сэм Альтман и Дастин Московитц: Как и зачем создавать стартап?
Сэм Альтман: Как сформировать команду и культуру стартапа?
Пол Грэм: Нелогичный стартап;
Адора Чьюнг: Продукт и кривая честности;
Адора Чьюнг: Стремительный рост стартапа;
Питер Тиль: Конкуренция – удел проигравших;
Питер Тиль: Как построить монополию?
Алекс Шульц: Введение в growth hacking [1, 2, 3];
Кевин Хейл: Тонкости в работе с пользовательским опытом [1, 2];
Стэнли Тэнг и Уокер Уильямс: Начинайте с малого;
Джастин Кан: Как работать с профильными СМИ?
Андрессен, Конуэй и Конрад: Что нужно инвестору;
Андрессен, Конуэй и Конрад: Посевные инвестиции;
Андрессен, Конуэй и Конрад: Как работать с инвестором;
Брайан Чески и Альфред Лин: В чем секрет культуры компании?
Бен Сильберман и братья Коллисон: Нетривиальные аспекты командной работы [1, 2];
Аарон Леви: Разработка B2B-продуктов;
Рид Хоффман: О руководстве и руководителях;
Рид Хоффман: О лидерах и их качествах;
Кит Рабуа: Управление проектами;
Кит Рабуа: Развитие стартапа;
Бен Хоровитц: Увольнения, повышения и переводы по службе;
Бен Хоровитц: Карьерные советы, вестинг и опционы;
Эммет Шир: Как проводить интервью с пользователями; 
Эммет Шир: Как в Twitch разговаривают с пользователями;
Хосейн Рахман: Как в Jawbone проектируют hardware-продукты;
Хосейн Рахман: Процесс проектирования в Jawbone.

Читать дальше →

+9

1

2 3 ...