Search
Write a publication
Pull to refresh
85
0
AlexeiZhuravlev @AlexeiZhuravlev

Пользователь

Send message

Как стартап находит ground truth данные в сельском хозяйстве

Reading time4 min
Views3.2K

Компания OneSoil разрабатывает бесплатные приложения для фермеров, которыми пользуются более чем в 180 странах мира. В своей работе мы используем большие данные и машинное обучение, и отдельный квест для нас — найти ground truth данные. Рассказываем, как мы решаем эту нетривиальную задачу.

Читать далее

Как я стал разработчиком игр для мобильных телефонов

Reading time11 min
Views16K
Небольшая история от том как я стал разработчиком игр. Постараюсь осветить проблемы, с которыми я столкнулся на своем пути, и поделиться некоторыми цифрами. Программистом работаю давно, с 2001 года, компьютерами занимаюсь с детства, но играми начал заниматься лишь в начале 2014 года. И катализатором этого стала статья на Хабре. Где-то в начале 2014го, читая статейки на Хабре, я нашел статью про то, как один молодой человек сделал простенькую игру для ВК. Простая игра про сражение на самолетиках в 2D. Про саму игру в статье было мало, но меня заинтересовало то, что ему предложили продать игру за 700 баксов. Он отказался и потом пожалел, так как игра принесла ему только убытки. И эта «история успеха» как-то меня вдохновила.
Читать дальше →

Как говорить с сотрудниками. 7 аспектов, о которых забывают

Reading time7 min
Views33K
Говорить с сотрудниками — это, на самом деле, не о «говорить». И не о методе «активного слушания». Я вообще не люблю все эти искусственные «техники». И речь здесь будет идти не о техниках привлечения внимания, махания руками и положенной длительности зрительного контакта. Разговор с сотрудником — это намного шире, чем просто поговорить. И если на заре своей карьеры менеджера я это понимал слабо, то после более чем 10 лет управления осознал, что некоторые банальности совсем таковыми не являются.

image
И тогда пришло время остановиться и задуматься — какие ошибки люди допускают чаще всего. © Unsplash

Немного обо мне
Меня зовут Александр, и я руковожу уже больше 10 лет Департаментом Исследований, Разработки и Инноваций компании Qulix Systems.

Прошёл путь от тестировщика через архитектора и менеджера до руководителя, пусть небольшого, но горячо любимого и созданного с нуля, подразделения, в котором работает порядка 100 человек.

Слишком люблю обмениваться знаниями, потому, после организации различных обучающих активностей внутри Компании, захотелось пойти дальше и обсудить свои взгляды и идеи с более широкой аудиторией (если позволят модераторы).

Это моя первая статья — потому буду крайне рад комментариям и рекомендациям. Спасибо!
Читать дальше →

Как я регулярно улучшаю точность моделей обучения с 80% до 90+%

Reading time5 min
Views11K

Если вы закончили хотя бы несколько собственных проектов по Data Science, вы, вероятно, уже поняли, точность в 80% — это не так уж плохо. Но для реального мира 80% уже не годятся. На деле, большинство компаний, в которых я работал, ожидают минимальную точность (или любую другую метрику, на которую они смотрят) не менее 90%.

Поэтому я расскажу о пяти вещах, которые вы можете сделать, чтобы значительно улучшить точность. Я настоятельно рекомендую вам прочитать все пять пунктов, поскольку есть множество деталей, которых новички могут не знать.

К концу этой статьи у вас должно сформироваться понимание, что существует гораздо больше переменных, которые играют роль в том, насколько хорошо работает ваша модель машинного обучения, чем вы представляете.

С учетом сказанного, вот 5 вещей, которые вы можете сделать, чтобы улучшить свои модели машинного обучения!

Пять советов!

25 лучших репозиториев GitHub для разработчиков Python

Reading time3 min
Views28K
Согласно опросу разработчиков на StackOverflow в 2020 году*, Python — один из самых любимых языков в мире. Что еще более интересно, Python — это язык, который разработчики больше всего хотят попробовать в своей работе. Если вы один из тех, кто использует Python и хочет прокачать свои знания, или один из тех, кто хочет изучить Python, вы попали в нужное место. Под катом 25 лучших репозиториев Python на GitHub.

Читать дальше →

Развертывание интерактивных визуализаций данных в реальном времени на Flask и Bokeh

Reading time14 min
Views10K
image

Сегодня, в преддверии старта нового потока курса «Python для веб-разработки», делимся с вами полезным переводом статьи о небольшой интерактивной визуализации, для исследований данных о фильмах. Автор использует не только Flask и Bokeh, но и задействуя бесплатную облачную платформу баз данных easybase.io. Все подробности и демонстрации вы найдёте под катом.
Приятного чтения!

21 канал на YouTube, где вы можете бесплатно изучить ИИ, машинное обучение и Data Science

Reading time5 min
Views28K

Мы уже не раз делились в своем блоге полезными материалами для развития (их список можно найти в конце этого поста). Сегодня продолжаем это начинание и специально перед стартом новых потоков курсов по Data Analytics и Data Science представляем подборку YT-каналов по Data Science, искусственному интеллекту и машинному обучению, существование многих из которых неочевидно: например, представлен канал ArXiv Insights, посвящённый научным работам, и Google Cloud Platform.
Приятного чтения!

Проведение A/B-тестирования: пошаговый разбор

Reading time10 min
Views58K
Это репост статьи, опубликованной на сайте dou.ua. В статье Анна Пономарева, Game Analyst в Plarium Kharkiv, делится личными наработками по проведению A/B-тестирования: описывает каждый шаг, освещает сложности и ловушки, с которыми можно столкнуться, и рассказывает об опыте их решения.

Читать дальше →

Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

Reading time10 min
Views176K
Последнее десятилетие в области компьютерных технологий ознаменовалось началом новой «весны искусственного интеллекта». Впрочем, ситуацию в индустрии в наши дни можно, наверное, охарактеризовать уже не как весну, а полноценное «лето ИИ». Судите сами, за последние неполные 10 лет только в области обработки естественного языка (Natural language processing, NLP) произошли уже две настоящие технологические революции. Появившаяся в результате второй из них модель GPT-3 произвела настоящий фурор не только в технологических медиа, но стала знаменитой далеко за пределами научного сообщества. Например, GPT-3 написала для издания «The Guardian» эссе о том, почему ИИ не угрожает людям. GPT-3 сочиняет стихи и прозу, выполняет переводы, ведёт диалоги, даёт ответы на вопросы, хотя никогда специально не училась выполнять эти задачи. До недавних пор все возможности GPT-3 могли по достоинству оценить лишь англоязычные пользователи. Мы в Сбере решили исправить эту досадную оплошность. И сейчас расскажем вам, что из этого получилось.


Источник изображения
Читать дальше →

Вдохновляющие портфолио Data Science

Reading time6 min
Views12K
image

Data Science — сложная область знания. Она в равной степени сочетает в себе математику и статистику, информатику и черную магию. С середины 2020 года Data Science быстро растет, многочисленные соискатели роятся над каждым объявлением о приеме на работу. Кроме того, бушующая пандемия, в дополнение ко всему, тянет вниз.

Старания в получении списка сертификатов об окончании курсов не продвинут вас далеко, если только у вас нет добросовестно заслуженных дипломов магистра или PhD (кандидата наук). Сертификаты массовых открытых онлайн-курсов, таких как на Coursera или eDx, хороши, но у меня нет свидетельств их большой значимости. Kaggle тоже уже не тот: его открытые соревнования — кладбище переобученных моделей, а настоящие соревнования выигрывают команды, с которыми трудно соревноваться, более того, такие соревнования в любом случае ограничены в смысле личного портфолио.

Выход всё же есть — делать собственные интересные проекты и из них собирать портфолио, которое выгодно представит вас. В данном материале представлены вдохновляющие примеры таких портфолио. Используйте их для улучшения вашего собственного портфолио Data Science, изучения новых навыков или чтобы открыть для себя интересные проекты.
Приятного чтения!

Семплинг поперек или как выжать из датасета еще несколько тысячных

Reading time6 min
Views1.1K
Эта статья про картинки и классификацию. Небольшое исследование свойств, такой вот штрих к портрету MNIST (ну и подсказка в решении других подобных задач).

В сети есть множество публикаций об интерпретации той или иной нейронной сети и значимости и вкладе тех или иных точек в обучение. Есть масса работ про поиск усов, хвостов и других частей и их важности и значимости. Не буду сейчас подменять библиотекарей и составлять список. Просто расскажу о своем эксперименте.
Читать дальше →

Создание favicon для сайта 2020

Reading time10 min
Views146K

Что такое favicon и для чего он нужен?


Favicon – это значок (иконка), который отображается во вкладке браузера, закладках, а также в сниппетах результатов поиска.

image

Favicon играет важную роль в веб-приложениях. Он может улучшить внешний вид сайта в выдаче, повышает узнаваемость вашего сайта, помогает пользователю быстро найти необходимую страницу в закладках и вкладках.

Кроме того, пользователь может добавить страницу вашего сайта на главный экран телефона или сохранить как веб-приложение. В таком случае с помощью favicon можно быстро найти сайт среди большого количества других приложений.

Какой формат использовать для favicon?


Раньше в качестве основного формата использовали ICO. Особенность данного формата – мульти-размерность. Данный файл может хранить в себе несколько размеров иконки. На смену ICO пришел формат PNG. ICO все еще поддерживаемый, но большинство современных браузеров выбирают PNG формат иконки, который легче. Некоторые браузеры не могут выбрать правильный значок в файле ICO, что приводит к неправильному использования значка с низким разрешением.

О каких платформах пойдет речь в этой статье?


  • Десктопные браузеры
  • Chrome на Android
  • Иконка закладки в iOS (PWA)
  • macOS
  • Windows

Читать дальше →

Вышел новый релиз «Python для браузеров», встречаем Brython 3.9

Reading time2 min
Views28K

Код Brython Python (на скриншоте — версия 3.8.8)

Разработчики проекта Brython Python выпустили новый релиз, Brython 3.9. Сам проект позиционируется, как «Python для браузера». Он основан на Python 3 и выполняется на стороне браузера, причем для разработки веб-скриптов вместо JavaScript используется Python.

Код проекта написан на Python и распространяется под лицензией BSD. Новый релиз совместим с Python 3.9, плюс обновлена стандартная библиотека.
Читать дальше →

Как работает администратор зубоврачебной клиники — и как должен

Reading time9 min
Views17K
image

Процесс лечения зубов в большинстве клиник выглядит так:


  1. Пациент обращается с проблемой: болит зуб.
  2. Назначается осмотр, в ходе которого проверяют вообще все возможные проблемы, делается панорамное сканирование.
  3. Врач устраняет проблему и предлагает план лечения, подразумевающий полную реабилитацию, — профилактику следующих проблем и здоровые красивые зубы (или импланты) на будущее.
  4. Врач объясняет пациенту план лечения и пробует уговорить его, что зубами вообще-то надо заниматься.
  5. Если получилось — назначается около десятка действий, которые в комплексе ведут к тому, что полость санирована, то есть все проблемы устранены. Это лечение каналов, пломбы и удаление зубов, если нужно.
  6. Затем «чистый» пациент передаётся ортодонту, который уже за довольно большие деньги (один-два месячных заработка пациента) превращает ему зубы в произведение искусства.

Конечное состояние пациента — либо он покрывается цирконием от уха до уха, забывает про стоматологию на пять-семь лет, либо ему нужно всё же приходить для гигиены рта (снятия налёта) примерно раз в полгода. То есть пациент либо пропал, либо у него запланирован следующий визит, пускай и через пять лет.


Насколько полно этот процесс состоится, насколько пациент реабилитируется, и насколько клиника заработает на этом, зависит от работы всех сразу. Но работа администратора и автоматизация процессов позволяют сильно увеличить КПД клиники. Давайте рассмотрим это подробнее.

Читать дальше →

Как задача из классического сбора данных перешла в решение простенькой задачи MNIST. Или как я спарсил сайт ЦИК

Reading time9 min
Views7.4K
В один из будничных дней, под вечер, от моего начальника прилетела интересная задачка. Прилетает ссылка с текстом: «хочу отсюда получить все, но есть нюанс». Через 2 часа расскажешь, какие есть мысли по решению задачи. Время 16:00.

Как раз об этом нюансе и будет эта статья.

Я как обычно запускаю selenium, и после первого перехода по ссылке, где лежит искомая таблица с результатами выборов Республики Татарстан, вылетает оно

image

Как вы поняли, нюанс заключается в том, что после каждого перехода по ссылке появляется капча.

Проанализировав структуру сайта, было выяснено, что количество ссылок достигает порядка 30 тысяч.

Мне ничего не оставалось делать, как поискать на просторах интернета способы распознавания капчи. Нашел один сервис

+ Капчу распознают 100%, так же, как человек
— Среднее время распознавания 9 сек, что очень долго, так как у нас порядка 30 тысяч различных ссылок, по которым нам надо перейти и распознать капчу.

Я сразу же отказался от этой идеи. После нескольких попыток получить капчу, заметил, что она особо не меняется, все те же черные цифры на зеленом фоне.

А так как я давно хотел потрогать «компьютер вижн» руками, решил, что мне выпал отличный шанс попробовать всеми любимую задачу MNIST самому.

На часах уже было 17:00, и я начал искать предобученные модели по распознаванию чисел. После проверки их на данной капче точность меня не удовлетворила — ну что ж, пора собирать картинки и обучать свою нейросетку.

Для начала нужно собрать обучающую выборку.

Открываю вебдрайвер Хрома и скриню 1000 капчей себе в папку.
Читать дальше →

Формат таблиц в pandas

Reading time4 min
Views72K

Если вы пока ещё не знаете как транслировать данные напрямую заказчику в подсознание или, на худой конец, текст сообщения в slack, вам пригодится информация о том, как сделать процесс интерпретации таблиц более быстрым и комфортным.


Например, в excel для этого используется условное форматирование и спарклайны. А в этой статье мы посмотрим как визуализировать данные с помощью Python и библиотеки pandas: будем использовать свойства DataFrame.style и Options and settings.

Читать дальше →

Создание масштабируемого API на спотовых инстансах AWS

Reading time16 min
Views7.2K

Всем привет! Меня зовут Кирилл, я CTO Adapty Большая часть нашей архитектуры находится на AWS, и сегодня я расскажу о том, как мы сократили расходы на сервера в 3 раза за счёт использования спотовых инстансов на продакшн окружении, а также о том, как настроить их автомасштабирование. Сначала будет обзор того, как это работает, а потом подробная инструкция для запуска.


Что такое спотовые инстансы?


Спотовые инстансы — это сервера других пользователей AWS, которые в данный момент простаивают, и они продают их с большой скидкой (Amazon пишет до 90%, по нашему опыту ~3x, варьируется в зависимости от региона, AZ и типа инстанса). Основное их отличие от обычных в том, что они могут выключиться в любой момент. Поэтому мы долгое время считали, что их нормально использовать для дев окружений, либо для задач по расчёту чего-то, с сохранением промежуточных результатов на S3 или в базу, но не для прода. Существуют сторонние решения, которые позволяют использовать споты на проде, но там для нашего кейса много костылей, поэтому мы не внедряли их. Подход, описанный в статье, работает полностью в рамках стандартного функционала AWS, без дополнительных скриптов, кронов и тд.

Читать дальше →

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

Reading time14 min
Views122K
Snake and flowers 2 by pikaole

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

Команда Mail.ru Cloud Solutions перевела статью разработчика, который не раз попадал в такую ситуацию и на основе своего опыта составил список из 53 вопросов и ответов для подготовки к собеседованию. Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

Вопросы идут в случайном порядке. Поехали.
Читать дальше →

Генеральный конструктор vs Скрам-мастер

Reading time5 min
Views41K
image

«Каспийский монстр» — советский экраноплан, который весил 544 тонны, что делало его самым тяжелым летательным аппаратом в мире. Сделан с нуля за два года. Думай об этом, закачивая лэндинг по продаже трусов «всего» за полгода.

Я бы хотел рассказать о некоторых приемах древнего(доскрамового периода) менеджмента, которые позволяли добиваться таких результатов. Поднять в воздух на новом принципе железную бандуру размером с хрущевку и разогнать ее до пятисот киломtnров в час, по мне — это более творческая и технически сложная задача, чем открытие очередного интернет магазина, поэтому возможно стоит перенять опыт предков.
Читать дальше →

Блокнот-шпаргалка для быстрого Data preprocessing

Reading time8 min
Views13K
Часто люди, заходящие в область Data Science, имеют не совсем реалистичные представления о том, что их ждет. Многие думают, что сейчас они будут круто писать нейросети, создавать голосового помощника из Железного Человека или обыгрывать всех на финансовых рынках.
Но работа Data Scientist завязана на данных, и один из важнейших и время затратных моментов — это обработка данных перед тем, как их подавать в нейросеть или анализировать определенным способом.

В этой статье наша команда опишет то, как можно легко и быстро обработать данные с пошаговой инструкцией и кодом. Мы старались сделать так, чтобы код был довольно гибким и его можно было применять для разных датасетов.

Многие профессионалы возможно и не найдут ничего экстраординарного в этой статье, но начинающие смогут подчерпнуть что-то новое, а также каждый, кто давно мечтал сделать себе отдельный notebook для быстрой и структурированной обработки данных может скопировать код и отформатировать его под себя, или скачать готовый notebook с Github.
Читать дальше →

Information

Rating
Does not participate
Location
Екатеринбург, Свердловская обл., Россия
Date of birth
Registered
Activity