Турьев Роман @Vinchi

Пользователь

ПрофильСтатьи2ПостыНовостиКомментарии695

parkhomenkopa 27 фев 2020 в 08:59

Как мы работаем над качеством и скоростью подбора рекомендаций

8 мин

9.2K

Блог компании ЯндексРаспределённые системы*Машинное обучение*Алгоритмы*

Меня зовут Павел Пархоменко, я ML-разработчик. В этой статье я хотел бы рассказать об устройстве сервиса Яндекс.Дзен и поделиться техническими улучшениями, внедрение которых позволило увеличить качество рекомендаций. Из поста вы узнаете, как всего за несколько миллисекунд находить среди миллионов документов наиболее релевантные для пользователя; как делать непрерывное разложение большой матрицы (состоящей из миллионов столбцов и десятков миллионов строк), чтобы новые документы получали свой вектор за десятки минут; как переиспользовать разложение матрицы пользователь-статья, чтобы получить хорошее векторное представление для видео.

Читать дальше →

+15

Takagi 28 фев 2020 в 15:49

Новостной агрегатор за две недели

8 мин

19K

C++*Python*Машинное обучение*

18 ноября Telegram запустил соревнование по кластеризации данных: Data Clustering Contest. Нужно было за две недели сделать свой новостной агрегатор. Ограничения, которые были установлены в этом соревновании отпугнули кучу людей, но не меня и моих коллег. Я расскажу от том, каким путём мы прошли, какие выборы сделали и с какими сложностями столкнулись. Решение, которое мы заслали в соревнование обрабатывало 1000 документов за 3,5 секунды, занимало 150 Мб, заняло 6 место на публичном голосовании и 3 место в итоговых результатах. Мы допустили много ошибок, из-за которых не заняли место повыше, большинство из них сейчас исправлены. Весь код и все модели можно найти в репозитории. Все скрипты для обучения моделек перенесены на Colab.

Топ из публичного голосования

Читать дальше →

+17

Oksumoron 18 фев 2020 в 10:19

Настройка функции потерь для нейронной сети на данных сейсморазведки

13 мин

34K

Блог компании Open Data SciencePython*Геоинформационные сервисы*Искусственный интеллектМашинное обучение*

В прошлой статье мы описали эксперимент по определению минимального объема вручную размеченных срезов для обучения нейронной сети на данных сейсморазведки. Сегодня мы продолжаем эту тему, выбирая наиболее подходящую функцию потерь.

Рассмотрены 2 базовых класса функций – Binary cross entropy и Intersection over Union – в 6-ти вариантах с подбором параметров, а также комбинации функций разных классов. Дополнительно рассмотрена регуляризация функции потерь.

Спойлер: удалось существенно улучшить качество прогноза сети.

Читать дальше →

+34

otstanie 13 фев 2020 в 12:24

Семь архетипов превращения по принципам DevOps

17 мин

11K

Блог компании JUG Ru GroupDevOps*

Вопрос «как внедрить у себя девопс» стоит не первый год, но хороших материалов не так много. Иногда вы становитесь жертвой рекламы не особо умных консультантов, которым нужно продать свое время, неважно как. Иногда это мутные, крайне общие слова о том, как корабли мегакорпораций бороздят просторы вселенной. Возникает вопрос: а нам-то с этого что? Уважаемый автор, можете внятно списочком сформулировать свои идеи?

Все это происходит от того, что реальной практики и понимания исхода трансформаций культуры компании накопилось не так много. Изменения в культуре — это долгоиграющие штуки, результаты которых проявятся не через неделю и не через месяц. Нам нужен кто-то достаточно древний, повидавший, как создавались и рушились компании на протяжении многих лет.

Джон Уиллис — один из отцов DevOps. За плечами у Джона — десятки лет работы с огромным количеством компаний. В последнее время Джон стал для себя замечать специфические паттерны, которые имеют место быть в работе с каждой из них. Используя эти архетипы, Джон наставляет компании на истинный путь DevOps-трансформации. Подробнее об этих архетипах — в переводе его доклада с конференции DevOops 2018.

+27

romapres2010 7 фев 2020 в 08:17

Сертификация по программе IBM Data Science Professional Certificate

11 мин

9.5K

Python*Визуализация данных*Машинное обучение*

Из песочницы

Статья является кратким обзором о сертификации по программе IBM Data Science Professional Certificate.

Будучи новичком в Python, мне пришлось столкнуться с реализацией задач:

Загрузка и парсинг HTML таблиц
Очистка загруженных данных
Поиск географических координат по адресу объекта
Загрузка и обработка GEOJSON
Построение интерактивных тепловых карт (heat map)
Построение интерактивных фоновых картограмм (choropleth map)
Преобразование географических координат между сферической WGS84 и картезианский системой координат UTM
Представление пространственных географических объектов в виде гексагональная сетки окружностей
Поиск географических объектов, расположенных на определенном расстоянии от точки
Привязка географических объектов к полигонам сложной формы на поверхности
Описательные статистический анализ
Анализ категорийных переменных и визуализация результатов
Корреляционный анализ и визуализация результатов
Сегментация с использованием k-Mean кластеризации и elbow метода
Анализ и визуализация кластеров

Читать дальше →

+13

stabuev 4 фев 2020 в 11:42

Обучение и оценка модели с Keras

25 мин

115K

Big Data*Python*TensorFlow*Искусственный интеллектМашинное обучение*

Туториал

Перевод

Это руководство охватывает обучение, оценку и прогнозирование (выводы) моделей в TensorFlow 2.0 в двух общих ситуациях:

При использовании встроенных API для обучения и валидации (таких как model.fit(), model.evaluate(), model.predict()). Этому посвящен раздел «Использование встроенных циклов обучения и оценки»
При написании кастомных циклов с нуля с использованием eager execution и объекта GradientTape. Эти вопросы рассматриваются в разделе «Написание собственных циклов обучения и оценки с нуля».

В целом, независимо от того, используете ли вы встроенные циклы или пишете свои собственные, обучение и оценка моделей работает строго одинаково для всех видов моделей Keras: Sequential моделей, созданных с помощью Functional API, и написанных с нуля с использованием субклассирования.

Читать дальше →

+21

loband 28 янв 2020 в 16:11

Коронавирус Novel nCOV/2019-nCoV/NCP/COVID19: Прогнозы, Статистика, Новости[Часть 1, ред.03.02

43 мин

177K

БиотехнологииЗдоровье

Тут только первая часть статьи с новыми новостями. (Изменение 8.03.2021)
Создание собственного сайта провалилось. Большинству не интересен коронавирус.
Из принципа буду продолжать менять только новости и таблицу.
Прошло больше года с написания этой статьи. Итог:: Мои надежды не оправдались.
Полная версия без обновлений новостей тут
Не обновляемая английская версия: тут

Независимые от меня обстоятельства повлияли на текущую ситуацию, мои извинения

Перейти сразу к новостям

Многие люди не выполняют рекомендаций.Все пошло по «тяжелому сценарию». У систем здравоохранения есть куда увеличивать количество коек, врачей:
Качество: Высокое
1уровень: Инфекционные койки. 10-20% ## Инфекционисты

Качество: Среднее
2уровень: Перепрофилирование больниц 30-60% ## Любые врачи. Возвращают врачей пенсионного возраста.

Качество: Удовлетворительное
3 уровень Частные клиники и военные госпитали 10-20% ## все врачи даже без опыта, снятие из институтов. Военврачи.

Качество: Низкое
4 уровень: Временные больницы 10-20% (Обычно отправлять больных в более легкой форме.Более тяжелые будут в больницах) ## Быстро обученный персонал. (Будут давать более простые задачи, разгрузка врачей от пары задач). Альт. вариант армия для выполнения части задач.

Китай было:2 из 4 /4 из 4 (временные больницы)Италия: Врачи: по 3 из 4.
Качество: Абсолютное (Не бойтесь 5lvl. придумал я, до этого не дойдет)Сарказм: 5 ур.: Больницы не понадобятся.Подробно Dr. Morty.
Статистик shorturl.at/pEY09

Читать дальше →

+49

101

Safronov 2 дек 2019 в 11:00

О Структурном Моделировании Организационных Изменений

13 мин

5.4K

Блог компании Open Data ScienceУправление продуктом*Управление персоналом*Машинное обучение*Математика*

75%

3 из 4 — так Boston Consulting Group оценивает долю IT проектов, почивших по не-техническим причинам.

Уже вот две подряд редакции свода знаний по управлению проектами (PMBOK) выделяют процессы по управлению стейкхолдерами в отдельную область знаний под счастливым номером 13 и настоятельно рекомендуют учитывать:

1. связи между ними,
2. центры влияния, а также
3. культуру общения — для повышения шансов на успех.

Вопрос один:

 доколе инженеры о стейкхолдерах будут судить догадками?

^{ФОТО: Шариф Хамза для Dazed & Confuzed, модель — Люпита Нионго}

В свете недавней безоговорочной победы русской математики над вопросом хроматических чисел рассмотрим сценарий применения стремительно набирающей популярность среди занимающихся машинным обучением теории графов к причине провала большинства IT проектов. Приложим вполне естественную науку о вычислениях к областям, ранее считавшимся 'мягкими'. И покажем, как современные модели позволяют организацию в эпоху перемен измерить. Стратегия решения — простая, двухшаговая — строим граф связей стейкхолдеров, а из него — нейросеть сворачиваем. И пока самообучаемые алгоритмы выполняют непростые управленческие задачи, снимая менеджерских проблем ворох с плеч человеческих — пьём кофе с пироженками.

Читать дальше →

+12

asyaaam 13 дек 2019 в 12:39

Что такое Полный геном и зачем он нужен

12 мин

35K

Блог компании «Атлас»Научно-популярноеЗдоровьеБиотехнологии

Атлас запустил новый продукт — Полный геном. Теперь мы можем исследовать не только отдельные точки в геноме, как в генетическом тесте, но и прочитать всю последовательность нуклеотидов генома. В этой статье рассказываем, что это и зачем это нужно.

Внимание! Мы подарим Полный геном одному из наших читателей, кто выполнит все задания. Подробнее — в конце статьи.

Читать дальше →

+23

PatientZero 11 дек 2019 в 04:34

Фрактальное сжатие изображений

7 мин

14K

Алгоритмы*Математика*Обработка изображений*

Перевод

Пару лет назад я написал очень простую реализацию фрактального сжатия изображений для студенческой работы и выложил код на github.

К моему удивлению, репозиторий оказался довольно популярным, поэтому я решил обновить код и написать статью, объясняющую его и теорию.

Читать дальше →

+18

DmitrySpb79 7 сен 2019 в 13:41

Python + OpenCV + Keras: делаем распознавалку текста за полчаса

12 мин

230K

Python*Искусственный интеллектМашинное обучение*Обработка изображений*Программирование*

Привет Хабр.

После экспериментов с многим известной базой из 60000 рукописных цифр MNIST возник логичный вопрос, есть ли что-то похожее, но с поддержкой не только цифр, но и букв. Как оказалось, есть, и называется такая база, как можно догадаться, Extended MNIST (EMNIST).

Если кому интересно, как с помощью этой базы можно сделать несложную распознавалку текста, добро пожаловать под кат.

Читать дальше →

+33

Audioman 3 авг 2019 в 17:24

Что такое музыкальное программирование — кто и почему им занимается, устраивая настоящие live-сессии

3 мин

21K

Блог компании АудиоманияЗанимательные задачкиЗвукПрограммирование*

Ранее мы говорили об инструменте OpenMusic. Он позволяет писать музыку, используя объектно-ориентированный подход. Сегодня речь пойдет о людях, которые создают композиции с помощью специализированных языков программирования. И зачастую делают это «в прямом эфире».

+25

TolokaTeam 1 июл 2019 в 10:03

Яндекс открывает датасеты Толоки для исследователей

6 мин

34K

Блог компании ЯндексData Mining*Исследования и прогнозы в IT*КраудсорсингОткрытые данные*

Толока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.

Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.

Читать дальше →

+79

Syurmakov 20 июл 2019 в 16:14

Подборка рабочих примеров обработки данных

4 мин

13K

Big Data*Data Mining*Python*Машинное обучение*

Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:

Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Читать дальше →

+15

itmo 25 мая 2019 в 10:02

Toolbox для исследователей — выпуск второй: подборка из 15 тематических банков данных

4 мин

4.1K

Блог компании ИТМОGTD*Исследования и прогнозы в IT*Открытые данные*Учебный процесс в IT

Банки данных помогают делиться результатами экспериментов и измерений, играют важную роль в формировании академической среды и в процессе развития специалистов.

Расскажем как о датасетах, полученных с помощью дорогостоящего оборудования (источниками этих данных нередко являются крупные международные организации и научные программы, чаще всего связанные с естественными науками), так и о государственных банках данных.

Toolbox для исследователей — выпуск первый: самоорганизация и визуализация данных

Читать дальше →

+12

morrandir666 17 мая 2019 в 09:53

Serverless по стоечкам

8 мин

16K

Блог компании SelectelРазработка мобильных приложений*Веб-разработка*Программирование*DevOps*

Serverless ― это не про физическое отсутствие серверов. Это не «убийца» контейнеров и не мимолетный тренд. Это новый подход к построению систем в облаке. В сегодняшней статье коснемся архитектуры Serverless-приложений, посмотрим, какую роль играет провайдер Serverless-услуги и open-source проекты. В конце поговорим о вопросах применения Serverless.

Читать дальше →

+18

gjf 3 мая 2019 в 13:29

Самые нестрашные яды

26 мин

115K

ЗдоровьеХимияЧитальный зал

И снова привет, %username%!

Спасибо всем, кто оценил мой опус «Самые страшные яды».

Было очень интересно почитать комментарии, какими бы они ни были, было очень интересно отвечать.

Я рад, что «хит-парад» понравился. Если он не понравился — ну что ж, я сделал всё, что мог.

На написание второй части меня вдохновили именно комментарии и активность.

Итак, представляю очередную смертельную десятку!

Читать дальше →

+188

375

pprometey 18 апр 2019 в 05:15

Бесплатный VPN сервис Wireguard на AWS

11 мин

144K

IT-инфраструктура*Open source*Информационная безопасность*Сетевые технологии*Системное администрирование*

Туториал

Для чего?

С ростом цензурирования интернета авторитарными режимами, блокируются все большее количество полезных интернет ресурсов и сайтов. В том числе с технической информацией.
Таким образом, становится невозможно полноценно пользоваться интернетом и нарушается фундаментальное право на свободу слова, закрепленное во Всеобщей декларации прав человека.

Статья 19
Каждый человек имеет право на свободу убеждений и на свободное выражение их; это право включает свободу беспрепятственно придерживаться своих убеждений и свободу искать, получать и распространять информацию и идеи любыми средствами и независимо от государственных границ

В данном руководстве мы за 6 этапов развернем свой собственный бесплатный* VPN сервис на базе технологии Wireguard, в облачной инфраструктуре Amazon Web Services (AWS), с помощью бесплатного аккаунта (на 12 месяцев), на инстансе (виртуальной машине) под управлением Ubuntu Server 18.04 LTS.

Я старался сделать это пошаговое руководство как можно более дружественным к людям, далеким от ИТ. Единственное что требуется — это усидчивость в повторении описанных ниже шагов.

Читать дальше →

+51

135

ITSumma 12 апр 2019 в 14:18

Фотографии из грубых набросков: как именно работает нейросеть NVIDIA GauGAN

14 мин

38K

Блог компании ITSummaБудущее здесьМашинное обучение*Обработка изображений*

Перевод

В прошлом месяце на NVIDIA GTC 2019 компания NVIDIA представила новое приложение, которое превращает нарисованные пользователем простые цветные шарики в великолепные фотореалистичные изображения.

Приложение построено на технологии генеративно-состязательных сетей (GAN), в основе которой лежит глубинное обучение. Сама NVIDIA называет его GauGAN — это каламбур-отсылка к художнику Полу Гогену. В основе функциональности GauGAN лежит новый алгоритм SPADE.

В этой статье я объясню, как работает этот инженерный шедевр. И чтобы привлечь как можно больше заинтересованных читателей, я постараюсь дать детализированное описание того, как работают свёрточные нейронные сети. Поскольку SPADE — это генеративно-состязательная сеть, я расскажу подробнее и о них. Но если вы уже знакомы с эти термином, вы можете сразу перейти к разделу «Image-to-image трансляция».

Генерация изображений

Давайте начнем разбираться: в большинстве современных приложений глубинного обучения используется нейронный дискриминантный тип (дискриминатор), а SPADE — это генеративная нейронная сеть (генератор).

+50

lozga 1 апр 2019 в 03:51

Плоская Земля: эксперименты и доказательства

5 мин

267K

Научно-популярноеКосмонавтикаАстрономия

Уже в начальных классах государственных школ в учебниках природоведения пишут, что наша Земля плоская, и дети растут, не размышляя о том, что правительство вкладывает в их головы. Но думающий человек может докопаться до правды, изучая иногда вроде бы не связанные факты или даже ставя собственные эксперименты.

+249

299

3 4 ...

46 47