Articles / Bookmarks / Profile of Wanderer2014 / Habr

How to become an author

@Wanderer2014^{read⁠-⁠only}

User

ProfileBookmarks553

Eugene713 Mar 24 2017 at 22:11

Соревнование mlbootcamp от mail.ru. Кратко о рецепте второго места

9 min

11K

Python*Machine learning*

Добрый день, читатель! Данная статья расскажет о пути получения второго места на соревновании MLBootCamp III. Для тех, кто не в курсе — это соревнование по машинному обучению и анализу данных от Mail.Ru Group, проходило с 15 февраля по 15 марта.

В статье будет коротко про историю построения решения, немного советов про то, на чем набил шишек и благодарности.

Итак, поехали.

Читать дальше →

+35

Artmanin Nov 26 2020 at 15:41

Топ-20 самых сильных IT-брендов работодателей России и как мы их нашли: подводим итоги исследования

7 min

71K

IT-бренд работодателя corporate blogResearch and forecasts in IT*IT careerStatistics in ITPersonnel Management*

Привет! В августе Хабр и Экопси начали исследовать IT-бренды работодателей на предмет их «веса» среди айтишников. Анкеты обработаны, данные проанализированы — и мы готовы поделиться результатами. В прошлый раз мы рассказали о респондентах нашего исследования (или его «паспорте»), а теперь, собственно, к итогам. О том, кто в итоге вошел в Топ-20, а самое главное, как мы это определили – под катом.

Читать дальше →

+55

Zhutova Nov 10 2020 at 08:28

25 петабайт данных: как устроена BigData в Почте России

12 min

14K

Почтатех corporate blogBig Data*IT Infrastructure*IT-companies

Сегодня любая компания старается копить и использовать данные в своих бизнес-процессах, и Почта не исключение.

У Почты нет проблем с количеством данных – у нас работает более 300 IT-систем, есть база в 40 млн пользователей и каждый день происходит 11 миллионов клиентских взаимодействий. В результате мы накопили 25 петабайт различных данных, которые помогают нам проектировать сервисы, улучшать процессы внутри компании, снижать риски и находить новые способы монетизации и экономии.

В этой статье мы расскажем про то, как в Почте России устроена работа с данными, как устроены специфические почтово-логистические процессы и какую роль в них играет Big Data.

Какие данные у нас есть и для чего

Почта — это крупнейшая в России логистическая и ритейл сеть, главная особенность которой с точки зрения данных заключается в том, что каждая единица «товара» (т. е. письмо, посылка) принадлежит конкретному получателю. В обычном магазине, если покупателю нужен товар, ему выдают любую единицу из партии, в Почте же каждое отправление поименовано, поэтому требования к сбору и отслеживанию данных намного строже.

Читать дальше →

+15

e_finkel Apr 5 2018 at 09:10

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

16 min

118K

Конференции Олега Бунина (Онтико) corporate blogBig Data*Machine learning*

Translation

Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья

За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

осуществлять сбор, подготовку, и инспектирование данных;
строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.

+34

Yunow May 8 2019 at 20:55

PIL на Python от простого к сложному

2 min

74K

Python*Image processing*

Чтобы дойти до сложных алгоритмов обработки, стоит проанализировать стандартные схемы, с чего я и предлагаю начать.

Для примеров обработки будет использоваться изображение с различным наборов цветов:

Для старта нам потребуется два модуля библиотеки:

from PIL import Image, ImageDraw

Настроим инструменты для комфортной дальнейшей работы:

image = Image.open('test.jpg')  # Открываем изображение
draw = ImageDraw.Draw(image)  # Создаем инструмент для рисования
width = image.size[0]  # Определяем ширину
height = image.size[1]  # Определяем высоту
pix = image.load()  # Выгружаем значения пикселей

Приступим

Обрабатывать изображения будем в формате RGB. Также PIL поддерживает работу с форматами 1, L, P, RGB, RGBA, CMYK, YCbCr, LAB, HSV, I, F.

Читать дальше →

+6

backmeupplz Jul 4 2018 at 19:33

Нейронки за 5 минут

5 min

173K

Abnormal programming*Machine learning*Artificial IntelligenceAlgorithms*Programming*

Давайте я за 5-10 минут чтения и понимания коротенькой статьи добавлю вам в резюме строчки «машинное обучение» и «нейронные сети»? Тем, кто далек от программирования, я развею все мифы о сложности ИИ и покажу, что большая часть всех проектов на машинном обучении строится на предельно простых принципах. Поехали — у нас всего пять минут.

Рассмотрим самый базовый пример нейронных сетей — перцептроны; я сам только после этого примера полностью осознал, как работают нейронные сети, так что, если я не накосячу, и вы сможете понять. Помните: никакой магии здесь нет, простая математика уровня пятого класса средней школы.

Читать дальше →

+84

shokannn Feb 20 2019 at 10:04

Обзор методов сегментации изображений в библиотеке scikit-image

8 min

42K

Machine learning*

Tutorial

Thresholding

Это самый простой способ отделить объекты от фона, выбрав пиксели выше или ниже определенного порога. Это обычно полезно, когда мы собираемся сегментировать объекты по их фону. Вы можете прочитать больше о пороге здесь.

Люди, знакомы с фильмом «Терминатор», наверняка согласятся, что это был величайший научно-фантастический фильм той эпохи. В фильме Джеймс Кэмерон представил интересную концепцию визуальных эффектов, которая позволила зрителям скрыться за глазами киборга под названием Терминатор. Этот эффект стал известен как «Терминаторное видение» (англ. Terminator Vision). В некотором смысле, он отделял силуэты людей от фона. Тогда это могло звучать совершенно неуместно, но сегментация изображений сегодня является важной частью многих методов обработки изображений.

Сегментация изображения

Имеются ряд библиотек, написанных для анализа изображений. В этой статье мы подробно обсудим scikit-image, библиотеку обработки изображений на среде Python.

Scikit-image

Scikit-image — это библиотека Python, предназначенная для обработки изображений.

Установка

scikit-image устанавливается следующим образом:

pip install -U scikit-image(Linux and OSX)
pip install scikit-image(Windows)
# For Conda-based distributions
conda install scikit-image

Читать дальше →

+12

JamaGava Oct 8 2019 at 08:55

Нескучный туториал по NumPy

19 min

257K

Python*Algorithms*Programming*Perfect code*

Tutorial

Меня зовут Вячеслав, я хронический математик и уже несколько лет не использую циклы при работе с массивами…

Ровно с тех пор, как открыл для себя векторные операции в NumPy. Я хочу познакомить вас с функциями NumPy, которые чаще всего использую для обработки массивов данных и изображений. В конце статьи я покажу, как можно использовать инструментарий NumPy, чтобы выполнить свертку изображений без итераций (= очень быстро).

Не забываем про

import numpy as np

и поехали!

Читать дальше →

+26

ZlodeiBaal Oct 16 2016 at 21:28

Колыбель для AI

8 min

17K

Machine learning*Image processing*

Tutorial

Есть одна тема в современном Computer Vision, которая часто остаётся за кадром. В ней нет сложной математики и глубокой логики. Но то что её никак не освещают — вгоняет в ступор многих новичков. А тема не проста: имеет множество граблей, про которые не узнаешь, пока не наступишь.

Тема — называется так: подготовка базы изображений для дальнейшего обучения.
В статье:

Как можно отличить хорошую базу
Примеры хороших баз
Примеры программ, которыми удобно размечать базы

Читать дальше →

+37

ph_piter Jul 7 2020 at 09:03

Издательство Питер. Летняя распродажа

1 min

13K

Издательский дом «Питер» corporate blogProfessional literature*

Привет, Хаброжители! На этой неделе у нас большие скидки. Подробности внутри.

Читать дальше →

+28

ph_piter May 4 2018 at 15:08

Экскурсия по PyTorch

17 min

53K

Издательский дом «Питер» corporate blogProgramming*Machine learning*Algorithms*Python*

Translation

Привет, Хабр!

Еще до конца мая у нас выйдет перевод книги Франсуа Шолле "Глубокое обучение на Python" (примеры с использованием библиотек Keras и Tensorflow). Не пропустите!

Но мы, естественно, смотрим в надвигающееся будущее и начинаем присматриваться к еще более инновационной библиотеке PyTorch. Сегодня вашему вниманию предлагается перевод статьи Питера Голдсборо, готового устроить вам ~~долгую прогулку~~ ознакомительную экскурсию по этой библиотеке. Под катом много и интересно.

Читать дальше →

+21

NIX_Solutions Mar 6 2018 at 08:09

Удаление фона с помощью глубокого обучения

14 min

21K

NIX corporate blogMachine learning*Image processing*

Translation

Перевод Background removal with deep learning.

На протяжении последних нескольких лет работы в сфере машинного обучения нам хотелось создавать настоящие продукты, основанные на машинном обучении.

Несколько месяцев назад, после прохождения отличного курса Fast.AI, звезды совпали, и у нас появилась такая возможность. Современные достижения в технологиях глубокого обучения позволили осуществить многое из того, что раньше казалось невозможным, появились новые инструменты, которые сделали процесс внедрения более доступным, чем когда-либо.

Мы поставили перед собой следующие цели:

Улучшить наши навыки работы с глубоким обучением.
Совершенствовать наши навыки внедрения продуктов, основанных на ИИ.
Создать полезный продукт с перспективами на рынке.
Весело провести время (и помочь весело провести время нашим пользователям).
Обменяться опытом.

Читать дальше →

+21

AndrewShmig Jun 18 2019 at 11:28

CS231n: Свёрточные нейронные сети для распознавания образов

34 min

86K

Machine learning*Artificial IntelligenceBig Data*

Добро пожаловать на одну из лекций курса CS231n: Convolutional Neural Networks for Visual Recognition.

Читать дальше →

+6

ru_vds Apr 29 2019 at 09:30

Ленивая загрузка изображений средствами браузера

9 min

107K

RUVDS.com corporate blogHTML*Website development*

Tutorial

Translation

Автор материала, перевод которого мы сегодня публикуем, Эдди Османи из Google, говорит, что уже в Chrome 75 вполне может появиться поддержка нового атрибута элементов <img> и <iframe> loading. Это означает, что данные элементы будут поддерживать стандартные возможности по так называемой «ленивой загрузке» данных.

Читать дальше →

+27

science-misis May 10 2016 at 09:36

Ученые НИТУ «МИСиС» доказали несостоятельность классической теории строения Земли

5 min

26K

Университет МИСИС corporate blogPhysicsThe future is here

Ученые Национального исследовательского технологического института «МИСиС» и их коллеги из École Polytechnique (Париж, Франция) выявили серьезную ошибку в вычислениях коллег из США. Это полностью опровергает классическую теорию геомагнетизма и образования магнитного поля Земли. 15 апреля 2016 года журнал Nature отозвал ранее размещенную статью. Ссылаясь на ученых из России и Франции, американцы признали ошибки в расчетах.

В январе 2015 года материаловеды из США Рональд Коэн и Пэн Чжан из института Карнеги (Вашингтон) и Кристиан Хауле из университета Рутгерса (Нью-Джерси) опубликовали в журнале Nature статью «Effects of electron correlations on transport properties of iron at Earth’s core conditions» («Влияние электронных корреляций на свойства железа в земном ядре»). В своем исследовании американские ученые доказывали, что новая теория образования магнитного поля планеты, принятая после 2012 года, несостоятельна. Их расчеты, обоснованные компьютерным моделированием, подтверждали классическую теорию образования магнитного поля Земли.

Результаты их вычислений доказывали, что теплопроводность земного ядра не столь высока, как следовало из первых теоретических расчетов этой характеристики в 2012 году. Это вызвало большой резонанс, как в научных кругах, так и в общественных и научно-популярных СМИ.

Игорь Абрикосов – научный руководитель лаборатории НИТУ «МИСиС» «Моделирование и разработка новых материалов», заведующий отделом теории и моделирования Института физики, химии и биологии университета Линчёпинга, Швеция.

Читать дальше →

+17

Zachar_5 Dec 30 2016 at 14:42

Распознавание радиотехнических сигналов с помощью нейронных сетей

4 min

35K

Mathematics*Machine learning*

Тема распознавания сигналов очень актуальна. Распознавание сигналов можно использовать в радиолокации для идентификации объектов, для задач принятия решений, медицине и во многих других областях.

Читать дальше →

+21

Zachar_5 Jan 14 2017 at 14:25

Сравнение методов распознавания сигналов. Нейронные сети против согласованного фильтра

4 min

18K

.NET*C#*Machine learning*

Я недавно опубликовал статью "Распознавание радиотехнических сигналов с помощью нейронных сетей"[1]. И там была довольно длинная и интересная дискуссия по поводу возможности использования для этих целей согласованного фильтра(СФ). Разумеется, использовать согласованные фильтры для той задачи, что решалась, проблематично. Но меня заинтересовал другой вопрос, что лучше использовать при незначительных колебаниях параметров сигнала, нейронные сети(НС) или СФ. В качестве генератора сигнала буду использовать обычный мультивибратор. Подавать сигнал буду через звуковую карту, а далее распознавать с помощью метода описанного в [1] и с помощью согласованного фильтра. Далее ПО сравнит результаты и даст ответ какой метод лучше.

Читать дальше →

+18

intelligenceAgent Nov 5 2009 at 15:27

Применение нейросетей в распознавании изображений

10 min

244K

Artificial Intelligence

Про нейронные сети, как один из инструментов решения трудноформализуемых задач уже было сказано достаточно много. И здесь, на хабре, было показано, как эти сети применять для распознавания изображений, применительно к задаче взлома капчи. Однако, типов нейросетей существует довольно много. И так ли хороша классическая полносвязная нейронная сеть (ПНС) для задачи распознавания (классификации) изображений?

Читать дальше →

+128

Roaming Nov 22 2017 at 09:29

Визуализация процесса обучения нейронной сети средствами TensorFlowKit

5 min

24K

Data Mining*Swift*TensorFlow*Machine learning*Development for iOS*

Hint

Перед прочтением этой статьи советую ознакомиться с предыдущей статьей о TensorFlowKit и поставить star репозиторию.

Я не люблю читать статьи, сразу иду на GitHub

GitHub: TensorFlowKit
GitHub: Example
GitHub: Другое
TensorFlowKit API
Посeтив репозиторий, добавьте его в «Stars» это поможет мне написать больше статей на эту тему.

Начиная работать в сфере машинного обучения, мне было тяжело переходить от объектов и их поведений к векторам и пространствам. Сперва все это достаточно тяжело укладывалось в голове и далеко не все процессы казались прозрачными и понятными с первого взгляда. По этой причине все, что происходило внутри моих наработок, я пробовал визуализировать: строил 3D модели, графики, диаграммы, изображения и тд.

Говоря об эффективной разработке систем машинного обучения, всегда поднимается вопрос контроля скорости обучения, анализа процесса обучения, сбора различных метрик обучения и тд. Особая сложность заключается в том, что мы (люди) привыкли оперировать 2х и 3х мерными пространствами, описывая различные процессы вокруг нас. Процессы внутри нейронных сетей происходят в многомерных пространствах, что серьезно усложняет их понимание. Осознавая это, инженеры по всему миру стараются разработать различные подходы к визуализации или трансформации многомерных данных в более простые и понятные формы.

Существуют целые сообщества, решающие такого рода задачи, например Distill, Welch Labs, 3Blue1Brown.

Читать дальше →

+21

YuliyaCl Mar 24 2018 at 19:37

«Cделать красиво». Визуализация обучения с Tensorboard от Google

5 min

32K

Machine learning*Data visualization*TensorFlow*Python*Google API*

Tutorial

Красота, как известно, требует жертв, но и мир обещает спасти. Достаточно свежий (2015г) визуализатор от Google призван помочь разобраться с процессами, происходящими в сетях глубокого обучения. Звучит заманчиво.

Красочный интерфейс и громкие обещания затянули на разбор этого дизайнерского шайтана, с неинтуитивно отлаживающимися глюками. API непривычно скудный и часто обновляющийся, примеры в сети однотипны (глаза уже не могут смотреть на заезженный MNIST).

Чтобы опыт не прошел зря, решила поделиться максимально простым описанием инсайтов с хабравчанами, ибо рускоязычных гайдов мало, а англоязычные все как на одно лицо. Может, такое введение поможет вам сократить время на знакомство с Tensorboard и количество ругательных слов на старте. Также буду рада узнать, какие результаты он дал в вашем проекте и помог ли в реальной задаче.

Читать дальше →

+7

1 2 ...

24