Search
Write a publication
Pull to refresh
0
@Wanderer2014read⁠-⁠only

User

Send message

Соревнование mlbootcamp от mail.ru. Кратко о рецепте второго места

Reading time9 min
Views11K
Добрый день, читатель! Данная статья расскажет о пути получения второго места на соревновании MLBootCamp III. Для тех, кто не в курсе — это соревнование по машинному обучению и анализу данных от Mail.Ru Group, проходило с 15 февраля по 15 марта.

В статье будет коротко про историю построения решения, немного советов про то, на чем набил шишек и благодарности.

Итак, поехали.
Читать дальше →

Топ-20 самых сильных IT-брендов работодателей России и как мы их нашли: подводим итоги исследования

Reading time7 min
Views71K


Привет! В августе Хабр и Экопси начали исследовать IT-бренды работодателей на предмет их «веса» среди айтишников. Анкеты обработаны, данные проанализированы — и мы готовы поделиться результатами. В прошлый раз мы рассказали о респондентах нашего исследования (или его «паспорте»), а теперь, собственно, к итогам. О том, кто в итоге вошел в Топ-20, а самое главное,  как мы это определили – под катом.  
Читать дальше →

25 петабайт данных: как устроена BigData в Почте России

Reading time12 min
Views14K
Сегодня любая компания старается копить и использовать данные в своих бизнес-процессах, и Почта не исключение.

У Почты нет проблем с количеством данных – у нас работает более 300 IT-систем, есть база в 40 млн пользователей и каждый день происходит 11 миллионов клиентских взаимодействий. В результате мы накопили 25 петабайт различных данных, которые помогают нам проектировать сервисы, улучшать процессы внутри компании, снижать риски и находить новые способы монетизации и экономии.

В этой статье мы расскажем про то, как в Почте России устроена работа с данными, как устроены специфические почтово-логистические процессы и какую роль в них играет Big Data.

Какие данные у нас есть и для чего


Почта — это крупнейшая в России логистическая и ритейл сеть, главная особенность которой с точки зрения данных заключается в том, что каждая единица «товара» (т. е. письмо, посылка) принадлежит конкретному получателю. В обычном магазине, если покупателю нужен товар, ему выдают любую единицу из партии, в Почте же каждое отправление поименовано, поэтому требования к сбору и отслеживанию данных намного строже.
Читать дальше →

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

Reading time16 min
Views118K
Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья


За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

  • осуществлять сбор, подготовку, и инспектирование данных;
  • строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
  • интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.

PIL на Python от простого к сложному

Reading time2 min
Views74K
Чтобы дойти до сложных алгоритмов обработки, стоит проанализировать стандартные схемы, с чего я и предлагаю начать.

Для примеров обработки будет использоваться изображение с различным наборов цветов:

image

Для старта нам потребуется два модуля библиотеки:

from PIL import Image, ImageDraw 

Настроим инструменты для комфортной дальнейшей работы:

image = Image.open('test.jpg')  # Открываем изображение
draw = ImageDraw.Draw(image)  # Создаем инструмент для рисования
width = image.size[0]  # Определяем ширину
height = image.size[1]  # Определяем высоту
pix = image.load()  # Выгружаем значения пикселей

Приступим


Обрабатывать изображения будем в формате RGB. Также PIL поддерживает работу с форматами 1, L, P, RGB, RGBA, CMYK, YCbCr, LAB, HSV, I, F.
Читать дальше →

Нейронки за 5 минут

Reading time5 min
Views173K
Давайте я за 5-10 минут чтения и понимания коротенькой статьи добавлю вам в резюме строчки «машинное обучение» и «нейронные сети»? Тем, кто далек от программирования, я развею все мифы о сложности ИИ и покажу, что большая часть всех проектов на машинном обучении строится на предельно простых принципах. Поехали — у нас всего пять минут.

Рассмотрим самый базовый пример нейронных сетей — перцептроны; я сам только после этого примера полностью осознал, как работают нейронные сети, так что, если я не накосячу, и вы сможете понять. Помните: никакой магии здесь нет, простая математика уровня пятого класса средней школы.
Читать дальше →

Обзор методов сегментации изображений в библиотеке scikit-image

Reading time8 min
Views42K

Thresholding


Это самый простой способ отделить объекты от фона, выбрав пиксели выше или ниже определенного порога. Это обычно полезно, когда мы собираемся сегментировать объекты по их фону. Вы можете прочитать больше о пороге здесь.

Люди, знакомы с фильмом «Терминатор», наверняка согласятся, что это был величайший научно-фантастический фильм той эпохи. В фильме Джеймс Кэмерон представил интересную концепцию визуальных эффектов, которая позволила зрителям скрыться за глазами киборга под названием Терминатор. Этот эффект стал известен как «Терминаторное видение» (англ. Terminator Vision). В некотором смысле, он отделял силуэты людей от фона. Тогда это могло звучать совершенно неуместно, но сегментация изображений сегодня является важной частью многих методов обработки изображений.

Сегментация изображения


Имеются ряд библиотек, написанных для анализа изображений. В этой статье мы подробно обсудим scikit-image, библиотеку обработки изображений на среде Python.

Scikit-image


image

Scikit-image — это библиотека Python, предназначенная для обработки изображений.

Установка


scikit-image устанавливается следующим образом:

pip install -U scikit-image(Linux and OSX)
pip install scikit-image(Windows)
# For Conda-based distributions
conda install scikit-image


Читать дальше →

Нескучный туториал по NumPy

Reading time19 min
Views257K
Меня зовут Вячеслав, я хронический математик и уже несколько лет не использую циклы при работе с массивами…

Ровно с тех пор, как открыл для себя векторные операции в NumPy. Я хочу познакомить вас с функциями NumPy, которые чаще всего использую для обработки массивов данных и изображений. В конце статьи я покажу, как можно использовать инструментарий NumPy, чтобы выполнить свертку изображений без итераций (= очень быстро).

Не забываем про

import numpy as np

и поехали!
Читать дальше →

Колыбель для AI

Reading time8 min
Views17K


Есть одна тема в современном Computer Vision, которая часто остаётся за кадром. В ней нет сложной математики и глубокой логики. Но то что её никак не освещают — вгоняет в ступор многих новичков. А тема не проста: имеет множество граблей, про которые не узнаешь, пока не наступишь.

Тема — называется так: подготовка базы изображений для дальнейшего обучения.
В статье:

  1. Как можно отличить хорошую базу
  2. Примеры хороших баз
  3. Примеры программ, которыми удобно размечать базы

Читать дальше →

Экскурсия по PyTorch

Reading time17 min
Views53K
Привет, Хабр!

Еще до конца мая у нас выйдет перевод книги Франсуа Шолле "Глубокое обучение на Python" (примеры с использованием библиотек Keras и Tensorflow). Не пропустите!



Но мы, естественно, смотрим в надвигающееся будущее и начинаем присматриваться к еще более инновационной библиотеке PyTorch. Сегодня вашему вниманию предлагается перевод статьи Питера Голдсборо, готового устроить вам долгую прогулку ознакомительную экскурсию по этой библиотеке. Под катом много и интересно.
Читать дальше →

Удаление фона с помощью глубокого обучения

Reading time14 min
Views21K


Перевод Background removal with deep learning.

На протяжении последних нескольких лет работы в сфере машинного обучения нам хотелось создавать настоящие продукты, основанные на машинном обучении.

Несколько месяцев назад, после прохождения отличного курса Fast.AI, звезды совпали, и у нас появилась такая возможность. Современные достижения в технологиях глубокого обучения позволили осуществить многое из того, что раньше казалось невозможным, появились новые инструменты, которые сделали процесс внедрения более доступным, чем когда-либо.

Мы поставили перед собой следующие цели:

  1. Улучшить наши навыки работы с глубоким обучением.
  2. Совершенствовать наши навыки внедрения продуктов, основанных на ИИ.
  3. Создать полезный продукт с перспективами на рынке.
  4. Весело провести время (и помочь весело провести время нашим пользователям).
  5. Обменяться опытом.
Читать дальше →

Ленивая загрузка изображений средствами браузера

Reading time9 min
Views107K
Автор материала, перевод которого мы сегодня публикуем, Эдди Османи из Google, говорит, что уже в Chrome 75 вполне может появиться поддержка нового атрибута элементов <img> и <iframe> loading. Это означает, что данные элементы будут поддерживать стандартные возможности по так называемой «ленивой загрузке» данных.

image
Читать дальше →

Ученые НИТУ «МИСиС» доказали несостоятельность классической теории строения Земли

Reading time5 min
Views26K
Ученые Национального исследовательского технологического института «МИСиС» и их коллеги из École Polytechnique (Париж, Франция) выявили серьезную ошибку в вычислениях коллег из США. Это полностью опровергает классическую теорию геомагнетизма и образования магнитного поля Земли. 15 апреля 2016 года журнал Nature отозвал ранее размещенную статью. Ссылаясь на ученых из России и Франции, американцы признали ошибки в расчетах.

В январе 2015 года материаловеды из США Рональд Коэн и Пэн Чжан из института Карнеги (Вашингтон) и Кристиан Хауле из университета Рутгерса (Нью-Джерси) опубликовали в журнале Nature статью «Effects of electron correlations on transport properties of iron at Earth’s core conditions» («Влияние электронных корреляций на свойства железа в земном ядре»). В своем исследовании американские ученые доказывали, что новая теория образования магнитного поля планеты, принятая после 2012 года, несостоятельна. Их расчеты, обоснованные компьютерным моделированием, подтверждали классическую теорию образования магнитного поля Земли.

Результаты их вычислений доказывали, что теплопроводность земного ядра не столь высока, как следовало из первых теоретических расчетов этой характеристики в 2012 году. Это вызвало большой резонанс, как в научных кругах, так и в общественных и научно-популярных СМИ.


Игорь Абрикосов – научный руководитель лаборатории НИТУ «МИСиС» «Моделирование и разработка новых материалов», заведующий отделом теории и моделирования Института физики, химии и биологии университета Линчёпинга, Швеция.
Читать дальше →

Распознавание радиотехнических сигналов с помощью нейронных сетей

Reading time4 min
Views35K

Тема распознавания сигналов очень актуальна. Распознавание сигналов можно использовать в радиолокации для идентификации объектов, для задач принятия решений, медицине и во многих других областях.


Читать дальше →

Сравнение методов распознавания сигналов. Нейронные сети против согласованного фильтра

Reading time4 min
Views18K

Я недавно опубликовал статью "Распознавание радиотехнических сигналов с помощью нейронных сетей"[1]. И там была довольно длинная и интересная дискуссия по поводу возможности использования для этих целей согласованного фильтра(СФ). Разумеется, использовать согласованные фильтры для той задачи, что решалась, проблематично. Но меня заинтересовал другой вопрос, что лучше использовать при незначительных колебаниях параметров сигнала, нейронные сети(НС) или СФ. В качестве генератора сигнала буду использовать обычный мультивибратор. Подавать сигнал буду через звуковую карту, а далее распознавать с помощью метода описанного в [1] и с помощью согласованного фильтра. Далее ПО сравнит результаты и даст ответ какой метод лучше.


Читать дальше →

Применение нейросетей в распознавании изображений

Reading time10 min
Views244K
Про нейронные сети, как один из инструментов решения трудноформализуемых задач уже было сказано достаточно много. И здесь, на хабре, было показано, как эти сети применять для распознавания изображений, применительно к задаче взлома капчи. Однако, типов нейросетей существует довольно много. И так ли хороша классическая полносвязная нейронная сеть (ПНС) для задачи распознавания (классификации) изображений?
Читать дальше →

Визуализация процесса обучения нейронной сети средствами TensorFlowKit

Reading time5 min
Views24K
Hint
Перед прочтением этой статьи советую ознакомиться с предыдущей статьей о TensorFlowKit и поставить star репозиторию.

Я не люблю читать статьи, сразу иду на GitHub
GitHub: TensorFlowKit
GitHub: Example
GitHub: Другое
TensorFlowKit API
Посeтив репозиторий, добавьте его в «Stars» это поможет мне написать больше статей на эту тему.

image

Начиная работать в сфере машинного обучения, мне было тяжело переходить от объектов и их поведений к векторам и пространствам. Сперва все это достаточно тяжело укладывалось в голове и далеко не все процессы казались прозрачными и понятными с первого взгляда. По этой причине все, что происходило внутри моих наработок, я пробовал визуализировать: строил 3D модели, графики, диаграммы, изображения и тд.

Говоря об эффективной разработке систем машинного обучения, всегда поднимается вопрос контроля скорости обучения, анализа процесса обучения, сбора различных метрик обучения и тд. Особая сложность заключается в том, что мы (люди) привыкли оперировать 2х и 3х мерными пространствами, описывая различные процессы вокруг нас. Процессы внутри нейронных сетей происходят в многомерных пространствах, что серьезно усложняет их понимание. Осознавая это, инженеры по всему миру стараются разработать различные подходы к визуализации или трансформации многомерных данных в более простые и понятные формы.

Существуют целые сообщества, решающие такого рода задачи, например Distill, Welch Labs, 3Blue1Brown.

Читать дальше →

«Cделать красиво». Визуализация обучения с Tensorboard от Google

Reading time5 min
Views32K
image

Красота, как известно, требует жертв, но и мир обещает спасти. Достаточно свежий (2015г) визуализатор от Google призван помочь разобраться с процессами, происходящими в сетях глубокого обучения. Звучит заманчиво.

Красочный интерфейс и громкие обещания затянули на разбор этого дизайнерского шайтана, с неинтуитивно отлаживающимися глюками. API непривычно скудный и часто обновляющийся, примеры в сети однотипны (глаза уже не могут смотреть на заезженный MNIST).

Чтобы опыт не прошел зря, решила поделиться максимально простым описанием инсайтов с хабравчанами, ибо рускоязычных гайдов мало, а англоязычные все как на одно лицо. Может, такое введение поможет вам сократить время на знакомство с Tensorboard и количество ругательных слов на старте. Также буду рада узнать, какие результаты он дал в вашем проекте и помог ли в реальной задаче.
Читать дальше →

Information

Rating
Does not participate
Registered
Activity