Pull to refresh
30
0

Пользователь

Send message

CRISP-DM: проверенная методология для Data Scientist-ов

Reading time16 min
Views80K
Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.


* Crisp (англ.) — хрустящий картофель, чипсы
Читать дальше →

История хранилища картинок Avito

Reading time6 min
Views30K


А что, если вам дадут задачу организовать хранение и раздачу статических файлов? Наверняка многие подумают, что тут все просто. А если таких файлов миллиард, несколько сотен терабайт и запросов к ним несколько миллиардов в сутки? Также много разных систем будут отправлять на хранение файлы разных форматов и размеров. Этот квест уже не кажется таким простым. Под катом история о том, как мы решили такую задачу, какие сложности при этом возникли, и как мы их преодолели.

Avito развивался стремительно с первых дней. Например, скорость загрузки новых картинок для объявлений выросла в первые годы в несколько раз. Это требовало от нас на начальном этапе решать вопросы, связанные с архитектурой, максимально оперативно и эффективно, в условиях ограниченных ресурсов. Кроме того, мы всегда отдавали предпочтение простым решениям, требующим мало ресурсов на поддержку. Принцип KISS («Keep it short and simple») — это до сих пор одна из ценностей нашей компании.
Читать дальше →

Митап по SQL Server: ждём только вас

Reading time3 min
Views4K
Друзья, с радостью анонсируем наш «Майский митап 'SQL и не только'». Вместе с другими участниками TechGuruDay мы соберемся 18 мая в офисе ЛАНИТ, чтобы обсудить особенности Microsoft SQL Server и другие вопросы.

TechGuruDay – это творческая реализация нашей попытки создать неформальную группу IT-профессионалов для обмена уникальным опытом и мнениями на самые злободневные темы. Все организационные вопросы мы решаем на площадке Meetup.com, а делимся наболевшим и угощаемся плюшками на офлайн-встречах, как раз таких, как «Майский митап».

Приглашаем вас присоединиться к нашей компании. Больше деталей о предстоящем митапе и небольшой экскурс в историю наших митапов (со ссылками на презентации и видео выступлений) вы найдете внутри поста.


Вот чем мы готовы поделиться со всеми, кто найдет в себе силы к нам присоединиться.
Читать дальше →

Oticon представили неимплантируемый слуховой аппарат для детей на базе технологии костной проводимости

Reading time1 min
Views7.5K
Компания, специализирующаяся на изготовлении медицинских слуховых аппаратов, представила новое устройство для детей: главное его достоинство в том, что установка не требует хирургического вмешательства.


Читать дальше →

Познакомимся с WannaCry поближе

Reading time4 min
Views114K
Атака программы-вымогателя нанесла ущерб многим компаниям и организациям по всему миру, включая испанскую телекоммуникационную компанию Telefonica, больницы в Великобритании и американскую компанию доставки FedEx. Вредоносная программа, относящаяся к классу криптовымогателей, стала известна как «WannaCry».

Вредонос умеет по TCP сканировать 445 порт (Server Message Block/SMB) и распространяться, как червь, атакуя хосты и зашифровывая файлы, которые на них находятся. После чего он требует перечислить какое-то количество биткойнов за расшифровку.
Читать дальше →
Привет, Хабр! В этом году в Сколково пройдёт РИТ++2017, главный интернет-фестиваль. Студия Хабрахабра вновь проведет видеотрансляцию из главного зала, будет общаться с экспертами и вести текстовый онлайн. В общем, записывайте себе в календарь: понедельник 5 июня и вторник 6 июня, 10:00, РИТ++ на Хабре.
Читать и смотреть далее

Ко дню связи: история IP-телефонии

Reading time13 min
Views20K
7 мая — день радио и связи, который отмечают тысячи связистов и причастных по всей России и б. СССР. В этот день звучат странные для постороннего уха тосты: «за связь без брака», «за  коннект без единого разрыва», «за чистоту контактов и чистоту частот», а люди пьют до состояния полупроводника. Мы поздравляем всех связистов и связанных, а заодно предлагаем воскресным вечером почитать наш лонгрид об истории «новой связи», IP-телефонии.

Вообще, первая передача голоса по интернет-протоколу (voice over IP, VoIP) состоялась в 1973 году, в ходе тестирования экспериментального протокола  Network Voice, созданного для ARPANET. Но до 1995 года каких-либо крупных шагов предпринято не было… Ну это по официальной версии и огромной базе источников, которые предлагают нам интернет и библиотеки. Однако без нескольких историй не было бы основной истории.


С Днём Радио и Связи! Интересно, уже выросли те, кто не знает, как набрать номер на этом диске?
Читать дальше →

2038: остался всего 21 год

Reading time4 min
Views43K
Jonathan CorbetПорой кажется, что на фронте борьбы с проблемой 2038 года наступило относительное затишье. Однако время идет, и тот день, когда 32-битные значения типа time_t больше не смогут корректно отображать даты, наступит уже меньше чем через 21 год. Этот срок может показаться большим, однако сравнительно долгий жизненный цикл многих встраиваемых систем подразумевает, что некоторые из них, будучи введенными в строй в наше время, все еще будут работать, когда наступит критический момент. Арнд Бергманн — один из основных разработчиков, занимающихся этой проблемой. На конференции Linaro Connect 2017 он поделился новостями о текущем положении дел в этой области.
Читать дальше →
23-24 мая 2017 года в главном здании Академии наук в Москве пройдёт четвёртая конференция разработчиков российских операционных систем OS Day 2017. Мы встретились с участниками и спикерами и поговорили с ними о самой конференции, о российских OS, о кадровом голоде и перспективах отечественной разработки. Также нам удалось обсудить положение дел в нескольких российских компаниях, создающих свои операционные системы. Но обо всём по порядку.
Читать далее

Redux как сердце архитектуры фронтенда Единой фронтальной системы

Reading time5 min
Views18K
В прошлой статье мы рассказали, как в целом устроен фронтенд программы, обсудили технологический стек. Данную статью посвятим обсуждению Redux  —  почему мы называем его сердцем архитектуры ЕФС.


Читать дальше →
Microsoft Azure хорошо знакома как открытая и гибкая платформа облачных вычислений на уровне компаний и даже больших корпораций. Но это еще и постоянно растущая коллекция интегрированных облачных служб. Мы собрали всего пять сценариев работы компаний в Microsoft Azure – очевидных, популярных, интересных. А вы всегда можете добавить свой кейс облачных решений.
Читать далее

Paparazzo. Мощный, стильный, свой. Часть II

Reading time7 min
Views6.1K

Первая часть истории о медиапикере Paparazzo

В первой части мы рассказали о том, как пришли к своему медиапикеру и сколько вариантов перебрали до него, а теперь пора продолжить историю.


Читать дальше →

Мотивация сотрудников: правила офисной дипломатии

Reading time13 min
Views36K
В своей книге «Жизнь среди слонов» американский учёный-антрополог Д.-Г. Иэн рассказывает, как несколько лет провёл среди полудиких африканских аборигенов, погрузился в их образ жизни. Среди прочих автор делает очень ценный вывод: мы, современные цивилизованные люди, сами обременяем себя надуманными потребностями, которые исходят из пресловутого «приемлемого социального статуса». Хоть жизнь в джунглях и крайность, но она ярко показывает ту цену, которую мы платим за то, что иногда называют «тёплым стойлом».

Та же история происходит в сфере мотивации в офисной жизни: нам навязали какие-то шаблоны и правила, которым должны соответствовать компания и сам работник. Мотивация теряет свои очертания и уходит в крайности: например, на собеседовании могут рассказывать не про проект, а про роскошный офис и возможность поспать в рабочее время. Попробуем трезво оценить каждый элемент мотивации и разобраться, как стимулировать сотрудника работать честно и продуктивно.



Не то что бы мы так работали… Но уж больно хороша мотивация!
Читать дальше →

Предиктивная аналитика на платформе SCP

Reading time6 min
Views8.1K

Это третья публикация в рамках помощи участникам конкурса «SAP Кодер-2017».


Каждое предприятие в процессе своей жизнедеятельности генерирует значительное количество данных, как «больших», так и не очень. Эти данные часто можно использовать для получения нового знания, которое, в свою очередь может оказать существенное влияние на стратегию развития бизнеса или тактику поведения в некоторые локальные моменты работы. Сейчас, в связи с развитием вычислительной техники и ростом объема накопленных данных, большое развитие получили численные методы, позволяющие извлекать полезную информацию из массива «сырых» данных и использовать ее в различных бизнес-сценариях.


Читать дальше →

Разработка ускоренной главной страницы BBC News

Reading time3 min
Views5.7K
Веб производительность это то, что меня беспокоит как разработчика, чья работа затрагивает миллионы людей по всему миру, так и пользователя, который часто получает доступ к веб используя медленное и ненадежное соединение. Я часто и громко жаловался, что сайт BBC News неоправданно медленный, поэтому когда мне предоставилась возможность помочь перестроить одну из самых посещаемых страниц на BBC News — я ухватился за этот шанс.
Читать дальше →

Открываем доступ к видеозаписям HighLoad++ за последние пять лет

Reading time1 min
Views28K
image

Мы выложили в открытый доступ видеозаписи последних пяти лет конференции разработчиков высоконагруженных систем HighLoad++. Смотрите, изучайте, делитесь и подписывайтесь на канал YouTube.

Более терабайта записей и 500 видеороликов! Это всё, под катом только реклама :)

Перейти в канал YouTube!

Читать дальше →

Beyond working place: чем еще может быть полезен коворкинг фрилансеру

Reading time7 min
Views6.3K
Человек идёт в коворкинг не от хорошей жизни… а от очень хорошей. Часто такой выбор связан с тем, что открыто ИП или найдена интересная удалённая работа с отличными условиями. Ну и, безусловно, это выбор фрилансеров, которым по каким-либо причинам удобно работать именно в таком формате. Все три перечисленные категории часто оказываются профессионалами высочайшего класса и одновременно самыми беззащитными с правовой точки зрения людьми. Разбираться во всех нюансах — долго и сложно, фактически это означает красть рабочее время у самого себя. Оставлять всё как есть — нести потери при работе с заказчиками. Особенно остро эта проблема стоит перед фрилансерами. Мы не могли пройти мимо и попробовали им помочь.

Для этого наша команда собрала самые популярные вопросы фрилансеров, с которыми они к нам обращаются. Большая часть касается нашей собственной поддержки резидентам, но ответы будут однозначно полезны всем фрилансерам. Тем более, что описанные ситуации случаются достаточно часто.


Вредные советы. Источник: cat-translate.ru
Читать дальше →

Что нам стоит приложение построить: рассуждения об интерфейсе

Reading time9 min
Views8.7K
Посмотрите на экран мобильного телефона — какие-то приложения вы используете с удовольствием, какие-то по необходимости, а некоторые за неудобством просто удаляете и ищете приемлемый аналог. Когда делаешь мобильное приложение, самая проблематичная часть — создание рабочего прототипа. Нужно понять, как будут взаимодействовать элементы интерфейса, как с интерфейсом будет работать конечный пользователь. Вы скажете — так на то и есть тестирование. Но до тестирования нужно создать рабочий вариант, который должен отвечать требованиям клиентов, а в случае приложения для банков — миллионов пользователей. Как к этому подступиться?



Ищите подход к любому сегменту!
Читать дальше →

Из будней сисадмина: распаковываем NetApp FAS 9000

Reading time3 min
Views13K


Одна из медиакомпаний, с которой «Онланта» сотрудничает, в том числе в рамках задач проектирования и поддержки частного облака, озаботилась размещением своих HD-видеоматериалов на новой системе хранения данных. В качестве СХД была выбрана модель линейки модульных гибридных флэш-систем от NetApp — FAS 9000.

Это одна из первых поставленных в Россию систем NetApp FAS 9000, поэтому мы думаем, что вам будет интересен наш фотообзор и краткие комментарии по ходу распаковки системы и установки ее в ЦОД.

Подчеркну — это именно «фотообзор» новой системы от NetAPP, которую мало кто видел и держал в руках. Перед нами стояла задача — распаковать, установить систему в ЦОД, включить ее и передать заказчику. Тестирование системы не входило в наши планы.
Читать дальше →

Когда интуиция нас подводит: о том, как одну олимпиадную задачу по физике десятилетиями решали неправильно

Reading time6 min
Views73K

«Имеются два одинаковых шарика, находящихся при одной и той же температуре. Один из них лежит на горизонтальной поверхности, другой подвешен на нити. Обоим шарикам сообщают одинаковое количество теплоты. Будут ли после этого температуры шариков одинаковыми или нет? (Любыми видами тепловых потерь можно пренебречь.)»

Такую задачу иногда можно встретить на олимпиадах по физике или в соцсетях. Общепринятый ответ интуитивно понятен: из-за затрат энергии на тепловое расширение при наличии силы тяжести шарик, лежащий на горизонтальной поверхности, окажется холоднее висящего на нити. В недавней статье было показано, что этот ответ неправильный. На самом деле, результат будет обратным: лежащий шарик окажется теплее висящего. Разберемся, почему традиционный метод решения этой задачи приводит к неправильному ответу, и почему интуиция в этом случае нас подводит.
Читать дальше →

Information

Rating
Does not participate
Location
Россия
Registered
Activity