How to become an author

Пользователь

ProfileArticles26PostsNewsComments124

apelsyn Dec 9 2010 at 06:01

Ускоряем раздачу фоток

8 min

14K

С проблемой медленной отдачи статического контента рано или поздно сталкивается каждый сисадмин.

Проявляется это приблизительно так: иногда 3Kb картинка грузится так, как будто бы она весит 3Mb, на ровном месте начинают «залипать» (отдаваться очень медленно) css-ы и JavaScript-ы. Вы нажимаете ctrl + reload — и уже, вроде, проблемы нет, потом спустя всего несколько минут все повторяется опять.

Не всегда истинная причина «тормозов» очевидна и мы косо поглядываем то на nginx, то на хостера, то на «забитый» канал, то на «тормозной» или «глючный» браузер :)

На самом деле проблема в несовершенстве современного винчестера, который до сих пор не расстался с механическими подсистемами вращения шпинделя и позиционирования головок.

В этой статье я предложу Вам свое решение этой проблемы, основанное на практическом опыте использования SSD дисков совместно с web-сервером nginx.

Читать дальше →

+124

Jessy_James Sep 6 2019 at 12:55

C/C++ из Python (ctypes)

6 min

71K

Tutorial

main

Про то как вызывать Python из C написал в прошлой статье, теперь поговорим как делать наоборот и вызывать C/C++ из Python3. Раз начал писать об этом, то раскроем всю тему до конца. Тем более, что ни чего сложного здесь нет тоже.

Читать дальше →

+23

Jessy_James Sep 4 2019 at 12:26

Python из C (C API)

6 min

34K

Tutorial

main

В прошлом году появилась необходимость дополнить старый проект написанный на C функционалом на Python3. Не смотря на то, что есть статьи на эту тему я помучился и в том году и сейчас когда писал программы для статьи. Поэтому приведу свои примеры по тому как работать с Python3 из C под Linux (с тем что использовал). Опишу как создать класс и вызвать его методы, получить доступ к переменным. Вызов функций и получение переменных из модуля. А также проблемы с которыми я столкнулся и не смог их понять.

Читать дальше →

+22

iggisv9t Sep 4 2019 at 11:04

Визуализация больших графов для самых маленьких

12 min

60K

Open Data Science corporate blogMachine learning*Artificial IntelligenceData visualization*Data Mining*

Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.

Читать дальше →

+93

sqshq Aug 19 2019 at 04:11

Sampler. Консольная утилита для визуализации результата любых shell команд

5 min

87K

Data visualization*DevOps*Go*Open source*Programming*

В общем случае с помощью shell команды можно получить любую метрику, без написания кода и интеграций. А значит в консоли должен быть простой и удобный инструмент для визуализации.

Наблюдение за изменением состояния в базе данных, мониторинг размера очередей, телеметрия с удаленных серверов, запуск деплой скриптов и получение нотификации по завершению — конфигурируется за минуту простым YAML файлом.

Код доступен на гитхабе. Инструкции по установке — для Linux, macOS и (экспериментально) Windows.

Читать дальше →

+296

nvpushkarskiy2 Jul 26 2019 at 13:34

Распознавание эмоций с помощью сверточной нейронной сети

8 min

25K

Voximplant corporate blogSoundArtificial IntelligenceMachine learning*Programming*

Translation

Распознавание эмоций всегда было захватывающей задачей для ученых. В последнее время я работаю над экспериментальным SER-проектом (Speech Emotion Recognition), чтобы понять потенциал этой технологии – для этого я отобрал наиболее популярные репозитории на Github и сделал их основой моего проекта.

Прежде чем мы начнем разбираться в проекте, неплохо будет вспомнить, какие узкие места есть у SER.

Читать дальше →

+30

Syurmakov Jul 16 2019 at 21:32

Галерея лучших блокнотов по ML и Data Science

3 min

34K

Big Data*Data Mining*Python*Machine learning*

Привет, читатель.

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать дальше →

+27

shurik2533 Jun 24 2019 at 13:13

Автоматическое назначение задач в Jira с помощью ML

12 min

11K

hh.ru corporate blogProgramming*Machine learning*Artificial IntelligencePython*

Привет, Хабр! Меня зовут Саша и я backend разработчик. В свободное от работы время я изучаю ML и развлекаюсь с данными hh.ru.

Эта статья о том, как мы с помощью машинного обучения автоматизировали рутинный процесс назначения задач на тестировщиков.

В hh.ru есть внутренняя служба, на которую в Jira создаются задачи (внутри компании их называют HHS), если у кого-то что-то не работает или работает неправильно. Дальше эти задачи вручную обрабатывает руководитель группы QA Алексей и назначает на команду, в чью зону ответственности входит неисправность. Лёша знает, что скучные задачи должны выполнять роботы. Поэтому он обратился ко мне за помощью по части ML.

Читать дальше →

+47

ru_vds Jun 14 2019 at 09:30

Обзор Python-пакета Datatable

8 min

19K

RUVDS.com corporate blogWebsite development*Python*

Translation

«Пять экзабайт информации создано человечеством с момента зарождения цивилизации до 2003 года, но столько же сейчас создаётся каждые два дня». Эрик Шмидт

Datatable — это Python-библиотека для выполнения эффективной многопоточной обработки данных. Datatable поддерживает наборы данных, которые не помещаются в памяти.

Если вы пишете на R, то вы, вероятно, уже используете пакет data.table. Data.table — это расширение R-пакета data.frame. Кроме того, без этого пакета не обойтись тем, кто пользуется R для быстрой агрегации больших наборов данных (речь идёт, в частности, о 100 Гб данных в RAM).

Пакет data.table для R весьма гибок и производителен. Пользоваться им легко и удобно, программы, в которых он применяется, пишутся довольно быстро. Этот пакет широко известен в кругах R-программистов. Его загружают более 400 тысяч раз в месяц, он используется в почти 650 CRAN и Bioconductor-пакетах (источник).

Какая от всего этого польза для тех, кто занимается анализом данных на Python? Всё дело в том, что существует Python-пакет datatable, являющийся аналогом data.table из мира R. Пакет datatable чётко ориентирован на обработку больших наборов данных. Он отличается высокой производительностью — как при работе с данными, которые полностью помещаются в оперативной памяти, так и при работе с данными, размер которых превышает объём доступной RAM. Он поддерживает и многопоточную обработку данных. В целом, пакет datatable вполне можно назвать младшим братом data.table.

Читать дальше →

+39

nmivan Jun 13 2019 at 19:03

Поймай меня, если сможешь. Рождение Короля

13 min

11K

Reading roomPersonnel Management*ERP-systems*

Поймай меня, если сможешь. Так они говорят друг другу. Директоры ловят своих заместителей, те – рядовых сотрудников, друг друга, но никто никого поймать не может. Да они и не стараются. Для них главное – игра, процесс. Ради этой игры они и ходят на работу. Они никогда не выиграют. Выиграю я.

Точнее, я уже выиграл. И продолжаю выигрывать. И буду выигрывать дальше. Я создал уникальную бизнес-схему, тончайший механизм, который работает, как часы. Что важно – выигрываю не только я – побеждают все. Да, мне это удалось. Я – Король.

Читать дальше →

+21

3Dvideo Jun 10 2019 at 06:00

Аппаратное ускорение глубоких нейросетей: GPU, FPGA, ASIC, TPU, VPU, IPU, DPU, NPU, RPU, NNP и другие буквы

28 min

95K

Big Data*Artificial IntelligenceComputer hardwareMachine learning*Popular science

14 мая, когда Трамп готовился спустить всех собак на Huawei, я мирно сидел в Шеньжене на Huawei STW 2019 — большой конференции на 1000 участников — в программе которой были доклады Филипа Вонга, вице-президента по исследованиям TSMC по перспективам не-фон-неймановских вычислительных архитектур, и Хенга Ляо, Huawei Fellow, Chief Scientist Huawei 2012 Lab, на тему разработки новой архитектуры тензорных процессоров и нейропроцессоров. TSMC, если знаете, делает нейроускорители для Apple и Huawei по технологии 7 nm (которой мало кто владеет), а Huawei по нейропроцессорам готова составить серьезную конкуренцию Google и NVIDIA.

Google в Китае забанен, поставить VPN на планшет я не удосужился, поэтому ~~патриотично~~ пользовался Яндексом для того, чтобы смотреть, какая ситуация у других производителей аналогичного железа, и что вообще происходит. В общем-то за ситуацией я следил, но только после этих докладов осознал, насколько масштабна готовящаяся в недрах компаний и тиши научных кабинетов революция.

Только в прошлом году в тему было вложено больше 3 миллиардов долларов. Google уже давно объявил нейросети стратегическим направлением, активно строит их аппаратную и программную поддержку. NVIDIA, почувствовав, что трон зашатался, вкладывает фантастические усилия в библиотеки ускорения нейросетей и новое железо. Intel в 2016 году потратил 0,8 миллиарда на покупку двух компаний, занимающихся аппаратным ускорением нейросетей. И это при том, что основные покупки еще не начались, а количество игроков перевалило за полсотни и быстро растет.

TPU, VPU, IPU, DPU, NPU, RPU, NNP — что все это означает и кто победит? Попробуем разобраться. Кому интересно — велкам под кат!

Читать дальше →

+166

m1rko Jun 2 2019 at 12:13

Горький урок отрасли ИИ

5 min

53K

Artificial IntelligenceLogic gamesMachine learning*

Translation

Об авторе. Ричард Саттон — профессор компьютерных наук в университете Альберты. Считается одним из основателей современных вычислительных методов обучения с подкреплением.

По итогу 70-ти лет исследований в области ИИ главный урок заключается в том, что общие вычислительные методы в конечном счёте наиболее эффективны. И с большим отрывом. Конечно, причина в законе Мура, точнее, в экспоненциальном падении стоимости вычислений.

Большинство исследований ИИ предполагали, что агенту доступны постоянные вычислительные ресурсы. В этом случае практически единственный способ повышения производительности — использование человеческих знаний. Но типичный исследовательский проект слишком краткосрочен, а через несколько лет производительность компьютеров неизбежно возрастает.

Стремясь к улучшению в краткосрочной перспективе, исследователи пытаются применить человеческие знания в предметной области, но в долгосрочной перспективе имеет значение только мощность вычислений. Эти две тенденции не должны противоречить друг другу, но на практике противоречат. Время, потраченное на одно направление, — это время, потерянное для другого. Есть психологические обязательства инвестировать в тот или иной подход. И внедрение знаний в предметной области имеет тенденцию усложнять систему таким образом, что она хуже подходит для использования общих вычислительных методов. Было много примеров, когда исследователи слишком поздно усваивали этот горький урок, и полезно рассмотреть некоторые из самых известных.

Читать дальше →

+115

RGrimov May 29 2019 at 10:57

Нейронные сети предпочитают текстуры и как с этим бороться

7 min

32K

Open Data Science corporate blogArtificial IntelligenceMachine learning*BrainImage processing*

В последнее время вышло несколько статей с критикой ImageNet, пожалуй самого известного набора изображений, использующегося для обучения нейронных сетей.

В первой статье Approximating CNNs with bag-of-local features models works surprisingly well on ImageNet авторы берут модель, похожую на bag-of-words, и в качестве "слов" используют фрагменты из изображения. Эти фрагменты могут быть вплоть до 9х9 пикселей. И при этом, на такой модели, где полностью отсутствует какая-либо информация о пространственном расположении этих фрагментов, авторы получают точность от 70 до 86% (для примера, точность обычной ResNet-50 составляет ~93%).

Во второй статье ImageNet-trained CNNs are biased towards texture авторы приходят к выводу, что виной всему сам набор данных ImageNet и то, как изображения воспринимают люди и нейронные сети, и предлагают использовать новый датасет – Stylized-ImageNet.

Более подробно о том, что на картинках видят люди, а что нейронные сети

Читать дальше →

+100

Darel13712 May 29 2019 at 09:31

Рекомендательные системы: идеи, подходы, задачи

11 min

54K

Инфосистемы Джет corporate blogAlgorithms*System Analysis and Design*Machine learning*

Многие привыкли ставить оценку фильму на КиноПоиске или imdb после просмотра, а разделы «С этим товаром также покупали» и «Популярные товары» есть в любом интернет- магазине. Но существуют и менее привычные виды рекомендаций. В этой статье я расскажу о том, какие задачи решают рекомендательные системы, куда бежать и что гуглить.

Читать дальше →

+32

derprimus May 28 2019 at 16:18

Советские мечты о будущем

9 min

94K

Madrobots corporate blogScience fiction

Помните очаровательного котика, которые чихал в заставке советского мультфильма? Мы помним, и нашли его — вместе с ворохом другой рисованной фантастики. В детстве она пугала и обескураживала, поскольку поднимала серьезные, взрослые темы. Настала пора пересмотреть старые мультфильмы, чтобы узнать, о каком будущем мечтали в той стране.

+134

forkyforky May 28 2019 at 02:00

Web tools, или с чего начать пентестеру?

11 min

53K

Digital Security corporate blogInformation Security*Network technologies*

Продолжаем рассказывать о полезных инструментах для пентестера. В новой статье мы рассмотрим инструменты для анализа защищенности веб-приложений.

Наш коллега BeLove уже делал подобную подборку около семи лет назад. Интересно взглянуть, какие инструменты сохранили и укрепили свои позиции, а какие отошли на задний план и сейчас используются редко.

Читать дальше →

+46

Syurmakov May 19 2019 at 16:23

Подборка датасетов для машинного обучения

6 min

173K

Machine learning*Artificial IntelligencePython*Data Mining*

Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.

Читать дальше →

+62

Museum-Yandex May 15 2019 at 09:41

История компьютеров: ночь в музее Яндекса

4 min

13K

Яндекс corporate blogOld hardwareComputer hardwareGadgetsIT-companies

Мы в Яндексе очень любим компьютеры, поэтому не так давно открыли свой небольшой музей. Здесь мы собираем редкие экземпляры вычислительной техники и знание о людях, которые повлияли на их развитие. Наши экспонаты работают, их можно трогать руками и запускать программы.

В этом году мы присоединяемся к всероссийской акции «Ночь музеев» и приглашаем читателей Хабра в гости. В ночь с 18 на 19 мая, каждые полчаса с 20:00 до 5:30, мы будем водить экскурсии по постоянной экспозиции. Сотрудники Яндекса, профессионально занимающиеся или просто фанатично преданные ретротехнике, расскажут об экспонатах и буднях программистов прошлого.

Под катом коротко расскажем про некоторые наши ретрокомпьютеры и забавные факты из их истории. А ещё вы узнаете про другие активности, которые мы подготовили для наших гостей. В том числе для тех, кто помнит Mortal Kombat 3.

Читать дальше →

+48

Syurmakov May 10 2019 at 11:29

Ищем свободное парковочное место с Python

14 min

66K

Artificial IntelligenceThe future is herePython*Data Mining*

Translation

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Я живу в хорошем городе. Но, как и во многих других, поиск парковочного места всегда превращается в испытание. Свободные места быстро занимают, и даже если у вас есть своё собственное, друзьям будет сложно к вам заехать, ведь им будет негде припарковаться.

Поэтому я решил направить камеру в окно и использовать глубокое обучение, чтобы мой компьютер сообщал мне, когда освободится место:

Это может звучать сложно, но на самом деле написать рабочий прототип с глубоким обучением — быстро и легко. Все нужные составляющие уже есть — нужно всего лишь знать, где их найти и как собрать воедино.

Поэтому давайте немного развлечёмся и напишем точную систему уведомлений о свободной парковке с помощью Python и глубокого обучения

Читать дальше →

+104

Syurmakov Apr 9 2019 at 16:36

Прорабатываем навык использования группировки и визуализации данных в Python

5 min

19K

VK corporate blogBig Data*Data Mining*Python*Data visualization*

Привет, Хабр!

Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.

По традиции, в начале, определим цели:

Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
Найти самые популярные имена за всю историю;
Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.

Меньше слов, больше кода!

И, поехали.

Читать дальше →

+40

3

4 5 ...