Пользователь

Rekken Jan 23 2021 at 07:14

Хранение данных в Docker

7 min

106K

Слёрм corporate blogDevOps*Virtualization*Server Administration*System administration*

Важная характеристика Docker-контейнеров — эфемерность. В любой момент контейнер может рестартовать: завершиться и вновь запуститься из образа. При этом все накопленные в нём данные будут потеряны. Но как в таком случае запускать в Docker приложения, которые должны сохранять информацию о своём состоянии? Для этого есть несколько инструментов.

В этой статье рассмотрим docker volumes, bind mount и tmpfs, дадим советы по их использованию, проведём небольшую практику.

Читать дальше →

+15

Picard Jan 23 2021 at 11:39

Как сделать Data Science приложение для Windows (и не только) с графическим интерфейсом с помощью PySimpleGUI

6 min

35K

Skillfactory corporate blogBig Data*Python*Artificial IntelligenceMachine learning*

Tutorial

Translation

Работать с Data Science в Jupyter, конечно, очень приятно, но если вы хотите пойти дальше и развернуть свой проект или модель на облачном сервере, то здесь есть много отличных решений — с помощью Flask, Django или Streamlit. Хотя облачные решения по-прежнему самые популярные, часто хочется создать быстрое приложение с графическим интерфейсом. Например:

Модель ML тестируется на различных наборах данных. Вы можете перетащить файлы CSV в модель и отрисовать кривую AUS/ROC. Здесь GUI проявит себя прекрасно, правда?
Построить случайную переменную или статистическое распределение в заданном диапазоне и динамически управлять параметрами с помощью графического интерфейса.
Быстро запустить некоторые задачи обработки или предварительной обработки данных в наборе с помощью GUI вместо того, чтобы писать кучу кода.

В этой статье мы покажем, как создать такой графический интерфейс, потратив минимум усилий на изучение библиотеки Python.

Приятного чтения!

+23

mikerere Jan 22 2021 at 06:39

Незаметная психология e-com сайтов

3 min

8.9K

Web design*Website development*Usability*E-commerce management*Increasing Conversion Rate*

Есть в Америке один спец, который изучает психологию и применяет ее, главным образом, в е-коммерции. В нашей компании мы активно внедрили его наработки в аналитику юзабилити и в конверсионные аудиты сайтов, и надо сказать, эффект есть. Зовут его Ник Коленда, а его книги на Амазоне — настоящее открытие для меня лично и источник вдохновения там, где попытки поднять конверсию заходят в тупик.

+17

Carmacat Jan 21 2021 at 07:28

Как найти email пользователя GitHub и написать Telegram бота для решения этой задачи?

2 min

19K

Python*API*GitHub*

From sandbox

Этот пост будет полезен двум категориям людей: IT-рекрутерам и начинающим разработчикам, которые хотят научиться писать простенькие программы для решения практических задач.

Задача: известен профиль пользователя на GitHub, необходимо найти email этого пользователя

Решение: один запрос к API GitHub и телеграм-бот, которого мы напишем в этом посте

Идея написать бота пришла ко мне после того, как коллега поделилась со мной этим способом...

ovi Jan 21 2021 at 16:01

Неужели нельзя обойтись без кафок и рэббитов, когда принимаешь 10 000 ивентов в секунду

7 min

30K

Ребреин corporate blogDevOps*IT Infrastructure*

Однажды я вел вебинар про то, как принимать 10 000 ивентов в секунду. Показал картинку, зрители увидели сиреневый слой, и началось: «Ребят, а зачем нам все эти кафки и рэббиты, неужели без них не обойтись»? Мы и ответили: «Зачем-зачем, чтобы пройти собес!»

Очень смешно, но давайте я все-таки объясню.

+36

alenaguzharina Jan 21 2021 at 15:02

Как изменился Datalore за 2020 год: мощная онлайн-среда для Jupyter-ноутбуков

3 min

6.4K

JetBrains corporate blogPython*Data visualization*Machine learning*

Привет, Хабр!

Datalore — это мощная онлайн-среда для Jupyter-ноутбуков, разработанная в JetBrains. Здесь мы собрали описание самых важных обновлений Datalore за прошедший год.

Читать дальше →

ifap Jan 19 2021 at 20:27

Тариф «100к+», или как вельми зело огорчить спамера

Easy

12 min

67K

Spamming and anti-spammingLegislation in IT

Tutorial

Уже не впервые сталкиваюсь, что читатели Хабра не все поголовно умеют правильно бороться со спамом. И я не про SpamAssasin, «Ктозвонил» и прочие приложения для фильтрации информационного мусора, а про несложную, но весьма доставляющую всем сторонам процесса подачу жалобы в ФАС.

После публикации на Хабре появилась статья с более лучшим раскрытием темы.

Давайте расскажу, как буквально за 15 минут не отрываясь от любимого компьютера подключить спамеру задораздирающий тариф линейки «Административный»: «Административный 100к», «Административный 150к» и вплоть до «Административный 500к» – как повезет.

Читать дальше →

+259

260

bardakdamama Jan 18 2021 at 22:09

Альтернативы Raspberry Pi

8 min

89K

Development for Raspberry Pi*GadgetsComputer hardware

From sandbox

Свет клином не сошёлся на Raspberry Pi, и потому энтузиасты и гики могут экспериментировать с большим количеством самых разных одноплатных компьютеров (SBC). Предлагаю познакомиться с устройствами, которым под силу обрести популярность в 2021 году.

+63

m1rko Jan 19 2021 at 14:44

У Google появился новый креативный способ убивать SaaS-стартапы

7 min

100K

SaaS / S+S*Domain names administrating*Antivirus protection*BrowsersStart-up development

Translation

В старые времена, когда компания Google (или любой из её плохо настроенных ИИ) хотела убить ваш бизнес, то обычно отказывала вам в доступе к какому-то из своих сервисов, и это работало. Вы наверняка слышали страшилки:

Сайты исчезают из поиска Google и уходят в небытие
Видео на YouTube демонетизируется, и создатели теряют источник дохода
Android-приложения исчезают из каталога Google Play и не могут связаться со своими пользователями
API резко дорожают или просто устаревают
И последнее, но не менее важное, личный аналог всего вышеперечисленного: люди теряют доступ к аккаунтам Gmail и всей своей цифровой жизни

Клянусь, я прочитал FAQ!

Читать дальше →

+241

181

kzzzr Jan 19 2021 at 11:54

Сквозная Аналитика на Azure SQL + dbt + Github Actions + Metabase

12 min

8.3K

Big Data*Data Engineering*SQL*System Analysis and Design*Data visualization*

Technotext 2021

Title

Привет, Хабр! Меня зовут Артемий Козырь.

За последние годы у меня накопился довольно обширный опыт работы с данными и тем, что сейчас называют Big Data.

Не так давно также разгорелся интерес к сфере интернет-маркетинга и Сквозной Аналитики, и не на пустом месте. Мой друг из действующего агентства снабдил меня данными и кейсами реальных клиентов, и тут ~~засквозило~~ понеслось.
Получается довольно интересно: Azure SQL + dbt + Github Actions + Metabase.

Читать дальше →

+10

boriswinner Jan 19 2021 at 14:20

Есть ли жизнь без Nvidia? Запускаем TensorFlow на Radeon RX 580

4 min

50K

TensorFlow*Video cardsMachine learning*Python*

From sandbox

На новом рабочем месте меня посадили за ПК, оборудованный процессором Ryzen 2600 и видеокартой Radeon RX 580. Попробовав обучать нейронные сети на процессоре, я понял, что это не дело: уж слишком медленным был процесс. После недолгих поисков я узнал, что существует как минимум 2 способа запуска современных библиотек машинного обучения на видеокартах Radeon: PlaidML и ROCm. Я попробовал оба и хочу поделиться результатами.

+31

GoodGreenTea Jan 17 2021 at 17:07

История 4го места на Russian AI Cup 2020

34 min

13K

Sport programming*Programming*Game development*

В этом году поучавствовал в соревновании по написанию игровых ботов Russian AI Cup. И хоть не удалось взять 1е место, как в 2017, но все равно это было увлекательное и невероятно азартное приклюение длинной в месяц, полное напряженного кодинга, недосыпания, творческих озарений и интриг в финале. Сразу оговорюсь, что в стратегии не использовался AI в современном понимании, с нейронными сетями и прочим - только алгоритмы и структуры данных. Мыслей накопилось много, поэтому приготовьтесь к длинному чтению..

Много текста с картинками

+52

ru_vds Jan 16 2021 at 13:10

8 бесплатных инструментов для создания интерактивных визуализаций данных без необходимости написания кода

8 min

89K

RUVDS.com corporate blogDatabase Administration*Website development*

Translation

Когда тот, кто работает в сфере Data Science, собирается показать результаты своей деятельности другим людям, оказывается, что таблиц и отчётов, полных текстов, недостаточно для того чтобы представить всё наглядно и понятно. Именно в таких ситуациях возникает нужда в визуализации данных, в такой их обработке, которая позволит всем желающим в них разобраться и ухватить суть тех сложных процессов, которые они описывают.

В этом материале я расскажу о лучших бесплатных инструментах, позволяющих без особых сложностей создавать впечатляющие визуальные представления данных. При этом тут я не буду говорить о сложных системах вроде Power BI и Google Studio. Я выбрал те 8 инструментов, о которых пойдёт речь, из-за того, что ими легко пользоваться, из-за их приятного внешнего вида, из-за того, что работать с ними можно, не написав ни единой строчки программного кода и из-за того, что они бесплатны. Кроме того, они позволяют создавать интерактивные визуализации. А это значит, что графики, представляющие некие данные, могут содержать в себе больше сведений об этих данных, чем обычные изображения. Да и работать с такими графиками интереснее.

Так как инструменты для визуализации данных то появляются, то исчезают, я включил в этот материал только те из них, которые, вероятнее всего, ещё долго будут пребывать в добром здравии. А это значит, что вполне разумным шагом будет вложение некоторого времени в их изучение. Как уже было сказано, пользоваться этими инструментам можно без написания кода. Но если вас интересует визуализация данных именно через код — взгляните на этот материал.

Читать дальше →

+35

host_m Jan 14 2021 at 07:25

Скрапинг современных веб-сайтов без headless-браузеров

9 min

27K

VDSina.ru corporate blogWeb analytics*BrowsersPython*API*

Translation

Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.

Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.

На традиционных веб-страницах наша задача заключается в парсинге HTML и извлечении нужной информации. На современных веб-сайтах фронтэнд скорее всего не будет содержать особо много HTML, потому что данные получаются асинхронно после первого запроса. Поэтому большинство людей использует безголовые браузеры — они способны выполнять JavaScript, делать дальнейшие запросы, после чего можно распарсить всю страницу целиком.

Но существует и другой способ, которым можно довольно часто пользоваться.

Читать дальше →

+28

heappro Jan 14 2021 at 08:04

Как не держать лишнее железо и справляться с ростом нагрузки: внедрение graceful degradation в Яндекс.Маркете

4 min

7.2K

Яндекс corporate blogWebsite development*Search engines*Server optimization*Server Administration*

Привет, меня зовут Евгений. Я разрабатываю инфраструктуру поиска Яндекс.Маркета. Хочу рассказать, как graceful degradation помогает нам обрабатывать больше запросов, чем физически могут выдержать наши сервера, и что происходит с поиском в Маркете, если один из дата-центров отключается.

+23

Dinxor Jan 13 2021 at 15:07

Доббль: практичный подход с OpenCV и NumPy

4 min

4.7K

Machine learning*Artificial Intelligence

From sandbox

О чём мы вспоминаем в первую очередь, когда слышим про распознавание образов? Сложные нейронные сети, мощные видеокарты, объёмные наборы данных. Всего этого не будет в моей истории - я расскажу, как с помощью OpenCV и NumPy можно за 1 вечер решить задачу классификации 57 символов из игры Доббль, используя менее 500 их изображений без дополнительной аугментации. Разный масштаб, произвольный угол поворота - всё это не имеет значения, когда для описания символа достаточно четырёх чисел.

+11

Filinger Jan 13 2021 at 15:30

Когда-то я внедрял ClickHouse в стартапе, где даже алерты мониторили индийцы — это был Дикий Запад

7 min

19K

Ребреин corporate blogIT Infrastructure*Database Administration*Data storage*DevOps*

Однажды я работал дата-инженером в стартапе. Он быстро рос и в какой-то момент решился на покупку одной крупной компании. Там было больше сотни сотрудников — оказалось, почти все из Индии. Пока наши разработчики возились с экзотическим кодом, не поддающимся расшифровке с наскока, мое внимание привлек индийский отдел мониторинга.

Чтобы мониторить сеть и сервера, можно использовать самый разный софт. Главное — быть уверенным: если что-то пойдет не так, то сработает алерт. Вы увидите уведомление и успеете все починить. У них же было свое представление о мониторинге. Представьте, несколько комнат со столами, стульями и огромными плазмами на стенах, внутри сидят почти два десятка человек. На каждый монитор выведены разноцветные графики и рядом приклеены бумажки с номерами телефонов.

Работа этих двадцати людей заключалась в том, чтобы сидеть и смотреть на графики, а если линия вдруг окажется выше приклеенного рядом стикера — звонить по номеру телефона, который там написан, и бить тревогу. Вот они сидели и не отрываясь следили.

Покупка компании обошлась недорого, но содержание такой инфраструктуры стоило заоблачных денег. Индусы использовали дорогущую Vertica, где, кроме оплаты железа, нужно было еще отстегивать за лицензию. Мы решили попробовать переезд на ClickHouse. Это практически бесплатный аналог Vertica. Оба продукта работают по схожему принципу: колоночное СУБД с шардированием, с партиционированием данных.

И это было то еще приключение.

+36

TashaFridrih Dec 28 2020 at 12:00

Штази — одна из самых педантичных и репрессивных спецслужб мира

11 min

79K

ua-hosting.company corporate blogHistory of IT

Штази или Ministerium für Staatssicherheit, обычно сокращенно MГБ или Stasi, — Министерство государственной безопасности бывшей ГДР (Восточная Германия), тайная полиция, контрразведывательный и разведывательный (с 1952 года) государственный орган Германской Демократической Республики.

В 1947 году, вскоре после окончания Второй мировой войны, Главное управление по защите государственной собственности называлось Штази. К 1950 году в молодой ГДР возникла настоятельная потребность «в органе, способном политически просветить восточных немцев, помочь им встать на путь истинный, уберечь от тлетворного влияния соседей и родственников из ФРГ». Управление было переименовано в Ministryium für Staatssicherheit (Министерство государственной безопасности), сокращенно MfS или Штази (от слова Staatssicherheit «Госбезопасность»). Именно тогда в ГДР родилось крылатое выражение, определившее вектор направления работы одной из самых эффективных и репрессивных секретных разведывательных и полицейских организаций, которые когда-либо существовали: «учиться у СССР — значит учиться побеждать». Прародителями службы стали Сотрудники советского НКВД — МГБ, они не только помогали восточным немцам в создании детища, но и активно пропагандировали свои методы работы: слежку, запугивание, шантаж, психическое и физическое воздействие на несогласных с линией партии.

Читать дальше →

+36

sahsAGU Dec 30 2020 at 07:00

Ультимативный список инструментов для разработчиков и опытных пользователей для Windows

6 min

77K

Microsoft corporate blogProgramming*Game development*Development for Windows*System administration*

Можете ли вы поверить, что с момента моего последнего списка инструментов прошло 6 лет? Инструменты изменились, многие из них доступны онлайн, но, честно говоря, для составления нового списка инструментов требуется ОЧЕНЬ МНОГО РАБОТЫ. Но я смог, вот список на 2020-2021 годы. Это инструменты в моей папке Utils. Я создал папку d:\dropbox\utils и добавил ее в свой PATH. Таким образом, он будет на всех моих компьютерах, и я могу мгновенно добраться до любого из них.

Это обновленный до версии 2020-21 мой список 2003, 2005, 2006, 2007, 2009, 2011 и 2014 годов, который в настоящее время включает все остальные мои списки. Я занимаюсь этим более 17 лет. Вау. Думаю, стоит тратить на это больше времени.

Все собирают утилиты, и у большинства есть список из тех, которые, по их мнению, незаменимы. Вот мой. У всех есть свои задачи, и я, скорее всего, использую каждую хотя бы несколько раз в неделю. Для меня «утилита» означает утилитарность. По этому принципу и построен список.

Все это очень любимые и часто используемые утилиты. Я бы не рекомендовал их, если бы не использовал их постоянно. Никто не платил деньги за то, чтобы быть в этом списке.

Эту статью написал наш коллега Скотт. Вот версия на английском. Ну а сам список под катом.

Читать дальше →

+49

164

host_m Dec 30 2020 at 09:17

Мы отрендерили миллион страниц, чтобы понять, из-за чего тормозит веб

9 min

34K

VDSina.ru corporate blogWeb services testing*IT systems testing*High performance*System Analysis and Design*

Translation

Мы отрендерили 1 миллион самых популярных страниц веба, фиксируя все мыслимые метрики производительности, записывая все ошибки и замечая все запрошенные URL. Похоже, таким образом мы создали первый в мире набор данных, связывающий производительность, ошибки и использование библиотек в сети. В этой статье мы проанализируем, что наши данные могут сообщить о создании высокопроизводительных веб-сайтов.

Посещён 1 миллион страниц
Записано по 65 метрик каждой страницы
Запрошен 21 миллион URL
Зафиксировано 383 тысячи ошибок
Сохранено 88 миллионов глобальных переменных

Можно ли превзойти наш анализ? Мы опубликовали наш набор данных на Kaggle, поэтому вы можете обработать данные самостоятельно.

Зачем рендерить миллион веб-страниц?

Сегодня распространено мнение о том, что веб почему-то стал более медленным и забагованным, чем 15 лет назад. Из-за постоянно растущей кучи JavaScript, фреймворков, веб-шрифтов и полифилов, мы съели все преимущества, которые даёт нам увеличение возможностей компьютеров, сетей и протоколов. По крайней мере, так утверждает молва. Мы хотели проверить, правда ли это на самом деле, а также найти общие факторы, которые становятся причиной торможения и поломок сайтов в 2020 году.

Общий план был простым: написать скрипт для веб-браузера, заставить его рендерить корневую страницу миллиона самых популярных доменов и зафиксировать все мыслимые метрики: время рендеринга, количество запросов, перерисовку, ошибки JavaScript, используемые библиотеки и т.п. Имея на руках все эти данные, мы могли бы начать задаваться вопросами о том, как один фактор корреллирует с другим. Какие факторы сильнее всего влияют на замедление рендеринга? Какие библиотеки увеличивают время до момента возможности взаимодействия со страницей (time-to-interactive)? Какие ошибки встречаются наиболее часто, и что их вызывает?

Читать дальше →

+57

1 2 ...

9 10

12 13 ...

36 37