Как стать автором
Обновить
Александр Еськов @Sistemaalexread⁠-⁠only

Специалист

Отправить сообщение

Автоматизируем создание отчетов в Word с данными из Excel на Python

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров32K

До смешного простой код, который может сэкономить вам кучу времени в будущем. И как фанат автоматизации, который старается избегать любой однообразной и рутинной работы, я от таких решений просто в восторге.

Читать далее
Всего голосов 37: ↑35 и ↓2+33
Комментарии55

Пароли в открытом доступе: ищем с помощью машинного обучения

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров9.4K

Я больше 10 лет работаю в IT и знаю, что сложнее всего предотвратить риски, связанные с человеческим фактором. 

Мы разрабатываем самые надежные способы защиты. Но всего один оставленный в открытом доступе пароль сведет все усилия к нулю. А чего только не отыщешь в тикетах Jira, правда?

Привет, меня зовут Александр Рахманный, я разработчик в команде информационной безопасности в Lamoda Tech. В этой статье поделюсь опытом, как мы ищем в корпоративных ресурсах чувствительные данные — пароли, токены и строки подключения — используя самописный ML-плагин. Рассказывать о реализации буду по шагам и с подробностями, чтобы вы могли создать такой инструмент у себя, даже если ML для вас — незнакомая технология.  

Читать далее
Всего голосов 30: ↑30 и ↓0+30
Комментарии13

Посмотрите, как Google отслеживает ваше местоположение. С Python, Jupyter, Pandas, Geopandas и Matplotlib

Время на прочтение8 мин
Количество просмотров49K

В отделе продаж можно услышать аббревиатуру ABC: Always Be Closing, что означает заключение сделки с покупателем. Последнее десятилетие породило еще одну аббревиатуру ABCD: Always Be Collecting Data

Мы используем Google для почты, карт, фотографий, хранилищ, видео и многого другого. Мы используем Twitter, чтобы читать поток сознания одного президента. Мы используем Facebook для обмена сообщениями и… ну, почти все. Но наши родители пользуются им. Мы используем TikTok… Понятия не имею, зачем. 

На самом деле, оказывается, что большинство из вышеперечисленного бесполезно… Ничего подобного, суть в том, что мы их используем. Мы их используем, и они бесплатны. В экономике XXI века, если вы не платите за товар, вы являетесь товаром. 

Итак, короче говоря, я хотел выяснить, насколько корпорация Alphabet, владелец Google, обо мне знает. Крошечная доля, я посмотрел на историю геолокации. Я никогда не отключал службы определения местоположения, потому что ценил комфорт выше конфиденциальности. Плохая идея.

Читать далее
Всего голосов 60: ↑59 и ↓1+58
Комментарии53

Как натренировать и использовать модель машинного обучения из Google таблиц с помощью BigQuery ML

Время на прочтение6 мин
Количество просмотров5.6K

Электронные таблицы используются везде. Это один из самых удобных инструментов для повышения производительности. С их помощью можно быстро упорядочить, рассчитать и представить данные. Google Таблицы – это приложение для работы с электронными таблицами в составе сервиса Google Workspace, с которым активно работают более 2 миллиардов пользователей

Машинное обучение также стало важным бизнес-инструментом. Когда появилась недорогая возможность высокоточного прогнозирования на основе данных, рынок стал развиваться по новому пути. По оценкам, каждый год доля машинного обучения в бизнесе будет увеличиваться более чем на 40 %.

Это наталкивает на мысль о том, что машинное обучение было бы разумно применять для анализа данных в таблицах. И это так! Тем более теперь для этого есть все средства. О них мы и поговорим в этой статье.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Учимся квантовому программированию с помощью примеров. Доклад Яндекса

Время на прочтение12 мин
Количество просмотров29K
Сегодня любой желающий может воспользоваться методами квантового программирования, написать простой код на Python и запустить его на реальном квантовом вычислителе. Ришат Ибрагимов rishat_ibrahimov разобрал основы квантовых вычислений на примерах с кодом, показал, как запускать программы на локальном симуляторе и удаленном квантовом компьютере.


— Всем привет, меня зовут Ришат. Я почти три года работаю над качеством поиска Яндекса. Но поговорить сегодня хочу не о работе, а о том, чем я занимаюсь в свободное время. Занимаюсь я квантовой информатикой, а на самом деле — самыми разными моделями вычислений, в том числе квантовыми.
Читать дальше →
Всего голосов 18: ↑17 и ↓1+16
Комментарии6

Физика и экономика. Гносеологическая разница и ее проявление в IT

Время на прочтение21 мин
Количество просмотров9.5K

В мир IT я пришел из теоретической физики. Занимался, в основном, экономическими задачами. Занимался – это: анализ, ТЗ, постановка, проектирование, программирование. Естественно, я все время сопоставлял физический и экономический подходы к познанию законов природы и экономики соответственно. По этой теме созрела некая точка зрения. О ней и будет речь.

Читать дальше →
Всего голосов 25: ↑25 и ↓0+25
Комментарии23

Кому на бюджете жить хорошо?

Время на прочтение31 мин
Количество просмотров8.7K


ВСТУПЛЕНИЕ


В каком году — рассчитывай,
В какой земле — угадывай,
На столбовой дороженьке
Сошлись семь мужиков:
Семь временнообязанных,
Подтянутой губернии,
Уезда Терпигорева,
Пустопорожней волости,
Из смежных деревень:
Заплатова, Дырявина,
Разутова, Знобишина.
Горелова, Неелова —
Неурожайка тож,
Сошлися — и заспорили:
Кому живется весело,
Вольготно на Руси?

Н.Некрасов

Пару месяцев назад на одном IT мероприятии мне довелось лицезреть в работе Pandas. Парень, который с ним работал не делал ничего особенно удивительного. Но простые сложения значений, вычисления средних, группировки проиводились так виртуозно, что, даже при всей своей предвзятости к Питону, я был очарован. Манипуляции выполнялись на довольно приличных датасетах по данным капитального ремонта за период кажется с 2004 по 2019 год. Сотни тысяч строк, но все работало очень быстро.


В общем когда мне еще через пару месяцев пришлось кое-что анализировать, я решил попробовать сделать это с помощью Pandas. Провозился пару дней с тем, что с помощью Excel я бы смог сделать за день. Тем не менее мне удалось.


С апреля мы все сидим на карантине. Сидел я и думал, что бы мне такое сделать, чтобы не очень сложное и чтобы стильно и модно было. К тому времени я уже видел кучу всякой инфографики про коронавирус, про пожары в лесу, про выборы. Делать то, что уже делали не хотелось, да и браться сразу за сложное не решался, сомневаясь, что смогу закончить. Тут мне попалась какая-то статья про уже отшумевшее явление "barchart race" или по-русски "гонки столбчатых диаграмм". Вы можете подумать, что эта статья будет про barchart race. Да, но только отчасти. Barchart race будет только в конце, а статья скорее о том, как не обладая, какими-то выдающимися способностями и знаниями в области матана и прочей черной магии, можно сделать анализ больших данных и представить результат в доступной для широких масс форме. Итак, поехали.

Всего голосов 33: ↑31 и ↓2+29
Комментарии23

Абелевскую премию по математике разделили двое пионеров в областях вероятностей и динамики

Время на прочтение5 мин
Количество просмотров3.5K

Хилель Фарстенберг, 84 лет, и Григорий Маргулис, 74 лет, профессора на пенсии, разделили математический эквивалент нобелевской премии



Хилель Фарстенберг

Двое математиков, продемонстрировавших, как недооценённое ответвление области исследований можно применить для решения важных задач, разделили между собой абелевскую премию этого года — математический эквивалент нобелевской премии.

Её получили Хилель Фарстенберг, 84 лет, из Еврейского университета в Иерусалиме, и Григорий Маргулис, 74 лет, советский и американский математик из Йельского университета. Оба – профессора на пенсии.

Премия, вручаемая Норвежской академией наук и литературы, была назначена «за новаторский подход использования методов из теории вероятностей и динамики в теории групп, теории чисел и комбинаторике».
Всего голосов 17: ↑15 и ↓2+13
Комментарии2

Макросы для питониста. Доклад Яндекса

Время на прочтение8 мин
Количество просмотров15K
Как можно расширить синтаксис Python и добавить в него необходимые возможности? Прошлым летом на PyCon я постарался разобрать эту тему. Из доклада можно узнать, как устроены библиотеки pytest, macropy, patterns и как они добиваются таких интересных результатов. В конце есть пример кодогенерации с помощью макросов в HyLang — Lisp-образного языка, бегущего поверх Python.


— Привет, ребята. Хочу в первую очередь поблагодарить организаторов PyCon. Я разработчик в Яндексе. Доклад будет совсем не про работу, а про экспериментальные вещи. Возможно, кого-то из вас они наведут на мысль, что в Python можно делать клевые штуки, о которых вы раньше даже не догадывались, не мыслили в эту сторону.
Читать дальше →
Всего голосов 24: ↑22 и ↓2+20
Комментарии8

Что происходило с транспортом за последние две недели

Время на прочтение15 мин
Количество просмотров9.5K

Автобусы помогут добраться до тех городов, куда не пройдут самолёты и поезда. Картинка от Safronov

По стране был объявлен «режим нового года», ну, то есть неделя выходных с работающими аптеками, магазинами и транспортом. Потом он плавно перешёл в режим чего-то непонятного, а потом в режим самоизоляции.

Основные статусы:

  • Сначала были просто перекрыты многие внешние рейсы, осталось только сообщение между столицами. А с 00:00 27 марта приостановлено всё международное пассажирское авиасообщение, кроме чартерных рейсов для эвакуации жителей России из других стран. Наземные границы тоже закрылись. Есть информация о возможном существенном снижении пассажирских перевозок самолётами. Есть данные о продолжении полётов Аэрофлота. Есть данные и о том, что они начинают ставить борта на длительное хранение.
  • Иностранцев не принимают в России до 1 мая.
  • Населённость поездов уменьшилась, РЖД отменила 20 поездов и ещё с десяток пустила реже. Это малая доля в сравнении с масштабом пассажироперевозок, но это было уже около недели назад.
  • Победа прекратила авиаперевозки с 1 апреля до конца мая.
  • Появились схемы и инструкции: PDF, где в Приложении 2 закрепляется схема лечения лопинавиром и ритонавиром. Вот обновлённые рекомендации Минздрава, где схемы рассматриваются подробнее.
  • Карелия — первый регион, остановивший общественный транспорт (возможно, потому что туда ломанулись люди на выходные отдыхать).
  • Власти попросили BlaBlaCar приостановить все поездки. Это важно, потому что машины обеспечивают связность с теми мелкими населёнными пунктами, где нет автобусов-поездов-самолётов.
Читать дальше →
Всего голосов 37: ↑34 и ↓3+31
Комментарии28

Расчеты по банковским картам в торговле — создание открытого датасета и инфографики в Google Data Studio

Время на прочтение3 мин
Количество просмотров1.8K
Это моя первая публикация на Хабре. Я интересуюсь и отчасти практикую дата-журналистику и хотел бы поделится с вами инфографикой, иллюстрирующую расчеты по банковским картам в торговле. А также расшарить открытый датасет в Data.World, и рассказать о создании этого проекта.

Итак, итоговая инфографика:



Ссылка на тот же отчет в гораздо более интересном интерактивном виде
Ссылка на открытый датасет (требуется регистрация на Data.World).

Кстати, к сожалению, не удалось встроить отчет в публикацию на Хабре ни через iframe, ни через тег oembed.
Читать дальше →
Всего голосов 10: ↑8 и ↓2+6
Комментарии2

Распространение сферического коня в вакууме по территории РФ

Время на прочтение5 мин
Количество просмотров49K


Привет от ODS. Мы откликнулись на идею tutu.ru поработать с их датасетом пассажиропотока РФ. И если в посте Milfgard огромная таблица выводов и научпоп, то мы хотим рассказать что под капотом.


Что, опять очередной пост про COVID-19? Да, но нет. Нам это было интересно именно с точки зрения математических методов и работы с интересным набором данных. Прежде, чем вы увидите под катом красивые картинки и графики, я обязан сказать несколько вещей:


  • любое моделирование — это очень сложный процесс, внутри которого невероятное количество ЕСЛИ и ПРЕДПОЛОЖИМ. Мы о них расскажем.
  • те, кто работал над этой статьей — не эпидемиологи или вирусологи. Мы просто группа любителей теории графов, практикующих методы моделирования сложных систем. Забавно, но именно в биоинформатике сейчас происходит наиболее существенный прогресс этой узкой области математики. Поэтому мы понимаем язык биологов, хоть и не умеем правильно обосновывать эпидемиологические модели и делать медицинские заключения.
  • наша симуляция всего лишь распространение сферического коня в вакууме по территории РФ. Не стоит относиться к этому серьезно, но стоит задуматься об общей картине. Она определенно интересная.
  • эта статья не существовала бы без датасета tutu.ru, за что им огромное спасибо.
  • мы хотим пригласить других заинтересованных исследователей в ODS.ai и под инициативой ML for Social Good (канал #ml4sg в ODS) вместе улучшать эту модель, чтобы получить опыт и возможность применять ее в будущем. Все интересные задачи, которые мы еще не решили, будут помечены в статье как TODO.

Под катом — результаты нашего марш-броска на датасет.

Всего голосов 100: ↑89 и ↓11+78
Комментарии36

Теория цвета, контраст

Время на прочтение9 мин
Количество просмотров27K
Многие говорят, что цвет — это чисто субъективная вещь и в ней нет каких то правил или принципов. На самом же деле, как и в любой науке, здесь есть место и теории. Цвет помогает дополнить тот смысл и идею, которые вы хотите вложить в свою работу, и правильное его использование помогает сделать ваш продукт более заметным и профессионально выглядящим.

Многие исследователи занимались вопросами цвета, и одним из самых заметных, несомненно, был Иоханнес Иттен, автор книги «Искусство цвета». В своей работе автор рассматривает множество аспектов колористики: психологическое воздействие цвета, «вес» каждого оттенка, сочетание цвета и формы и многое другое.

Читать дальше →
Всего голосов 17: ↑17 и ↓0+17
Комментарии1

Ранжирование округов Москвы по стоимости аренды с Python

Время на прочтение10 мин
Количество просмотров7.3K
Сейчас программирование все глубже и глубже проникает во все сферы жизни. А возможно это стало благодаря очень популярному сейчас python’у. Если еще лет 5 назад для анализа данных приходилось использовать целый пакет различных инструментов: C# для выгрузки (или ручки), Excel, MatLab, SQL, и постоянно “прыгать” туда сюда вычищая, сверяя и выверяя данные. То сейчас python, благодаря огромному количеству прекрасных библиотек и модулей, в первом приближении благополучно заменяет все эти инструменты, а в связке с SQL так вообще “горы свернуть можно”.

Итак, к чему я. Увлеклась я изучением такого популярного python’а. А лучший способ изучить что-либо, как вы знаете, — практика. А еще я интересуюсь недвижимостью. И попалась мне на глаза интересная задачка о недвижимости в Москве: проранжировать округа Москвы по усредненной стоимости аренды средней однушки? Батюшки, я подумала, да тут вам и геолокация, и выгрузка с сайта, и анализ данных — прекрасная практическая задача.

Воодушевившись замечательными статьями тут на Хабре (в конце статьи добавлю ссылки), приступим!
Читать дальше
Всего голосов 11: ↑11 и ↓0+11
Комментарии2

7 лет хайпа нейросетей в графиках и вдохновляющие перспективы Deep Learning 2020-х

Время на прочтение14 мин
Количество просмотров34K


Новый год все ближе, скоро закончатся 2010-е годы, подарившие миру нашумевший ренессанс нейросетей. Мне не давала покоя и лишала сна простая мысль: «Как можно ретроспективно прикинуть скорость развития нейросетей?» Ибо «Тот, кто знает прошлое — тот знает и будущее». Как быстро «взлетали» разные алгоритмы? Как вообще можно оценить скорость прогресса в этой области и прикинуть скорость прогресса в следующем десятилетии? 



Понятно, что можно примерно посчитать количество статей по разным областям. Метод не идеальный, нужно учитывать подобласти, но в целом можно пробовать. Дарю идею, по Google Scholar (BatchNorm) это вполне реально! Можно считать новые датасеты, можно новые курсы. Ваш же покорный слуга, перебрав несколько вариантов, остановился на Google Trends (BatchNorm)

Мы с коллегами взяли запросы основных технологий ML/DL, например, Batch Normalization, как на картинке выше, точкой добавили дату публикации статьи и получили вполне себе график взлета популярности темы. Но не у всех тем путь усыпан розами взлет такой явный и красивый, как у батчнорма. Некоторые термины, например регуляризацию или skip connections, вообще не получилось построить из-за зашумленности данных. Но в целом тренды собрать удалось.

Кому интересно, что получилось — добро пожаловать под кат!
Читать дальше →
Всего голосов 100: ↑99 и ↓1+98
Комментарии50

Большое интервью про Big Data: зачем за нами следят в соцсетях и кто продает наши данные?

Время на прочтение24 мин
Количество просмотров38K
Disclaimer. Специалист по Big Data, Артур Хачуян, рассказал, как соцсети могут читать наши сообщения, как наш телефон нас подслушивает, и кому все это нужно. Эта статья — расшифровка большого интервью. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.



Каждый день мы что-то пишем, разыскиваем и выкладываем в интернете, и каждый день кто-то следит за нами по ту сторону экрана. Специальные программы сканируют фото, лайки и тексты, чтобы продать наши данные рекламным компаниям или полиции. Можно назвать это паранойей или научной фантастикой, но телефон, круг общения, переписка или ориентация — больше не секрет.
Всего голосов 48: ↑44 и ↓4+40
Комментарии59

Курс «Основы эффективной работы с технологиями Wolfram»: более 13 часов видеолекций, теория и задачи

Время на прочтение10 мин
Количество просмотров4.2K


Все документы курса можно скачать здесь.

Этот курс я прочел пару лет назад для довольно обширной аудитории. Он содержит очень много информации о том, как устроена система Mathematica, Wolfram Cloud и язык Wolfram Language.

Однако, конечно, время не стоит на месте и за последнее время появилось очень много нового: от продвинутых возможностей работы с нейросетями до всевозможных веб-операций; теперь есть Wolfram Engine, который можно поставить на свой сервер и обращаться к нему, как к Python; можно строить всяческие географические визуализации или химические; есть огромные хранилища всевозможных данных, в том числе по машинному обучению; можно подключаться ко всевозможным базам данных; решать сложнейшие математические задачи и пр.

Все возможности технологий Wolfram трудно перечислить за пару абзацев или несколько минут.
Все это сподвигло меня сделать новый курс, на который сейчас идет регистрация.
Уверен, открыв для себя возможности языка Wolfram Language, вы станете его использовать все чаще и чаще, решая свои задачи быстро и эффективно в самых разных областых: от науки до автоматизации дизайна или парсинга сайтов, от нейросетей до обработки иллюстраций, от визуализации молекул до построения мощных интерактивов.
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Алексей Савватеев: Модели интернета и социальных сетей

Время на прочтение8 мин
Количество просмотров13K
«Единственный смысл существование экономики — это воодушевление математиков на новые подвиги.»

image

В 2013 году Алексей Савватеев прочитал несколько лекций по моделям соцсетей и интернета. Я нашел эту тему очень любопытной и незаслуженно забытой. Попробуем разобраться в вопросе. А ещё мне интересно узнать, как изменилась ситуация с тех пор и какие полезные публикации есть в этой области.

И в интернете, и в биологии соцсети проявляют свойства, которые по отдельности описываются моделями, но все вместе — ставят в тупик современную математику. Савватеев утверждает, что «тот, кто с этим разберется получит Нобелевскую премию». Будущее будет зависеть от способности работать с сетями.

Ниже приводится скомпилированная выжимка из трёх видеозаписей лекций, само видео есть в конце. (Пост выглядит как набор слайдов с цитатами лектора, связать всё в единый и прилизанный текст у меня не хватает способностей к русскому языку и математике, но тема очень важная, поэтому хочу опубликовать.)
Всего голосов 33: ↑33 и ↓0+33
Комментарии21

Дискретная производная или Коротко о том, как суммировать ряды

Время на прочтение3 мин
Количество просмотров17K

Вступление


Бывало когда-нибудь такое, что вы хотите просуммировать какой-то бесконечный ряд, но не можете подобрать частичную сумму ряда? Вы все ещё не пользовались дискретной производной? Тогда мы идём к вам!

Определение


Дискретной производной последовательности $a_n$ назовем такую последовательность $\Delta a_n$, что для любых натуральных $n>1$ выполняется:

$\Delta a_n = a_n - a_{n-1}$



Рассмотрим примеры:

  • $a_n = 1\\ \Delta a_n = a_n - a_{n-1} = 1 - 1 = 0$

  • $a_n = n\\ \Delta a_n = a_n - a_{n-1} = n - (n - 1) = 1$

  • $a_n = n^2\\ a_n = n^2 - (n - 1)^2 = n^2 - (n^2 - 2n + 1) = 2n-1$

  • $a_n = n^3\\ \Delta{a_n} = n^3 - (n - 1)^3 = 3n^2 - 3n + 1$

  • $a_n = k^n\\ \Delta{a_n} = k^n - k^{n-1} = k^{n-1}(k-1)$


Ну, суть вы поняли. Чем-то напоминает производную функции, правда? Мы поняли как вычислять дискретные производные «простейших» последовательностей. Кхм, но что делать с суммой, разностью, произведением и частным последовательностей? У «обычной» производной есть некоторые правила дифференцирования. Давайте-ка придумаем для дискретной!
Читать дальше →
Всего голосов 28: ↑25 и ↓3+22
Комментарии6

Новые подходы к построению СКУД при использовании WEB-технологий

Время на прочтение4 мин
Количество просмотров4.5K
Развитие технологий оказало значительное влияние на архитектуру систем контроля доступа. Проследив путь ее развития, можно предсказать, что же ждет нас в ближайшем будущем.

Прошлое


Давным-давно компьютерные сети еще были большой редкостью. И тогдашние СКУД строились следующим образом: мастер — контроллер обслуживал ограниченное количество контроллеров, а компьютер выступал в роли терминала для его программирования и отображения информации. Логику работы определял мастер-контроллер, управляющий вторичными контроллерами.

Вторичные контроллеры не могли обмениваться информацией напрямую друг с другом, обмен происходил через мастер-контроллер. Такая модель накладывала значительные ограничения на развитие систем контроля доступа.


Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии5

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность