Статьи / Закладки / Профиль i

Илья Шутов@i_shutov

Data Science

ПрофильСтатьи77ПостыНовостиКомментарии470

@PatientZero 17 мая 2019 в 04:59

Чем быстрее вы забудете ООП, тем лучше для вас и ваших программ

7 мин

224K

ООП * Программирование * Качество кода *

Перевод

Объектно-ориентированное программирование — чрезвычайно плохая идея, которая могла возникнуть только в Калифорнии.

— Эдсгер Вибе Дейкстра

Возможно, это только мои ощущения, но объектно-ориентированное программирование кажется стандартной, самой распространённой парадигмой проектирования ПО. Именно его обычно преподают студентам, объясняют в онлайн-туториалах и, по какой-то причине, спонтанно применяют даже тогда, когда не собирались этого делать.

Я знаю, насколько она привлекательна, и какой замечательной кажется эта идея на поверхности. На разрушение её чар у меня ушли многие годы, и теперь я понимаю, насколько она ужасна, и почему. Благодаря этой точке зрения у меня есть чёткая уверенность в том, что люди должны осознать ошибочность ООП и знать решения, которые можно использовать вместо него.

Многие люди и раньше обсуждали проблемы ООП, и в конце этого поста я приведу список своих любимых статей и видео. Но прежде я хочу поделиться собственным взглядом.

Читать дальше →

+65

1280

@SLY_G 16 мар 2022 в 21:27

Как устроена экосистема полупроводниковой индустрии

8 мин

62K

Производство и разработка электроники *

Перевод

В прошлом году выходило много статей на темы, связанные с полупроводниковой индустрией: нехватка чипов, американский закон CHIPS, зависимость от Тайваня и TSMC, роль Китая, и т.д.

Несмотря на весь этот поток информации, мало кто понимает структуру этой индустрии. Для меня лучшим способом разобраться в чём-то сложном стало пошаговое построение диаграмм, описывающих нужную область знаний. Представляю вам небольшой обучающий материал в картинках о том, как работает индустрия.

Экосистема полупроводниковой индустрии

На наших глазах абсолютно всё переходит в цифровой вид. Полупроводниковые устройства – чипы, обрабатывающие цифровую информацию – проникли почти всюду. Они в компьютерах, автомобилях, бытовой технике, медицинском оборудовании, и т.п. В этом году компании из полупроводниковой индустрии планируют продать чипов на $600 млрд.

Читать дальше →

+74

@istishev 18 сен 2020 в 13:29

ARM против x86: В чем разница между двумя архитектурами процессоров?

6 мин

314K

Блог компании Droider.RuНоутбукиПрограммирование * ПроцессорыСмартфоны

Вы наверняка знаете, что мир процессоров разбит на два лагеря. Если вы смотрите это видео со смартфона, то для вас работает процессор на архитектуре ARM, а если с ноутбука, для вас трудится чип на архитектуре x86.

А теперь еще и Apple объявила, что переводит свои Mac на собственные процессоры Apple Silicon на архитектуре ARM. Мы уже рассказывали, почему так происходит. А сегодня давайте подробно разберемся, в чем принципиальные отличия x86 и ARM. И зачем Apple в это все вписалась?

Итак, большинство мобильных устройств, iPhone и Android'ы работают на ARM'е. Qualcomm, HUAWEI Kirin, Samsung Exynos и Apple A13/A14 Bionic — это все ARM-процессоры.

А вот на компьютере не так — там доминирует x86 под крылом Intel и AMD. Именно поэтому на телефоне мы не можем запустить Word с компьютера.

+32

197

@Siarshai 27 июл 2017 в 06:55

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

16 мин

55K

Data Mining * Математика * Машинное обучение *

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →

+18

@3Dvideo 28 дек 2021 в 08:40

О русской науке замолвите слово или за что я люблю Тинькофф, часть 1

34 мин

66K

Программирование * Научно-популярноеКарьера в IT-индустрииИскусственный интеллектАлгоритмы *

Технотекст 2021

Так сложилось, что я уже много лет руковожу научной группой, а с недавних пор лабораторией в МГУ. При этом львиная доля финансирования нашей лаборатории идет от компаний. Изначально она была создана в рамках контракта с Intel (совместная лаборатория), а позднее мы очень активно работали ещё и с RealNetworks (20+ проектов), Samsung (совместная лаборатория), Cisco, Huawei (до 5 контрактов параллельно) и другими. И так получилось, что большая часть наших контрактов (примерно 95% по количеству и 99% по деньгам) приходилась на иностранные компании, при этом взаимодействие с российскими компаниями в среднем заметно контрастировало.

Моим наилучшим примером отношения русских компаний к университетам является любимый пример Олега Тинькова из его книги:

«Третий пример, мой любимый. Весной 2011 года я выступал на мехмате МГУ и с присущим мне эпатажем заявил: «Что такое фундаментальная наука. Ходить грязным, вонючим и в итоге стать нобелевским лауреатом? Так вот, это все булшит! Зарабатывайте деньги. Не думайте про фундаментальную науку, потому что это отстой».
Олег Тиньков, «Революция. Как построить крупнейший онлайн банк в мире»

С Тиньковым есть, о чем поспорить. Например, Нобелевская премия за достижения в области математики не присуждается, а присуждаются Филдсовская и Абелевская премии. Впрочем, Тиньков этого мог и не знать. Важнее, что он явно приводил этот пример много раз, и в книге он дан в главе про найм специалистов.

Меня периодически спрашивают друзья из компаний: «Как там наука? Поднялась с колен? Я слышал — ситуация получше стала». Кому интересно, ~~как Тиньков развалил мехмат~~ что происходит в науке в разрезе работы с компаниями (этюды в багровых тонах, вечерние зарисовки из окопа автора) — добро пожаловать под кат!

Читать дальше →

+150

352

@Ananiev_Genrih 26 дек 2021 в 13:38

Утиные истории со стрелами на паркете

9 мин

6.6K

R * Data Engineering * Python *

Обзор

Сказ про то как Apache Arrow к уткам по паркету ходил.

@dmitriyrudnev 6 дек 2021 в 09:00

Режимы работы выходных каскадов ламповых усилителей

8 мин

37K

Блог компании RUVDS.comСтарое железоСхемотехника * Электроника для начинающих

Схемотехника ламповых усилителей обманчиво проста. Каждый каскад состоит всего из нескольких компонентов: собственно лампы, двух-трёх-четырёх резисторов и пары-тройки конденсаторов. Выходной каскад лампового усилителя может быть однотактным (SE) и двухтактным (PP) и обычно содержит трансформатор.

В этой публикации мы рассмотрим особенности работы однотактных и двухтактных выходных каскадов, узнаем о режимах работы ламп и обсудим применение мощных триодов в однотактных выходных каскадах ламповых усилителей.

Читать дальше →

+57

@Efaldgent 8 ноя 2018 в 11:00

Совмещение R и Python: зачем, когда и как?

16 мин

36K

Блог компании Open Data ScienceBig Data * Data Mining * Python * R *

Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов?

Давайте попробуем разобраться в этих вопросах.

Читать дальше →

+36

@volodya_research 18 сен 2021 в 23:52

Q-Q Plots. От чайника до профессионала за один гайд

8 мин

67K

Визуализация данных * Статистика в IT

Туториал

Как понять, что выборка данных принадлежит определенному распределению? Есть 2 метода: аналитический тест Колмогорова-Смирнова (тест Шапиро-Уилка для нормального) и графический метод при помощи графика квантиль-квантиль плот.

Чем так замечателен второй вариант? Он позволяет делать выводы, не основываясь на таких спорных показателях как p.value .

Графический метод является мощнейшим инструментом анализа, но как сказано в англоязычной статье википедии про Q-Q Plots, требует серьезных навыков для интерпретации. В данной статье я представляю дорожную карту пути к пониманию квантильных графиков.

@Oxyd 14 июл 2021 в 09:01

Айтишный дауншифтинг, стремление к минимализму и простоте

9 мин

37K

Блог компании RUVDS.comIT-стандарты * Читальный зал

Astrobotany

Современные IT чрезвычайно сложные, если не сказать переусложнённые, по своему устройству. Особенно это касается web. Фреймворки, grpc, Python/Go/JS/TS/Web Assembly etc, HTML5, CSS, Docker, Kubernetes и далее в бесконечность. Плюс современные методологии разработки ПО, типа Agile и иже с ними, заставляют выкатывать продукты в прод как можно быстрее, да ещё и так чтобы продукт понравился пользователю (то есть это наличие всяческих bells & whistles, чтобы заманить пользователя и прочих «плюшек» которые красиво выглядят, но жрут ресурсы как не в себя). Большинство плюёт на оптимизацию и вполне нормальным считается когда веб страничка весит мегабайты. А браузеры, которые должны всё это отображать, являются самыми тяжёлыми приложениями в ОС.

Всё вышеописанное может быть не так заметно, точнее не так осознаваемо людьми далёкими от айти, но, как ни странно, это начало раздражать самих айтишников. Программистов, админов, девопсов, да и просто людей, для которых компьютеры, электроника это хобби. И в результате, особенно в последнее время, стали происходить странные, на первый взгляд, вещи. Айтишники начали уходить в «андеграунд». По крайней мере в своих личных проектах. Как?

Сейчас посмотрим...

+75

@ru_vds 6 июн 2020 в 17:00

Как обработать датафрейм с миллиардами записей за считанные секунды?

4 мин

20K

Блог компании RUVDS.comPython * Веб-разработка *

Перевод

Анализ больших данных в Python переживает эпоху возрождения. Она началась с библиотеки NumPy. Эта библиотека, кстати, является одной из составных частей тех инструментов, о которых пойдёт речь в этом материале. В 2006 году тема обработки больших данных постепенно набирала обороты, этот процесс ускорился с появлением Hadoop. Потом появилась библиотека pandas со своими структурами данных DataFrame, которые обычно называют просто «датафреймами». В 2014 году большие данные стали мейнстримом, в этом же году появилась платформа Apache Spark. В 2018 году вышла библиотека Dask и другие средства для анализа данных в Python.

Каждый месяц мне попадаются новые инструменты для анализа данных в Python, которые мне очень хочется освоить. Потратив час-другой на их изучение, можно, в долгосрочной перспективе, сэкономить немало времени. Кроме того, важно следить за тем новым, что происходит в интересующей тебя сфере технологий. Возможно, вы полагаете, что эта статья будет посвящена библиотеке Dask. Но это не так. Сегодня я расскажу вам об одной недавно обнаруженной мной Python-библиотеке, о которой стоит знать тем, кто занимается анализом данных.

Читать дальше →

+34

@kxx 5 фев 2016 в 01:02

Как уменьшить количество измерений и извлечь из этого пользу

10 мин

58K

Программирование * Машинное обучение * R * Data Mining * Big Data *

Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.

Читать дальше →

+24

@Holmogorov 5 апр 2021 в 13:10

Листая старые подшивки. Взгляд изнутри на компьютерную прессу 90-х

13 мин

32K

Блог компании RUVDS.comИстория ITЧитальный зал

Российские девяностые принято считать лихим периодом зарождения дикого капитализма. Это было время острого дефицита и безудержного роста цен, бандитских разборок и «новых русских» в малиновых пиджаках, стихийной уличной торговли и появления первых дорогих бутиков. Населению стали доступны более-менее современные персональные компьютеры, а вместе с ними наступила эпоха расцвета компьютерной прессы. Мне повезло: я очутился на самом гребне этой волны, захлестнувшей, подобно цунами, все постсоветское пространство. Сейчас остается только с ностальгией вспоминать, как мы отчаянно отжигали 26 лет назад, почувствовав свежее дыхание истинной свободы слова и прессы — ощущавшейся даже в пыльных редакциях компьютерных журналов и газет. За многие вещи, которые мы без зазрения совести творили тогда, в наши дни нам бы уж точно не поздоровилось. Но в девяностые было можно. И мы этим с удовольствием пользовались.

Читать дальше →

+122

130

@chemtech 17 фев 2020 в 07:34

Go vs Python. Виталий Левченко

15 мин

63K

DevOps * Go * Python * Программирование * Системное программирование *

Предлагаю ознакомиться с расшифровкой доклада Виталия Левченко Go vs Python

Go — волшебное слово, решение всех проблем продакшна разом и одновременно негодная технология без эксепшнов. Истина посередине, поэтому поговорим о конкретных примерах:

asyncio vs горутины;
производительность узких мест;
лаконичность vs простота кода;
порог входа;
тулинг и паттерны поиска проблем и оптимизации производительности;
обслуживание в продакшне.

Читать дальше →

+14

@alatobol 6 мар 2018 в 21:09

Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

11 мин

44K

Блог компании ОКОбработка изображений * Машинное обучение * Data Mining * Big Data *

Распознаванием лиц в 2018 году никого не удивишь – каждый студент, может, даже школьник, его делал. Но всё становится немного сложнее, когда у вас не датасет на 1 млн пользователей, а:

330 миллионов пользовательских аккаунтов;
ежедневно заливается 20 млн пользовательских фотографий;
максимальное время на обработку одного фото не должно превышать 0.2 сек;
ограниченные объемы оборудования для решения задачи.

В этой статье мы поделимся опытом разработки и запуска системы распознавания лиц на пользовательских фотографиях в социальной сети Одноклассники и расскажем про все ”от А до Я”:

математический аппарат;
техническую реализацию;
результаты запуска;
и акцию StarFace, которую мы использовали для PR-а нашего решения.

Распознавание лиц Одноклассников в деталях

+58

@ruvds 23 мая 2020 в 11:16

Как не пополнить ряды стремных специалистов, если ты Data Scientist

18 мин

24K

Блог компании RUVDS.comКарьера в IT-индустрииИнтервьюData Engineering * Big Data *

Хабра-сообщество провело еще одно интервью в нашем образовательном проекте: прямых эфирах c ребятами из IT, которые отвечают на ваши вопросы в формате живого общения.

Наш проект — попытка создать полноценный набор гайдов и рекомендаций для успешной жизни разработчика: как построить карьеру, получить оффер мечты, привлечь инвестиции в стартап, не тухнуть на скучных проектах, вырасти в своем деле и по пути купить домик у моря.

В начале недели наши вопросы отвечал Борис Янгель — ML-инженер Яндекса, который участвовал в создании мозгов «Алисы», а теперь делает беспилотные автомобили.

Боря рассказал о том, как стать крутым Data-Scientist, как парашютный спорт помогает ему в работе, почему конференции по ML бесполезны и ответил на недавний пост разгневанного отца про то, как Алиса рекомендовала видео с историями убийств ребенку.

+41

@vikodin 17 ноя 2014 в 20:21

Решение задач на определение фальшивой монеты взвешиванием 2.0

3 мин

235K

Алгоритмы *

Сегодня я снова хочу вернуться к теме о задаче нахождении фальшивой монеты методом взвешивания на весах без циферблата.

Наиболее распространенные из таких задач — определение количества взвешиваний для выявления фальшивой монеты, если:

1) неизвестно какая она по весу;
2) известно, что она легче/тяжелее остальных.

Или обратная задача: можно ли за определенное количество взвешиваний выявить фальшивую из заданного количества монет.

Подробности

+16

@nalgeon 17 мар 2021 в 09:32

SQLite — не игрушка

7 мин

91K

Программирование * SQL * SQLite *

Рассказываю, почему SQLite отлично подойдет вам в повседневной работе. И неважно, разработчик вы, аналитик, тестировщик, админ или продакт-менеджер.

+233

@proto_group 9 дек 2020 в 14:23

Выявление аномалий в микросервисной архитектуре — обзор инструментов для DevOps и SRE

7 мин

8.7K

Блог компании ProtoDevOps * Микросервисы * Веб-разработка * Системное администрирование *

Всем привет. Сегодня мы хотели бы поговорить про выявления аномалий в микросервисной среде. Данный пост является краткой выжимкой нашего 40 минутного доклада, который мы делали на онлайн конференции DevOps Live 2020 и, чтобы не писать лонгрид, мы решили сфокусироваться на обзоре инструментов выявления аномалий в распределении значений метрик для автоматизации мониторинга микросервисов, которые возможно быстро начать использовать любой команде.

Тема детектирования аномалий сейчас очень актуальна, так как с переходом на микросервисы для SRE и DevOps приоритет задач, связанных с преобразованием алертов в осмысленный сигнал, снижением MTTD и упрощением настройки алертов в мониторинге распределенных сред значительно повысился.

Читать дальше →

@nin-jin 8 янв 2021 в 08:58

MarkedText — маркдаун здорового человека

10 мин

44K

Usability * HTML * Проектирование и рефакторинг * Качество кода * Семантические сети *

Здравствуйте, меня зовут Дмитрий Карловский и все свои статьи (и презентации) пишу я в MarkDown разметке. И знаете что? Она уже порядочно меня подзаелозила! Тексты я пишу на русском, но большая часть спецсимволов есть только в английской раскладке клавиатуры. А редактирование таблиц - это вечная пизанская башня из вертикальных линий. Короче, есть у него проблемы как с удобством редактирования, так и с наглядностью представления. Так что давайте попробуем спроектировать его с нуля, не таща за собой килотонны головоломных конструкций.

Поехали..

+50

155

1 2 ...

5 6