Articles / Bookmarks / Profile of rPman / Habr

How to become an author

User

ProfileArticles14Posts1NewsComments6.8K

marks Feb 2 2018 at 16:34

Отчёт Backblaze по надёжности HDD: статистика с 2013 по 2017 год

3 min

38K

Statistics in ITComputer hardware

Компания Backblaze начиная с 2013 года ведет статистику эксплуатации жестких дисков в своих дата-центрах. Специалисты следят, какие диски работают без отказов и сбоев в течение какого времени. Ведется также анализ надежности HDD разных производителей. В базу данных включают дату производства диска, производителя, модель, серийный номер, статус (рабочий ли диск или умерший), а также SMART-атрибуты, которые сообщает сам диск. К концу 2017 года в базе данных накопилось около 88 миллионов объектов. Размер БД составляет 23 ГБ. Загрузить ее можно с сайта компании — вот здесь.

В новом отчете указываются данные по эксплуатации HDD за 2017 году. На момент составления документа в дата-центрах компании работало 91 305 винчестеров. Отчет можно просмотреть за разные периоды времени, включая каждый квартал по отдельности или же информацию за целый год.

Читать дальше →

+33

Модульбанк corporate blog October 11 2017

Валютный контроль со счастливым финалом: сценарий для айтишника

Legislation in IT

Если вы планируете или уже получаете оплату в валюте, вам в любом случае предстоит валютный контроль. Мы не знаем, какая часть предпринимателей отказывается от работы с иностранными клиентами или работает по-черному, лишь бы не связываться с валютным контролем. Но кажется, что его не любят многие. Мы подготовили инструкцию, которая поможет вам разобраться с валютным контролем. Мы не будем рассказывать обо всех трудностях - проговорим только те, которые чаще встречаются в сфере IT.

Подробная инструкция – под катом.

+47

olegbunin Oct 14 2017 at 07:58

За счет чего Tarantool такой оптимальный

18 min

25K

Конференции Олега Бунина (Онтико) corporate blogSystem Programming*High performance*NoSQL*

Денис Аникин

Аникин Денис ( danikin, Mail.Ru)

Доклад будет посвящен Tarantool. Я всегда рассказывал про use case, про что-то такое, что видит пользователь. Сегодня буду больше рассказывать про внутренности.

Когда я первый раз увидел Tarantool, когда я узнал его бенчмарки, какая у него производительность, то мне это не то, чтобы показалось подозрительным, потому что все-таки я уже до этого программировал больше чем 10 лет и примерно понимал, что можно выжать из железа при оптимальном программировании, при оптимальном коде. Но все равно мне это показалось подозрительным — как так получается, что он такой быстрый? Т.е., условно, если все базы данных могут работать со скоростью в лучшем случае в десятки тысяч запросов в секунду, а Tarantool — до сотен тысяч и вплоть до миллиона.

Поэтому, прежде чем начать применять его в продакшне, в Почте mail.ru и в Облаке, я все очень внимательно изучил и выяснил, как Tarantool устроен внутри, и что его делает таким оптимальным. И я подозреваю, что, наверное, у других пользователей Tarantool тоже есть такое же подозрение — что-то он какой-то слишком быстрый, и как-то это подозрительно…

+47

randall Oct 6 2017 at 12:20

Топливо для ИИ: подборка открытых датасетов для машинного обучения

6 min

84K

VK corporate blogMachine learning*Open data*Programming*

Связанные проекты сообщества Open Data (проект Linked Open Data Cloud). Многие датасеты на этой диаграмме могут включать в себя данные, защищенные авторским правом, и они не упоминаются в данной статье

Если вы прямо сейчас не делаете свой ИИ, то другие будут делать его вместо вас для себя. Ничто более не мешает вам создать систему на основе машинного обучения. Есть открытая библиотека глубинного обучения TensorFlow, большое количество алгоритмов для обучения в библиотеке Torch, фреймворк для реализации распределенной обработки неструктурированных и слабоструктурированных данных Spark и множество других инструментов, облегчающих работу.

Добавьте к этому доступность больших вычислительных мощностей, и вы поймете, что для полного счастья не хватает лишь одного ингредиента — данных. Огромное количество данных находится в открытом доступе, однако непросто понять, на какие из открытых датасетов стоит обратить внимание, какие из них годятся для проверки идей, а какие могут быть полезны в качестве средства проверки потенциальных продуктов или их свойств до того, как вы накопите собственные проприетарные данные.

Мы разобрались в этом вопросе и собрали данные по датасетам, удовлетворяющим критериям открытости, востребованности, скорости работы и близости к реальным задачам.

Читать дальше →

+65

32bit_me Sep 19 2017 at 16:01

Обзор плат на SoC ARM+FPGA. Часть первая. Мир Xilinx

14 min

69K

Computer hardwareDIYElectronics for beginners

Часть 1. Мир Xilinx
Часть 2. Мир Intel (Altera)

В опубликованном ранее переводе обзора 98 «хакерских» плат немалый интерес аудитории вызвали платы на базе SoC, сочетающих в себе ядра ARM и FPGA, такие, как Parallella. И это неудивительно, ведь такая комбинация даёт воистину потрясающие возможности по сравнению с «просто» процессором или «просто» FPGA. На таких SoC можно строить системы, сочетающие в себе алгоритмичски сложные задачи, поддержку сетевых стеков, GUI и прочих вещей, проще поддающихся реализации на процессоре, и задачи, требующие жесткого реального времени, обработки сигналов, обработки изображений и другие задачи, для реализации которых удобны FPGA. Разумеется, для многих задач можно использовать простые FPGA (возможно, включив в них IP-ядро процессора типа NIOS II или MicroBlaze), многие задачи можно решить на процессоре достаточной мощности, используя операционные системы реального времени (типа RTEMS), но всё же, SoC являются в настоящее время очень привлекательным вариантом для решения множества задач, как в профессиональных областях, так и для хобби.

Осторожно, много картинок!

+37

randall Aug 24 2017 at 16:23

Популяризация науки: лекции российских ученых

7 min

34K

VK corporate blogPopular scienceProfessional literature*

В мире растет число фейковых новостей и все сложнее найти источник правдивой информации. Спрос на достоверность, качество и фактчекинг не пропал, но сложно подружить методологии проверки данных с новостями мейнстрима в эпоху, когда даже серьезные издания гонятся за кликбейтом. Изъеденные недочетами новости политики, экономики, спорта и других сфер начинают раздражать, а не привлекать внимание. Образуется информационный вакуум, заполнить который могут новости науки. Манипулировать научными данными не так интересно, как фактами в экономике и политике. Наука поддерживается прекрасной репутацией источников — например, не вызывает сомнений авторитетность журнала «Nature» или достоверность базы данных биотехнологической информации PubMed.

И все же между источником научных данных и читателем часто стоит фильтр, отвечающий за качество публикаций — журналист. Избавиться от прослойки можно лишь в том случае, если вы сразу получаете информацию от ученых. Так можно сделать, если подписаться на интересующих вас авторов. Они есть в соцсетях, но информация там не структурирована, а вот каналы с видеоконтентом — как личные, так и собранные обычными людьми, — это ценный источник адаптированных данных.

+39

gaploid Aug 4 2017 at 08:36

Поиск лучшего места в мире для ветряка

9 min

27K

Open data*Machine learning*Geoinformation services*Data Mining*Big Data*

История о том, как NASA, ESA, Датский Технологический Университет, нейронные сети, деревья решений и прочие хорошие люди помогли найти мне лучший бесплатный гектар на Дальнем Востоке, а также в Африке, Южной Америке и других “так себе” местах.

Читать дальше →

+83

SADKO Aug 19 2011 at 09:53

Реальная альтернатива nVidia 3Dvision или когда дёшево не значит плохо

5 min

19K

Computer hardware

Давным-давно, когда Pentium-мы были первыми, харды гигабайтными, а видеокарты PCI-йными. Купил я как-то себе на организацию замечательную видеокарточку GeForce в красивой коробочке, где кроме собственно карточки лежали ещё очки с ЖК затворами...

Читать дальше →

+24

Abyrvalgov Jul 17 2017 at 16:03

Электронная демократия или как собрать и обработать данные по голосованию (и явке) за реновацию в Москве

14 min

6.7K

Python*SQLite*Delirium coding

Стоило голосованию за вход или выход из программы реновации завершиться — и с сайта мэра Москвы почему-то пропали данные о явке по каждому конкретному дому, остались только голоса за и против в целом. В новостях, конечно, пишут некие цифры, но ведь хочется посмотреть их самому, поиграться со статистикой, построить графики, не правда ли?

Да и после заявлений типа:

Что касается популярности этих сервисов, то центры госуслуг «Мои документы» привлекли чуть больше половины всех проголосовавших, незначительно уступив порталу «Активный гражданин»

как-то возникают лёгкие сомнения. Так что — приступим к сбору информации! А потом будем её анализировать. Для этого нам понадобится какой-нибудь язык (скажем, питон), какая-нибудь бд (скажем, sqlite) и какой-нибудь веб-скраппер, благо для питона их множество. Сразу говорю, в конце дам ссылку на получившуюся базу данных, можно сделать с ней что угодно.

Читать дальше →

+28

PatientZero Jul 17 2017 at 06:41

Создание шейдеров

27 min

200K

WebGL*Image processing*Game development*

Translation

Освоить создание графических шейдеров — это значит взять под свой контроль всю мощь видепроцессора с его тысячами параллельно работающих ядер. При таком способе программирования требуется другой образ мышления, но раскрытие его потенциала стоит потраченных усилий.

Практически в любой современной графической симуляции используется код, написанный для видеопроцессора: от реалистичных эффектов освещения в высокотехнологичных AAA-играх до двухмерных эффектов постпроцессинга и симуляции жидкостей.

Сцена из Minecraft, до и после добавления нескольких шейдеров.

Задача этого туториала

Иногда программирование шейдеров представляется загадочной чёрной магией и его часто понимают неправильно. Существует множество примеров кода, демонстрирующих создание невероятных эффектов, но в которых практически нет объяснений. В своём руководстве я хочу восполнить этот пробел. Я сосредоточусь в основном на базовых принципах создания и понимания кода шейдеров, чтобы вы смогли с лёгкостью настраивать, сочетать или писать свои собственные шейдеры с нуля!

+105

32bit_me Jul 5 2017 at 16:52

Обзор 98 одноплатных компьютеров. Часть 1

14 min

138K

Computer hardwareDIYElectronics for beginners

Translation

Часть 1
Часть 2
Часть 3
Часть 4

От переводчика: Предлагаю вашему вниманию перевод отчёта по одноплатным компьютерам, который был опубликован на сайте LinuxGizmos.com. В отчёт включены краткие описания 98 плат стоимостью до 200 долларов. В отчёте такие платы называют «хакерскими», чтобы подчеркнуть их пригодность для различного творчества.
Так как объем информации весьма велик, я разбил перевод на несколько частей.

Также хочу предупредить, что под катом очень много картинок!

Итак, часть 1.

КДПВ

В течение последнего года, LinuxGizmos сообщал о дюжинах новых одноплатных компьютерах с открытыми спецификациями, дружественных к разработчикам и «хакерам», на которых можно запустить Linux и Android. Мы добавили их в наш каталог вместе со старыми платами. Платы, попавшие в наш обзор, стоят меньше 200 долларов без учёта пересылки, доступны для доставки в июле этого года, и удовлетворяют нашим (весьма гибким) критериям открытости.

Читать дальше →

+27

ruslan_z Jul 3 2017 at 07:19

Классификация текста с помощью нейронной сети на Java

12 min

81K

Java*Open source*Machine learning*Programming*Designing and refactoring*

Tutorial

– Наша Лена уходит в декрет, – сообщил начальник, – поэтому нам надо искать замену на время ее отсутствия. Часть задач мы распределим, а вот как быть с задачей перенаправления обращений пользователей?

Лена – это наш сотрудник технической поддержки. Одна из ее обязанностей – распределение поступающих на электронную почту обращений между специалистами. Она анализирует обращение и определяет ряд характеристик. Например, «Тип обращения»: ошибка системы, пользователю просто нужна консультация, пользователь хочет какую-то новую функциональность. Определяет «Функциональный модуль системы»: модуль бухгалтерии, модуль паспортизации оборудования и т.д. Проставив все эти характеристики, она перенаправляет обращение соответствующему специалисту.

– Давай я напишу программу, которая это будет делать автоматически! – ответил я.

На этом увлекательный роман заканчиваем и переходим к технической части.

Читать дальше →

+29

gobwas Jun 28 2017 at 10:03

Миллион WebSocket и Go

11 min

102K

VK corporate blogGo*High performance*Website development*

Привет всем! Меня зовут Сергей Камардин, я программист команды Почты Mail.Ru.

Это статья о том, как мы разработали высоконагруженный WebSocket-сервер на Go.

Если тема WebSocket вам близка, но Go — не совсем, надеюсь, статья все равно покажется вам интересной с точки зрения идей и приемов оптимизации.

Читать дальше →

+111

iphysic Jun 24 2017 at 13:04

Автоэнкодеры в Keras, Часть 3: Вариационные автоэнкодеры (VAE)

10 min

51K

Python*Algorithms*Mathematics*Machine learning*Image processing*

Tutorial

Содержание

Часть 1: Введение
Часть 2: Manifold learning и скрытые (latent) переменные
Часть 3: Вариационные автоэнкодеры (VAE)
Часть 4: Conditional VAE
Часть 5: GAN (Generative Adversarial Networks) и tensorflow
Часть 6: VAE + GAN

В прошлой части мы уже обсуждали, что такое скрытые переменные, взглянули на их распределение, а также поняли, что из распределения скрытых переменных в обычных автоэнкодерах сложно генерировать новые объекты. Для того чтобы можно было генерировать новые объекты, пространство скрытых переменных (latent variables) должно быть предсказуемым.

Вариационные автоэнкодеры (Variational Autoencoders) — это автоэнкодеры, которые учатся отображать объекты в заданное скрытое пространство и, соответственно, сэмплить из него. Поэтому вариационные автоэнкодеры относят также к семейству генеративных моделей.

Читать дальше →

+46

phgrey May 25 2017 at 14:25

Чек-лист по выживанию сайта

11 min

43K

MySQL*Programming*Website development*

В последнее время я как-то подозрительно часто наблюдаю примитивнейшие однотипные и довольно легко решаемые проблемы на самых разных web-проектах. Разные базы, разные языки, разные сферы деятельности и схемы монетизации. Всех их объединяет одно — лозунг «бизнес не дает переписать». Продолжающийся или только-только оконченный этап рапид-разработки растущего и агрессивно отжимающего у конкурентов долю рынка проекта родил огромную кучу т.н. «говнокода». Сомнительные архитектурные решения либо уже приносят кучу проблем, либо обещают их в будущем, но работают. Поток новых требований не дает времени навести порядок даже в инфраструктуре, не говоря уже о коде. Если вам такая ситуация знакома — добро пожаловать под кат поностальгировать, поучиться чему-то новому и/или поучить нас. Кому поржать, а кому и поплакать.

«Это все только для хайлода» — скажет вдумчивый и прозорливый читатель. Плох тот веб-проект, который не мечтает стать популярным хайлодом.

Читать дальше →

+62

1cloud May 25 2017 at 15:25

Intel открывает доступ к clDNN [высокопроизводительной библиотеке для глубокого обучения]

2 min

8.4K

1cloud.ru corporate blogOpen source*High performance*Machine learning*Programming*

Официальный репозиторий проекта был запущен буквально пару дней назад. Расскажем немного подробнее об этой новости и приведем полезные источники по теме.

Читать дальше →

+19

tokamame May 15 2017 at 04:26

Неочевидные вещи при старте разработки под Android под Windows 7

2 min

21K

ReactJS*Development for Android*

Добрый день, друзья! Захотелось мне изучить react native под Windows7 64. На мою беду, у меня процессор AMD, который не поддерживает VT-x or SVM.

В результате гугления выяснилось, что нужно в биосе активировать виртуализацию, причём в моём случае это сработало с N-ного раза, естественно каждый раз после изменения параметра значение в биосе сохранялось и всё перезапускалось.

Читать дальше →

+4

mahnunchik May 12 2017 at 14:02

Подборка штук на основе искусственного интеллекта для личного использования (1/3)

8 min

38K

Dato ML corporate blogMachine learning*

Translation

Искусственный интеллект и четвёртая промышленная революция (wiki) достигли значительного прогресса за последние несколько лет. Большинство из того, что можно использовать уже сейчас, разрабатывается для коммерческих и промышленных целей, как вы увидите в следующих постах. Научно-исследовательские институты и специализированные компании работают над достижением конечной цели создания ИИ (а именно, создание сильного искусственного интеллекта artificial general intelligence), разрабатывая открытые платформы и исследуя появившиеся этические вопросы. Существуют также несколько компаний, разрабатывающих ИИ-продукты для конечных потребителей, их мы и рассмотрим в рамках этого поста.

Создание искусственного интеллекта — это как взбираться на дерево, пытаясь добраться до Луны. Можно сообщать о стабильном прогрессе, вплоть до самой вершины дерева.

Читать дальше →

+26

pustota_2009 May 7 2017 at 18:04

Модель сланцевого бассейна Permian

3 min

15K

Energy and batteries

Многие думают, что все зависит от решений вашингтонского обкома, но это конечно же чушь, наши судьбы находятся в мозолистых лапах суровых ~~челябинских~~ техасских нефтедобытчиков. Ибо в Техассе находится крупнейшей сланцевый бассейн Permian, разработка которого теоретически способна вогнать цену барреля на уровень царства Аида, превратив рассказы россиян успевших побывать в Турции в легенды эпикурейцев.

Чтобы ответить на вопрос, что же будет с баррелем и с нами, необходимо построить модель месторождения, что позволит рассчитать потенциальные объемы добычи при тех или иных условиях. В качестве основы можно взять данные Drilling Productivity Report (DPR), однако тут есть ряд проблем, которые налагают существенные ограничения на возможности прогнозирования.

Для начала стоит понять, что кажущиеся гладенькими линии такого ключевого показателя как «Продукция с одной буровой за первый месяц» указаны с точностью не большей, чем ответ первоклашки о смысле жизни в рамках концепции трансгуманизма. Если у вас есть привычка просыпаться по ночам, выпивать кефир и регулярно скачивать отчеты DPR, то просматривая их вы можете заметить, что разница между изначальной оценкой и уточнением через год может достигать 34% и еще значительно меняться даже после этого:

Читать дальше →

+16

Meklon Apr 27 2017 at 09:17

DIY порошок для посудомойки: как не растворить посуду и не повторить моих ошибок. Год экспериментов

9 min

109K

DIYLifehacks for geeksChemistry

Предыдущие публикации:

→ Пудра для мозга или как сделать порошок для посудомойки в 9,7 раз дешевле
→ DIY порошок для посудомойки: разбираем промышленные средства и улучшаем рецепт

Прошло уже больше года с момента последней публикации из серии домашней алхимии, посвященной ~~издевательствам над бытовой техникой~~ производству порошка для посудомойки в домашних условиях. Я все еще жив. Большинство тестировавших жуткие смеси, насколько мне известно, живы. В этом посте я хотел рассказать как правильно мыть ржавые гвозди в посудомойке, не растворяется ли картошка с укропом и подвести итог экспериментов за год.

Читать дальше →

+116

1 2 ...

10

11 12 ...