Articles / Bookmarks / Profile of DaylightIsBurning / Habr

How to become an author

@DaylightIsBurning

User

ProfileArticles1PostsNewsComments2.6K

boygenius Nov 29 2021 at 11:13

Обзор архитектуры AlphaFold 2

39 min

8.3K

Open Data Science corporate blogAlgorithms*Artificial IntelligenceBiotechnologiesMachine learning*

В данном обзоре мы подробно рассмотрим нейронную сеть AlphaFold 2 от компании DeepMind, с помощью которой недавно был совершен прорыв в одной из важных задач биологии и медицины: определении трехмерной структуры белка по его аминокислотной последовательности.

В первых трех разделах обзора описывается задача, формат входных данных и общая архитектура AlphaFold 2. Далее, начиная с раздела «Input feature embeddings», описываются детали архитектуры. В разделе «Резюме» кратко суммируется основная информация из обзора.

Читать далее

+52

LuchS-lynx Sep 6 2021 at 12:53

Проброс видеокарты в ноутбуке. Laptop GPU Passthrough

10 min

24K

Video cardsVirtualization*Configuring Linux*LaptopsSystem administration*

Tutorial

Technotext 2021

… или как из игрового ноутбука средствами виртуализации сохранить игровую систему!
Если Вы рассматриваете ноутбук/ПК не только как игровую станцию, а еще и как хост для виртуальных машин, но при этом иногда нужно поиграть/поработать с 3d, то это возможно!

Добро пожаловать под cut.

Читать дальше →

+22

skillfactory_school Nov 5 2020 at 13:36

21 канал на YouTube, где вы можете бесплатно изучить ИИ, машинное обучение и Data Science

5 min

28K

Skillfactory corporate blogData Engineering*Python*Artificial IntelligenceMachine learning*

Translation

Мы уже не раз делились в своем блоге полезными материалами для развития (их список можно найти в конце этого поста). Сегодня продолжаем это начинание и специально перед стартом новых потоков курсов по Data Analytics и Data Science представляем подборку YT-каналов по Data Science, искусственному интеллекту и машинному обучению, существование многих из которых неочевидно: например, представлен канал ArXiv Insights, посвящённый научным работам, и Google Cloud Platform.

Приятного чтения!

+16

ru_vds Sep 19 2020 at 13:16

Программисту. 10 ценных GitHub-репозиториев

3 min

46K

RUVDS.com corporate blogGitHub*Programming*Website development*

Translation

GitHub — это платформа, дающая программистам отличные инструменты для организации работы над кодом. Но в GitHub-репозиториях, помимо кода, можно найти массу ценных учебных материалов. Я, например, занимаюсь разработкой ПО и постоянно ищу репозитории, которые могут чем-то мне пригодиться. Вот 10 моих любимых GitHub-проектов.

Читать дальше →

+37

lucky_rydar Aug 15 2020 at 13:26

Boost.Compute или параллельные вычисления на GPU/CPU. Часть 1

4 min

8.5K

Tutorial

Вступление

Привет, Хабр!

По моим меркам я уже достаточно давно пишу код на C++, но до этого времени ещё не сталкивался с задачами, связанными с параллельными вычислениями. Я не увидел ни одной статьи о библиотеке Boost.Compute, поэтому эта статья будет именно о ней.

Читать дальше →

+10

pxeno Aug 12 2020 at 15:00

5 алгоритмов регрессии в машинном обучении, о которых вам следует знать

7 min

48K

VK corporate blogAlgorithms*Machine learning*

Translation

Источник: Vecteezy

Да, линейная регрессия не единственная

Быстренько назовите пять алгоритмов машинного обучения.

Вряд ли вы назовете много алгоритмов регрессии. В конце концов, единственным широко распространенным алгоритмом регрессии является линейная регрессия, главным образом из-за ее простоты. Однако линейная регрессия часто неприменима к реальным данным из-за слишком ограниченных возможностей и ограниченной свободы маневра. Ее часто используют только в качестве базовой модели для оценки и сравнения с новыми подходами в исследованиях.

Команда Mail.ru Cloud Solutions перевела статью, автор которой описывает 5 алгоритмов регрессии. Их стоит иметь в своем наборе инструментов наряду с популярными алгоритмами классификации, такими как SVM, дерево решений и нейронные сети.

Читать дальше →

+29

Bombaaste Aug 5 2020 at 12:56

Первые практические шаги в искусственном интеллекте для молодого специалиста

1 min

2.5K

IBM corporate blogCloud services*Artificial Intelligence

Здравствуйте, друзья!

Компания IBM предлагает вам поучаствовать в онлайн вебинаре.

6 августа (четверг)

Буквально за полтора часа у вас появится возможность разобраться в интересующих вас вопросах для дальнейшего создания собственных проектов.

13:00 Александр Гаврин, Solution IT Architect.
Мастер-класс по созданию чат-бота с подключением к телеграмму.
13:45 Александр Халиков, Технический эксперт IBM Automation.
Бизнес-логика в IBM Cloud Pak for Automation и как с ней работать

Описание
Как строить бизнес-логику без кода, развернуть приложение IBM Cloud Pak for Automation с нуля в облаке и подключить к нему ваши сервисы

Регистрация в облаке -
Вебинар

+2

skillfactory_school Jul 6 2020 at 14:02

Использование C и C++ в Data Science для новичков

11 min

24K

Skillfactory corporate blogStudying in ITProgramming*C++*C*

Translation

Решим классическую задачу Data Science на C99 и C++11.

В то время как такие языки как Python и R становятся все более популярными для науки о данных, C и C++ могут быть сильным выбором для эффективного решения задач в Data Science. В этой статье мы будем использовать C99 и C++11 для написания программы, работающей с квартетом Энскомба, о котором я расскажу далее.

О своей мотивации к постоянному изучению языков я написал в статье, посвященной Python и GNU Octave, которую стоит прочитать. Все программы предназначены для командной строки, а не для графического интерфейса пользователя (GUI). Полные примеры доступны в репозитории polyglot_fit.

Задача по программированию

Программа, которую вы напишете в этой серии:

Считывает данные из CSV-файла
Интерполирует данные прямой линией (т.е., f(x)=m ⋅ x + q).
Записывает результат в файл изображения

Читать дальше →

+3

Vszlo93 Jul 3 2020 at 16:27

9 ключевых алгоритмов машинного обучения простым языком

15 min

96K

Machine learning*Algorithms*Big Data*

Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.

Читать дальше →

+12

azTotMD Jun 26 2020 at 11:27

Перенос молекулярной динамики на CUDA. Часть I: Основы

22 min

8K

ChemistryPhysicsConcurrent computing*Popular science

Цель данной статьи – поднять вопросы распараллеливания кода программы для численного моделирования методом молекулярной динамики (МД) с помощью технологии CUDA. Зачем это вообще нужно, ведь уже существуют программные пакеты по МД, работающие в том числе и на CUDA? Дело в том, что я развиваю свою собственную концепцию «непостоянного поля сил» (non-constant force field), которая не реализована в существующих МД-программах.

Переделывать чужой код под эти нужды – довольно неблагодарное занятие, поэтому я взялся перенести уже написанный свой последовательный код и заодно поделится некоторыми размышлениями. Кроме того, это ответ на часто мелькающий здесь комментарий к статьям по CUDA, вроде этого .

Итак, что же такое молекулярная динамика? На Хабре уже есть несколько постов на эту тему, например здесь или вот здесь. Кратко, МД – это метод, позволяющий моделировать движение множества частиц (в том числе атомов, ионов, молекул) и рассчитывать коллективные свойства системы, зависящие от этого движения. Как это работает? Допустим для множества из N частиц заданы некоторые начальные координаты, скорости, массы и (главное!) законы взаимодействия между ними. Изменяем координаты согласно скоростям. На основе законов взаимодействия вычисляем силы, действующие между частицами. Раз знаем силу и массу – знаем ускорение. Поправляем скорость с учетом ускорения. И снова переходим к изменению координат. И так повторяем тысячи раз, пока ~~не надоест~~ не наберем достаточную статистику.

+29

skillfactory_school Jun 22 2020 at 08:30

Data Science «на пальцах». Статистика — это наука менять свой взгляд на вещи в условиях неопределенности

8 min

8.4K

Skillfactory corporate blogStudying in ITPopular scienceMathematics*

Translation

Сотрудница Google объясняет статистику «на пальцах» для «гуманитариев», которые хотят стать Data Scientists.

Что такое статистика? Какой-то устаревший способ погрязнуть в данных. Ага. На 100% технически правильное определение. Теперь давайте посмотрим, что есть статистика как дисциплина.

Статистика — это наука о том, как менять свои представления.

Принимать решения, основываясь на фактах (параметрах), и так достаточно сложно, но — проклятие! — иногда у нас даже фактов нужных нет. Вместо этого то, что мы знаем (выборка), отличается от того, что мы хотели бы знать (совокупность). Вот что значит попасть в неопределенность.

Статистика — это наука о том, как менять свои решения в условиях неопределенности. Как вы можете думать? Выбирать действия по умолчанию или следовать по пути априорных убеждений. Но что делать, если у вас в голове чистый лист? Почитайте лучше это.

Байесианцы меняют свое мнение насчет представлений.

Байесовская статистика — это школа мысли, которая использует данные, чтобы обновить ваше представление. Байесианцы предпочитают сообщать результаты, используя доверительный интервал (два числа, которые интерпретируются как “Я считаю, что ответ находится где-то между этим и этим”).

Читать дальше →

0

PetrPavlovich May 19 2020 at 13:15

3 ловушки, в которые попадают начинающие Data Scientists

5 min

9.9K

OTUS corporate blogBig Data*Mathematics*

Вот что может случиться, если плохо знаешь математику.

Привет! Это Петр Лукьянченко, автор и руководитель онлайн-курсов «Математика для Data Science» в OTUS. Мы на занятиях любим все иллюстрировать кейсами, поэтому здесь тоже каждую проблему, с которой сталкиваются новички, буду начинать с примера.

История №1. Однажды, когда я еще работал тимлидом в отделе аналитики в Ламоде, мне показали выкладку, сделанную стажером. Он взял данные о том, сколько времени пользователь двигает мышкой в онлайн-магазине, и количество товаров, которые тот покупает. И построил между ними зависимость, где корреляция достигала почти 0,95. Проще говоря, он «доказал», что чем больше человек двигает мышкой, тем больше покупает. Обрадовавшись такому открытию, ребята сразу предложили модифицировать сайт магазина, чтобы заставить пользователей проводить больше времени, перемещая мышку, в расчете тем самым повысить продажи.

Что произошло и кому верить — цифрам или здравому смыслу, который подсказывает, что где-то здесь явно закралась ошибка?

Читать дальше →

+13

PetrPavlovich Jan 28 2020 at 16:53

Методы регрессионного анализа в Data Science

5 min

21K

OTUS corporate blogMathematics*Big Data*

Накануне запуска курса «Математика для Data Science. Продвинутый курс» мы провели открытый вебинар на тему «Методы регрессионного анализа в Data Science». На нём познакомились с понятием линейных регрессий, изучили, где и как их можно применять на практике, а также узнали, какие темы и разделы математического анализа, линейной алгебры и теории вероятностей используются в этой области. Преподаватель — Петр Лукьянченко, преподаватель НИУ ВШЭ, руководитель технологических проектов.

Если мы говорим о математике в контексте Data Science, мы можем выделить три наиболее часто решаемые задачи (хотя задач, разумеется, больше):

Читать дальше →

+10

ValdikSS Nov 19 2019 at 03:15

Выявляем процессы с дисковой активностью в Linux

13 min

85K

Configuring Linux*System administration*

TL;DR: статья рассказывает об удобном, быстром и надежном способе определения Linux-программ, записывающих данные на диск, что помогает в выявлении большой или аномально частой нагрузки на дисковую подсистему, а также позволяет оценить накладные расходы файловой системы. Это особенно актуально для SSD в ПК, EMMC и Flash-памяти в одноплатных компьютерах.
В ходе написания статьи обнаружилось, что запись нескольких килобайт данных на файловую систему BTRFS приводит к записи 3 мегабайт реальных данных на диск.

Введение

«Ой, ерунда, ячейки памяти на современных SSD выйдут из строя через десятки лет обычного использования, не стоит об этом беспокоиться, и уж тем более переносить swap, виртуальные машины и папку профиля браузера на HDD» — типичный ответ на вопрос о надежности твердотельных накопителей c гарантированными ≈150 TBW. Если прикинуть, сколько типичное ПО может писать данных, то кажется, что 10-20 ГБ в сутки — уже большая цифра, пусть будет максимум 40 ГБ, куда уж больше. При таких цифрах ответ вполне разумен — нужно 10 лет, чтобы достичь гарантированных значений по количеству перезаписи ячеек, при 40 ГБ записанных данных ежедневно.
Однако за 6 лет я пользуюсь уже третьим SSD: у первого вышел из строя контроллер, а второй начал перемещать данные между ячейками несколько раз в день, что оборачивалось 30-секундными задержками в обслуживании записи.

После 7 месяцев использования нового SSD я решил проверить количество записанных данных, как их сообщает сам диск через SMART.
19.7 ТБ.
Всего за 7 месяцев я использовал 13% от гарантированного количества записанных данных, притом, что он настроен в соответствии с рекомендациями по выравниваю разделов и настройке ФС, swap у меня почти не используется, диски виртуальных машин размещены на HDD!

Читать дальше →

+115

antex_dom Nov 19 2019 at 15:13

Умный Дом — голосовое управление в три шага. Raspberry + HomeKit

4 min

25K

Development for Raspberry Pi*Smart House

Уважаемые друзья!

Мы решили поделиться с Вами бюджетным готовым решением, надеемся Вы оцените наши старания. Решение проверенное, рабочее. Во вложении можно скачать все файлы программ и настройки. Отдаем все бесплатно.

Умный дом для заказчика в основном «игрушка» которым можно похвастаться перед друзьями, но эти игры стоят не малых усилий интеграторам!

Речь пойдет о некоторых проблемах и решениях, связанных именно с освещением в доме, как о неотъемлемом блоке «умного дома».

Проблема 1: Если система централизованная, то в случае сбоя центрального контроллера программа не может управлять реле включения света.

Решение: Использовать распределенные модули управления с внутренней логикой, по нашему опыту одним из самых зарекомендовавших себя устройств в этом — программируемое реле ПР200 производства компании ОВЕН. Советуем использовать версию 220в, т.к. бытовые выключатели рассчитаны именно на это напряжение и будет меньше проблем с логической «единицей» на дискретном входе.

Это устройство имеет 8 каналов (реле) которые можно запрограммировать с использованием внутренней логики (как распределенную систему), дополнительно подключаются еще модули расширения 2шт. по 8 каналов, но тут есть риск остаться без большего количество управляемых светильников при выходе из строя самого ПР200 (8 каналов против 24), если соберетесь экономить, подумайте!

Несмотря на то, что программу выглядит просто, к ней мы шли несколько лет не по своей вине, компания Овен относительно недавно (после появления ПР200) добавила возможность управлять сетевой переменной как с наружи, так и изнутри.

Читать дальше →

+9

MaxRokatansky Nov 18 2019 at 12:47

Улучшаем квантовые вычисления, применяя классическое машинное обучение

5 min

3.4K

OTUS corporate blogMachine learning*Quantum technologies

Translation

В преддверии старта нового потока по курсу «Нейронные сети на Python» подготовили для вас перевод интересной статьи.

Одна из самых главных проблем в реализации нового поколения квантовых компьютеров заключается в их самой базовой конситуэнте: кубите. Кубиты могут взаимодействовать с любыми объектами в непосредственной близости, которые переносят энергию близко к их собственным блуждающим фотонам (т.е. нежелательные электромагнитные поля, фононы (механические колебания квантового устройства) или квантовые дефекты (неровности на поверхности чипа, появившиеся на этапе производства), которые могут непредсказуемо менять состояние кубитов самостоятельно.

Читать дальше →

+17

zverolyub Oct 4 2019 at 10:01

Как сервера договариваются друг с другом: алгоритм распределённого консенсуса Raft

9 min

39K

Dodo Engineering corporate blogAlgorithms*System Analysis and Design*Mathematics*Distributed systems*

Когда кластеры достигают размеров в сотни, а иногда и тысячи машин, возникает вопрос о согласованности состояний серверов относительно друг друга. Алгоритм распределённого консенсуса Raft даёт самые строгие гарантии консистентности из возможных. В этой статье мы рассмотрим Raft с точки зрения инженера и постараемся ответить на вопросы «Как?» и «Почему?» он работает.

Читать дальше →

+31

darsus Sep 23 2019 at 10:17

Структура Data Science-проекта с высоты птичьего полета

6 min

12K

Big Data*Data Mining*

Как узнать наверняка, что внутри у колобка?
Может, ты его проглотишь, а внутри него река? © Таня Задорожная

Что такое Data Science сегодня, кажется, знают уже не только дети, но и домашние животные. Спроси любого котика, и он скажет: статистика, Python, R, BigData, машинное обучение, визуализация и много других слов, в зависимости от квалификации. Но не все котики, а также те, кто хочет стать специалистом по Data Science, знают, как именно устроен Data Science-проект, из каких этапов он состоит и как каждый из них влияет на конечный результат, насколько ресурсоемким является каждый из этапов проекта. Для ответа на эти вопросы как правило служит методология. Однако бОльшая часть обучающих курсов, посвященных Data Science, ничего не говорит о методологии, а просто более или менее последовательно раскрывает суть упомянутых выше технологий, а уж со структурой проекта каждый начинающий Data Scientist знакомится на собственном опыте (и граблях). Но лично я люблю ходить в лес с картой и компасом и мне нравится заранее представлять план маршрута, которым двигаешься. После некоторых поисков неплохую методологию мне удалось найти у IBM — известного производителя гайдов и методик по управлению чем угодно.

Читать дальше →

+12

blognetology Sep 11 2019 at 09:24

Что почитать и посмотреть для старта в Data Science: книги, словари и курсы

3 min

21K

Нетология corporate blogPython*SQL*Statistics in IT

Подборка ресурсов по математике, статистике и программированию для начинающих Дата Сайентистов. Ознакомьтесь с материалами, если вы планируете учиться на онлайн-курсах. Так вы опередите одногруппников, а заодно прокачаете полезный навык — изучать дополнительные материалы самостоятельно.

Читать дальше →

+15

izvolov Jul 30 2019 at 08:32

CMake и C++ — братья навек

11 min

94K

C++*IT Infrastructure*Open source*Designing and refactoring*Build automation*

Tutorial

Дружба навек

В процессе разработки я люблю менять компиляторы, режимы сборки, версии зависимостей, производить статический анализ, замерять производительность, собирать покрытие, генерировать документацию и т.д. И очень люблю CMake, потому что он позволяет мне делать всё то, что я хочу.

Многие ругают CMake, и часто заслуженно, но если разобраться, то не всё так плохо, а в последнее время очень даже неплохо, и направление развития вполне позитивное.

В данной заметке я хочу рассказать, как достаточно просто организовать заголовочную библиотеку на языке C++ в системе CMake, чтобы получить следующую функциональность:

Сборку;
Автозапуск тестов;
Замер покрытия кода;
Установку;
Автодокументирование;
Генерацию онлайн-песочницы;
Статический анализ.

Кто и так разбирается в плюсах и си-мейке может просто скачать шаблон проекта и начать им пользоваться.

Читать дальше →

+46

1

2 3 ...