How to become an author

Lead DWH/BI/ETL Engineer

Profile Publications Comments 65Bookmarks 161

MagisterLudi Feb 26 2018 at 13:31

Ричард Хэмминг: Глава 8. Искусственный интеллект-III

5 min

5.9K

Professional literature*Machine learning*Research and forecasts in IT*Reading room

Translation

«Цель этого курса — подготовить вас к вашему техническому будущему.»

Привет, Хабр. Помните офигенную статью «Вы и ваша работа» (+219, 2365 в закладки, 360k прочтений)?

Так вот у Хэмминга (да, да, самоконтролирующиеся и самокорректирующиеся коды Хэмминга) есть целая книга, написанная по мотивам его лекций. Давайте ее переведем, ведь мужик дело говорит.

Это книга не просто про ИТ, это книга про стиль мышления невероятно крутых людей. «Это не просто заряд положительного мышления; в ней описаны условия, которые увеличивают шансы сделать великую работу.»

Мы уже перевели 11 (из 30) глав.
За перевод спасибо urticazoku, который откликнулся на мой призыв в «предыдущей главе». Кто хочет помочь с переводом — пишите в личку или на почту magisterludi2016@yandex.ru (Кстати, мы еще запустили перевод еще одной крутейшей книги — «The Dream Machine: История компьютерной революции»)

Искусственный интеллект — III

Я предлагаю сделать паузу и обсудить следующий вопрос:

Могут ли машины думать?

а также почему важно прийти к собственным выводам о том, что смогут и не смогут делать машины в будущем. Рассмотрим следующий список утверждений:

Читать дальше →

+15

m1rko Feb 26 2018 at 14:48

Метод Бенджамина Франклина для чтения книг по программированию

4 min

33K

Programming*Professional literature*Machine learning*Studying in IT

Translation

Посмотрим правде в глаза, книги по программированию — отстой. Эти общие книги по распределённым системам, науке о данных и так далее — их можно читать бесконечно. Но за редким исключением у практических руководств по языку/фреймворку/СУБД/кексопечке есть нечто общее. Зверюшка на обложке, примеры вычурных приложений, они так легко забываются, так банальны, настолько… ничему не учат.

Думаю, я наконец-то понял, почему они мне не нравятся. И не только потому что они учат навыкам, которые скоро станут устаревшими. Это их педагогический подход в целом. Алгоритм обучения как будто такой: напиши эти программы, где мы говорим всё, что нужно сделать, и теперь ты знаешь этот язык/фреймворк/базу данных/кексопечку. Главное в этих книгах — длинные листинги кода, которые читатель должен воспроизвести. Вот пример из одной из лучших книг этой категории.

class User < ApplicationRecord
  attr_accessor :remember_token
  before_save { self.email = email.downcase }
  validates :name,  presence: true, length: { maximum: 50 }
  VALID_EMAIL_REGEX = /\A[\w+\-.]+@[a-z\d\-.]+\.[a-z]+\z/i
  validates :email, presence: true, length: { maximum: 255 },
                    format: { with: VALID_EMAIL_REGEX },
                    uniqueness: { case_sensitive: false }
  has_secure_password
  validates :password, presence: true, length: { minimum: 6 }

  # …далее ещё 30 строчек...
end

Традиционно есть два способа изучить такую страницу:

Ввести каждую строку кода вручную.
Скопипастить код с их сайта, возможно, поиграться и внести небольшие изменения.

В первом случае, как и в лекциях, код переходит со страницы книги на экран читателя, минуя мозг. Второй вариант — это как пытаться собирать автомобили, разбирая ремень безопасности и стереосистему: вы просто играетесь с маленькими кусочками. Оба варианта не подходят для обучения.

Читать дальше →

+23

ShashkovS Feb 26 2018 at 09:23

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

25 min

1.5M

Sport programming*Python*Perfect code*Regular expressions*Reading room

Регулярные выражения в Python от простого к сложному

Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском. Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток. Мало картинок, мало примеров. И почти нет разумных задач. Ну неужели поиск IP-адреса — это самая частая задача для регулярных выражений? Вот и я думаю, что нет.
Про разницу (?:...) / (...) фиг найдёшь, а без этого знания в некоторых случаях можно только страдать.

Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому был разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые прямо очень нужны, но никто про это не пишет.
Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами.

Надеюсь, вам удастся из него извлечь что-нибудь новое и полезное, даже если вы уже в ладах с регулярками.

Читать дальше →

+97

MagisterLudi Feb 25 2018 at 22:13

The Dream Machine: История компьютерной революции. Пролог

10 min

13K

Professional literature*Reading room

Translation

Эту книгу советует Алан Кей. Он часто говорит фразу «Компьютерная революция еще не случилась.» Но компьютерная революция началась. Точнее — ее начали. Ее начали определенные люди, с определенными ценностями и у них было видение, задумки, план. Исходя из каких предпосылок революционеры создали план? По каким причинам? Куда они замыслили вести человечество? На каком этапе мы сейчас?

(За перевод спасибо Oxoron, кто хочет помочь с переводом — пишите в личку или на почту magisterludi2016@yandex.ru)

Читать и сохранить в избранное

+30

m1rko Feb 11 2018 at 17:57

Предсказание случайных чисел в умных контрактах Ethereum

10 min

14K

Information Security*Website development*Cryptography*

Translation

Ethereum приобрёл огромную популярность как платформа для первичного размещения монет (ICO). Однако она используется не только для токенов ERC20. Рулетки, лотереи и карточные игры — всё это можно реализовать на блокчейне Ethereum. Как любая реализация, блокчейн Ethereum не поддаётся подделке, он децентрализован и прозрачен. Ethereum допускает выполнение тьюринг-полных программ, которые обычно пишут на языке программирования Solidity. По словам основателей платформы, это превращает систему во «всемирный суперкомпьютер». Перечисленные характеристики полезны в приложениях для азартных игр, где особенно важно доверие пользователей.

Блокчейн Ethereum является детерминированным и поэтому представляет определённые сложности при написании генератора псевдослучайных чисел (ГПСЧ) — неотъемлемой части любого приложения для азартных игр. Мы решили исследовать смарт-контракты, чтобы оценить безопасность ГПСЧ на Solidity и подчеркнуть характерные ошибки проектирования, которые ведут к появлению уязвимостей и возможности предсказания будущего состояния ГПСЧ.

Читать дальше →

+33

vin2809 Jan 29 2018 at 19:39

Мобильные устройства изнутри. Что такое GPT?

9 min

18K

Development of mobile applications*Reverse engineering*

Что такое GPT?

ОГЛАВЛЕНИЕ

1. Введение
2. Структура GPT
3. Что такое GPT-раздел типа Intel?
3.1. Структура заголовка нового GPT-раздела
3.2. Структура записи описания нового GPT-раздела
4. Заключение.
5. Источники информации

1. Введение

Продолжаем рассматривать строение программной части (software) мобильных устройств (МУ). Сегодня поговорим об устройстве GPT-раздела памяти. Написать об этом меня побудила публикация Изучаем структуры MBR и GPT, вместо того, чтобы писать комментарии к ней. Я хотел бы не поругать или поправить автора, а дополнить вышеуказанную публикацию с уклоном в МУ.

Итак, GPT (GUID Partition Table) это:

в первую очередь название схемы разметки памяти (GPT-схема) МУ ;
затем уж название раздела памяти (GPT-раздел), где расположена физически эта схема;
ну и также название файла-образа GPT-раздела памяти (GPT-файл).

Существует две схемы разметки памяти: MBR и GPT. Каждая схема содержится в отдельном разделе памяти, называемом, соответственно, MBR или GPT.

Как устроена MBR-схема разметки можно посмотреть в [1], а GPT это другой формат описания разметки памяти — GUID (GUID Partition Table). Он является частью EFI (Extensible Firmware Interface) — стандарта UEFI, используемого вместо BIOS для загрузки разделов памяти.

Переход на другой формат позволил устранить самый существенный недостаток MBR-формата — малое число разделов. Если в MBR помещалось только 4 записи с ограничением на длину раздела и его смещение из-за того, что эти параметры описывались 32-разрядными числами, то в GPT можно разместить 128 записей о разделах. Причем их параметры уже описываются в 64-разрядной системе счисления…

Читать дальше →

+36

atepeq Jan 8 2018 at 13:21

Добро пожаловать в эру глубокой нейроэволюции

10 min

21K

Algorithms*Machine learning*

Translation

От имени команды Uber AI Labs, которая также включает Joel Lehman, Jay Chen, Edoardo Conti, Vashisht Madhavan, Felipe Petroski Such и Xingwen Zhang.

В области обучения глубоких нейронных сетей (DNN) с большим количеством слоев и миллионами соединений, для тренировки, как правило, применяется стохастический градиентный спуск (SGD). Многие полагают, что способность SGD эффективно вычислять градиенты является исключительной особенностью. Однако мы публикуем набор из пяти статей в поддержку нейроэволюции, когда нейронные сети оптимизируются с помощью эволюционных алгоритмов. Данный метод также является эффективным при обучении глубоких нейронных сетей для задач обучения с подкреплением (RL). Uber имеет множество областей, где машинное обучение может улучшить его работу, а разработка широкого спектра мощных подходов к обучению (включая нейроэволюцию), поможет разработать более безопасные и надежные транспортные решения.

Читать дальше →

+29

cointegrated Jan 8 2018 at 15:54

Как я парсил Хабр, часть 1: тренды

6 min

23K

Python*Data visualization*Research and forecasts in IT*Web analytics*

Когда был доеден новогодний оливье, мне стало нечего делать, и я решил скачать себе на компьютер все статьи с Хабрахабра (и смежных платформ) и поисследовать.

Получилось несколько интересных сюжетов. Первый из них — это развитие формата и тематики статей за 12 лет существования сайта. Например, достаточно показательна динамика некоторых тем. Продолжение — под катом.

Читать дальше →

+62

ELazin Jan 2 2018 at 20:39

Akumuli — база данных временных рядов

10 min

26K

Open source*NoSQL*DevOps*

Привет! В этой статье я хочу рассказать о проекте Akumuli, специализированной базе данных для сбора и хранения временных рядов. Я работаю над проектом уже больше четырех лет и достиг высокой стабильности, надежности, и возможно изобрел кое-что новое в этой области.

Временной ряд это упорядоченная во времени последовательность измерений, если говорить максимально просто, это то что можно нарисовать на графике. Временные ряды естественным образом возникают во многих приложениях, начиная с финансов и заканчивая анализом ДНК. Наиболее широкое применение базы данных временных рядов находят в мониторинге инфраструктуры. Там же часто наблюдаются самые серьезные нагрузки.

Time-series in finance

“Мне не нужна TSDB, у меня уже есть Х”

Х может быть чем угодно, начиная с SQL базы данных и заканчивая плоскими файлами. На самом деле все это действительно можно использовать для хранения временных рядов, с одной оговоркой — у вас мало данных. Если вы делаете 10 000 вставок в свою SQL базу данных — все будет хорошо какое-то время, потом таблица вырастет в размерах настолько, что время выполнения операций вставки увеличится.

Читать дальше →

+76

expressrus Jan 2 2018 at 14:16

Как писать на ассемблере в 2018 году

13 min

322K

Programming*Assembler*

Статья посвящена языку ассемблер с учетом актуальных реалий. Представлены преимущества и отличия от ЯВУ, произведено небольшое сравнение компиляторов, скрупулёзно собрано значительное количество лучшей тематической литературы.

Читать дальше →

+87

LeosNsk Jan 2 2018 at 12:22

История 3 места Russian AI Cup 2017

6 min

12K

Sport programming*Programming*Game development*

Всем привет! В этой статье я хочу кратко изложить ключевые моменты своей стратегии в ходе прошедшего соревнования по программированию искусственного интеллекта Russian AI Cup.

Немного о Russian AI Cup

Суть мероприятия заключается в том, что нужно было написать бота для игры, правила которой задали организаторы и меняли по ходу мероприятия.

Особенность задачи этого года состояла в том, что необходимо было создать искусственный интеллект, управляющий большим количеством боевых единиц.

Правила можно найти здесь.

Читать дальше →

+28

voice32 Dec 20 2017 at 19:59

Генерируем заголовки фейковых новостей в стиле Ленты.ру

11 min

31K

Python*Machine learning*

Сравниваем 2 подхода к генерации текста c помощью нейронных сетей: Char-RNN vs Word Embeddings + забавные примеры в конце.

Читать дальше →

+47

MaxRokatansky Dec 19 2017 at 16:48

Как анализировать тональность твитов с помощью машинного обучения на PHP

11 min

18K

OTUS corporate blogPHP*Programming*Machine learning*

Translation

Всем доброго!

Что ж, как и обещали, делимся с вами очередным материалом, который мы изучали в рамках подготовки нашего курса по PHP. Надеемся, что он окажется для вас и интересным, и полезным.

Вступление

В последнее время кажется, что все и каждый говорят о машинном обучении. Ваши ленты в социальных сетях забиты сообщениями об ML, Python, TensorFlow, Spark, Scala, Go и т. д .; и если у нас с вами есть что-то общее, то вы можете поинтересоваться, а что насчет PHP?

Да, как насчет машинного обучения и PHP? К счастью, кто-то был достаточно сумасшедшим, чтобы не только задать этот вопрос, но и разработать универсальную библиотеку машинного обучения, которую мы можем использовать в нашем следующем проекте. В этом посте мы рассмотрим PHP-ML — библиотеку для машинного обучения на PHP — и мы напишем класс анализа тональности, который мы сможем позже использовать для нашего собственного чата или твит-бота. Основными задачами этого поста являются:

Изучение общих понятия, касающиеся машинного обучения и анализа тональности текста
Обзор возможностей и недостатков PHP-ML
Определение задачи, которую мы будем решать.
Доказательство того, что попытка машинного обучения на PHP не является абсолютно безумной целью (опционально)

Читать дальше →

+34

1cloud Dec 18 2017 at 15:35

Найдена крупнейшая БД украденных паролей: что следует знать

7 min

76K

1cloud.ru corporate blogInformation Security*System administration*GTD*Freelance

В декабре компания 4iq, занимающаяся предотвращением нелегального использования персональных данных и несанкционированного доступа к пользовательским аккаунтам, обнаружила файл с БД на 1,4 млрд украденных «учеток». Находка стала возможной благодаря сканированию даркнета и дипвеба на предмет подобных «сливов», которыми могут воспользоваться злоумышленники.

Это «самая объемная» база данных такого рода на сегодняшний день. В этой статье мы поговорим об особенностях найденной базы, вспомним похожие утечки пользовательских данных и расскажем о том, что делать в ситуации, если вы «нашли себя» в такой БД.

Читать дальше →

+27

AndreySitaev Dec 18 2017 at 17:18

Оценка премии опционов — аналитические формулы vs моделирование

11 min

24K

Algorithms*Mathematics*Finance in IT

Введение

На волне хайпа криптовалют проскакивают новости о торговле биткойном на мировых биржах CME и NASDAQ. Для меня это знаковое событие: руки корпораций, надувавших пузыри доткомов и ипотек, дотянулись и до золота шифропанков — криптовалют. А в арсенале этих самых корпораций мощный рычаг — производные финансовые инструменты, или деривативы.

Находясь под впечатлением прочитанных не так давно историй взлетов и метаморфоз рынков деривативов — прежде всего, фьючерсных и опционных контрактов, я заинтересовался нетривиальным ценообразованием опционов. Мне открылось, что, хотя интернет полон рерайтов статей, толкующих знаменитую формулу Блэка-Шоулза, практических инструментов — web-сайтов, технологических программ или банальных руководств для программиста — не математика, по данному вопросу в интернете недостает. Пришлось вспомнить азы тервера и адаптировать строгие математические описания в популярном, понятном, прежде всего, мне самому, формате.

Читать дальше →

+29

Olga_ol Dec 18 2017 at 16:43

Лекции Техносферы. Нейронные сети в машинном обучении

3 min

32K

VK corporate blogAlgorithms*Big Data*Machine learning*

Представляем вашему вниманию очередную порцию лекций Техносферы. На курсе изучается использование нейросетевых алгоритмов в различных отраслях, а также отрабатываются все изученные методы на практических задачах. Вы познакомитесь как с классическими, так и с недавно предложенными, но уже зарекомендовавшими себя нейросетевыми алгоритмами. Так как курс ориентирован на практику, вы получите опыт реализации классификаторов изображений, системы переноса стиля и генерации изображений при помощи GAN. Вы научитесь реализовать нейронные сети как с нуля, так и на основе библиотеке PyTorch. Узнаете, как сделать своего чат-бота, как обучать нейросеть играть в компьютерную игру и генерировать человеческие лица. Вы также получите опыт чтения научных статей и самостоятельного проведения научного исследования.

+53

befuddle Dec 18 2017 at 13:56

Сверточная сеть на python. Часть 2. Вывод формул для обучения модели

5 min

31K

Open Data Science corporate blogAlgorithms*Image processing*Mathematics*Machine learning*

В прошлой статье мы рассмотрели концептуально все слои и функции, из которых будет состоять будущая модель. Сегодня мы выведем формулы, которые будут отвечать за обучение этой модели. Слои будем разбирать в обратном порядке — начиная с функции потерь и заканчивая сверточным слоем. Если возникнут трудности с пониманием формул, рекомендую ознакомиться с подробным объяснением (на картинках) метода обратного распространения ошибки, и также вспомнить о правиле дифференцирования сложной функции.

Читать дальше →

+65

EnglishDom Dec 6 2017 at 13:25

Английские фразы, которые не стоит переводить буквально

4 min

244K

EnglishDom corporate blog

Tutorial

В английском языке много интересных и необычных слов, которые могут быть похожими на слова в русском по произношению, звучанию и написанию. Мы говорили о них в одной из предыдущих статей. Но бывает еще интереснее — целые фразы, которые не стоит переводить буквально. О них мы и поговорим в этой статье.

Повседневные фразы и инструкции

Тут сразу стоит отметить, что в английском довольно много фразовых глаголов, которые очень популярны, особенно в разговорной речи. Понятное дело, что sit down, stand up или come up уже никого не удивят, но есть другие интересные случаи, и не только с фразовыми глаголами.

Читать дальше →

+45

Vasyutka Dec 4 2017 at 02:15

Капсульные сети от Хинтона

6 min

22K

Recognitor corporate blogImage processing*Machine learning*

27 октября 2017 года появилась статья доктора Джофри Хинтона с соавторами из Google Brain. Хинтон — более чем известный ученый в области машинного обучения. Он в свое время разработал математику обратного распространения ошибок, был научным руководителем Яна Лекуна — автора архитектуры сверточных сетей.

Хоть презентация была достаточно скромная, корректно говорить о революционном изменении подхода к искусственным нейронным сетям (ИНС). Назвали новый подход «капсульные сети». Пока в российском сегменте интернета мало информации о них, поэтому восполню этот пробел.

Читать дальше →

+30

Homer May 17 2007 at 19:45

Сложная задача на логику

1 min

4.8K

Entertaining tasksMathematics*

Предлагаю желающим решить следующую задачу:

Есть 15 шариков, 2 из них радиоактивны. Есть прибор с лампочкой, в который можно поместить любое количество шариков (хоть все пятнадцать), и который покажет наличие радиации. То есть, если среди положенных в прибор шариков есть хотя бы один радиоактивный — лампочка загорится, если нет — не загорится.
Необходимо найти 2 радиоактивных шарика, используя прибор не более 7 раз.

+5

1

2 3 ...