Search
Write a publication
Pull to refresh
-28
0.2

Интересуюсь природой вещей

Send message

Популярные ошибки в английском среди IT-специалистов

Reading time4 min
Views33K
image

Основываясь на многолетнем опыте преподавания английского специалистам IT-сферы (программистам, бизнес аналитикам, тестировщикам, маркетинговым специалистам), я собрала список наиболее распространенных среди “айтишников” ошибок в английском языке.
Читать дальше →

Greenplum DB

Reading time17 min
Views204K
Продолжаем цикл статей о технологиях, использующихся в работе хранилища данных (Data Warehouse, DWH) нашего банка. В этой статье я постараюсь кратко и немного поверхностно рассказать о Greenplum — СУБД, основанной на postgreSQL, и являющейся ядром нашего DWH. В статье не будут приводиться логи установки, конфиги и прочее — и без этого заметка получилась достаточно объёмной. Вместо этого я расскажу про общую архитектуру СУБД, способы хранения и заливки данных, бекапы, а также перечислю несколько проблем, с которыми мы столкнулись в ходе эксплуатации.



Немного о наших инсталляциях:

  • проект живёт у нас чуть больше двух лет;
  • 4 контура от 10 до 26 машин;
  • размер БД около 30 Тб;
  • в БД около 10000 таблиц;
  • до 700 queries per second.

За тем, как оно работает, прошу под кат!
Читать дальше →

Алгоритм обратного распространения ошибки на примере Word2Vec

Reading time9 min
Views7.9K

Поскольку я столкнулся с существенными затруднениями в поисках объяснения механизма обратного распространения ошибки, которое мне понравилось бы, я решил написать собственный пост об обратном распространении ошибки реализовав алгоритм Word2Vec. Моя цель, — объяснить сущность алгоритма, используя простую, но нетривиальную нейросеть. Кроме того, word2vec стал настолько популярным в NLP сообществе, что будет полезно сосредоточиться на нем.

Читать дальше →

Переход от монолитного Data Lake к распределённой Data Mesh

Reading time25 min
Views43K
Привет, Хабр! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же статьи).

Все крупные компании сейчас пытаются строить огромные централизованные хранилища данных. Или же ещё более огромные кластерные Data Lakes (как правило, на хадупе). Но мне не известно ни одного примера успешного построения такой платформы данных. Везде это боль и страдание как для тех, кто строит платформу данных, так и для пользователей. В статье ниже автор (Жамак Дегани) предлагает совершенно новый подход к построению платформы данных. Это архитектура платформы данных четвертого поколения, которая называется Data Mesh. Оригинальная статья на английском весьма объёмна и откровенно тяжело читается. Перевод так же получился немаленьким и текст не очень прост: длинные предложения, суховатая лексика. Я не стал переформулировать мысли автора, дабы сохранить точность формулировок. Но я крайне рекомендую таки продраться через этот непростой текст и ознакомиться со статьёй. Для тех, кто занимается данными, это будет очень полезно и весьма интересно.

Евгений Черный

Немало компаний инвестируют в следующее поколение Data Lake с надеждой упростить доступ к данным в масштабе всей компании и предоставить бизнесу инсайты и возможность принимать качественные решения автоматически. Но текущие подходы к построению платформ данных имеют схожие проблемы, которые не позволяют достигнуть поставленных целей. Чтобы решить эти проблемы нам необходимо отказаться от парадигмы централизованного Data Lake (или его предшественника – хранилища данных). И перейти к парадигме, основанной на современной распределённой архитектуре: рассматривать бизнес-домены как приоритет первого уровня, применять платформенное мышление для создания инфраструктуры с возможностью самообслуживания и воспринимать данные как продукт.

image
Читать дальше →

Почему успехи ИИ DeepMind в Atari вызывают у меня разочарование

Reading time8 min
Views6K
нарезка скринов игр Atari

Картинка, которую вы видите, позаимствована с сайта DeepMind, и демонстрирует 57 игр, в которых их новейшая разработка Agent57 (обзор статьи на Хабре) достигла успеха. Само число 57 взято не с потолка, — именно столько игр было выбрано еще в 2012 году, чтобы стать своеобразным бенчмарком среди разработчиков ИИ для игр Atari, после чего различные исследователи меряются своими достижениями именно на этом датасете.

В этом посте я постараюсь с разных сторон посмотреть на эти достижения, чтобы оценить их ценность для прикладных задач, и обосновать, почему не верю, что за этим будущее. Ну и да, картинок под катом будет много, — я предупредил.

Информация с нулевым доверием

Reading time11 min
Views9.7K
Недавно Google перевела всех своих сотрудников в Северной Америке на удалённую работу. Это было одной из мер по ограничению распространения SARS-CoV-2, вируса, который вызывает заболевание COVID-19. Это подходящее решение для любой компании, которая может на это пойти. Более того, Google и ряд других основных технологических компаний планирует оплачивать армию подрядчиков, которые обычно обслуживают сотрудников компании.

Впрочем, ещё более значимый поступок Google сделала ещё пять лет назад, когда возглавила переход к сетям с нулевым доверием для своих внутренних приложений. Большинство других технологических компаний последовали её примеру. И хотя это было сделано не для того, чтобы сотрудники работали из дома, сейчас это облегчило перевод людей на удалёнку в сжатые сроки.

Алгоритмы на экзамене в ШАД

Reading time7 min
Views11K

Привет! Меня зовут Александр Курилкин, и я веду курс по алгоритмам в «ШАД Helper». В этом посте я разберу несколько задач из вступительных экзаменов прошлых лет, чтобы вы смогли увидеть, что вас ждет, и понять, чему мы сможем вас научить на нашем курсе. Надеюсь, что вы разделяете мою любовь к интересным задачам по алгоритмам и получите искреннее удовольствие от прочтения этого поста! Итак, приступим...


Читать дальше →

6 ошибок в английских словах, которые жутко бесят нейтивов

Reading time6 min
Views43K
Ошибки — это неизбежная часть обучения. Особенно, когда изучаешь иностранный язык. Главное — вовремя понять, что допустил ошибку, и исправить ее.

Но некоторые ошибки настолько распространены, что становятся классическими. И это жутко бесит нейтивов. В этой статье мы собрали распространенные ошибки, которые раздражают носителей языка сильнее всего.


Читать дальше →

Общий финансовый анализ на Python (Часть 2)

Reading time2 min
Views14K
Ну что продолжим?

Скользящее окно (Moving Windows)


В заголовке я привел дословный перевод. Если кто меня поправит, и другой термин более применим — то спасибо.

Смысл скользящего окна– с каждым новым значением функция пересчитывается за заданный период времени. Этих функций большое количество. Для примера: rolling.mean(), rolling.std(), которые чаще всего и используют при анализе движения акций. rolling.mean() — это обычная скользящая средняя, которая сглаживает краткосрочные колебания и позволяет визуализировать общую тенденцию.
Читать дальше →

Коронавирус — апофеоз паники

Reading time3 min
Views11K
На Хабре каждый день появляются статьи на тему Коронавируса, пандемии грандиозного информационного масштаба. На момент написания данной статьи в мире зафиксировано 616 680 случаев заражения и 28 818 летальных случаев, а население Земли составляет 7.5 миллиардов человек. В своей статье я совершенно не пытаюсь отрицать серьёзность самого заболевания, но хочу обратить внимание коллег на чрезмерное нагнетание ситуации правительствами и СМИ. История с Коронавирусом уже обрела формат настоящей истерии и я абсолютно уверен, что гораздо больше людей погибнет не от самого вируса, а от инфарктов и других заболеваний спровоцированных резко возросшим уровнем стресса. Текущий информационный поток служит не объективному информированию, а провоцированию такой эмоции как страх. Сцены с бронетехникой на улицах, люди сметающие продукты и товары первой необходимости вызывают волнение и у людей спокойных, а какой эффект всё это оказывает на стариков или впечатлительных людей трудно представить.
Читать дальше →

Selenium, Selenoid, Selenide, Selendroid… Что все это значит?

Reading time3 min
Views28K
Привет, Хабр!

В мире автоматизации новичку ориентироваться довольно сложно. Приходится узнавать множество понятий, разбираться в особенностях существующих инструментов. Например, вот: Selenium, Selenide, Selenoid, Selendriod — что это, чем отличается? Да и можно ли их сравнивать?

Написал статью, чтобы помочь в этом разобраться. Кому интересно, добро пожаловать под кат!


Читать дальше →

Текст любой ценой: PDF

Reading time12 min
Views93K
Продолжаем разбирать текстовые форматы на предмет получения текста. Итак, обещанный ранее PDF.

С portable document format'ом не всё так просто, как DOCX или ODT, что мы рассматривали в прошлый раз, но всё же это всё ещё изначально текстовый, а не бинарный формат. Вы удивлены? Тогда давайте посмотрим на то, что там внутри. Дальше действительно много текста.

Читать дальше →

Правда про парсинг сайтов, или «все интернет-магазины делают это»

Reading time11 min
Views121K
В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).
Читать дальше →

Атомная война в эпоху Великого Комбинатора

Reading time3 min
Views3.9K
Достоевский дал миру Великого Инквизитора с его «зачем же ты пришел нам мешать?».
Ильф и Петров — Великого Комбинатора.
Та эпоха уже закончилась, эта — еще не началась.
Читать дальше →

Как мы кратно улучшили качество рекомендаций в оффлайн ритейле

Reading time11 min
Views6.6K

Всем привет! Меня зовут Саша, я CTO & Co-Founder в LoyaltyLab. Два года назад я с друзьями, как и все бедные студенты, ходил вечером за пивом в ближайший магазин у дома. Нас очень расстраивало, что ритейлер, зная, что мы придём за пивом, не предлагает скидку на чипсы или сухарики, хотя это так логично! Мы не поняли, почему такая ситуация происходит и решили сделать свою компанию. Ну и как бонус выписывать себе скидки каждую пятницу на те самые чипсы.


image


И дошло всё до того, что с материалом по технической стороне продукта я выступаю на NVIDIA GTC. Мы рады делиться наработками с коммьюнити, поэтому я выкладываю свой доклад в виде статьи.

Читать дальше →

Почему карантин из-за COVID-19 — это все таки overreacting

Reading time4 min
Views20K
Обычно паника обратно пропорциональна информированности. В случае с вирусом SARS-CoV-2 не так: данные о его преувеличенной опасности публикуются, но уровень страха тем не менее продолжает расти. Очевидно, медиасреда самостоятельно продуцирует необходимые для поддержания тревожного состояния сообщения. Кроме того, большую роль играют интерпретации данных.

Риски


Вчера на новость об отмене Олимпиады в Токио в ФБ отреагировали так: правильно, иначе «для многих спортсменов Олимпиада, при такой эпидемии, может стать последней».

Очевидно, что в массовом сознании степень опасности вируса оценивается как высокая для каждого.

Один из основных источников данных об эпидемии — это американский университет Хопкинса. В статистических данных о заболевании COVID- 19 приводятся данные по смертности, полученные еще в Китае, но они по прежнему считаются актуальными, т.к. статья обновлена 23 марта.

image

Для взрослых людей до 40 лет смертность составляет 0,2%. Из них большинство смертей обусловлено сопутствующими причинами (сердечные и респираторные заболевания, рак).
Случаев не-обусловленных — 0,9%.
Читать дальше →

Web2Text: глубокое структурированное извлечение содержимого web-страницы

Reading time17 min
Views5K

Привет, Хабр! Представляю вашему вниманию перевод статьи "Web2Text: Deep Structured Boilerplate Removal" коллектива авторов Thijs Vogels, Octavian-Eugen Ganea и Carsten Eickhof.


Веб-страницы являются ценным источником информации для многих задач обработки естественного языка и поиска информации. Эффективное извлечение основного содержимого из этих документов имеет важное значение для производительности производных приложений. Чтобы решить эту проблему, мы представляем новую модель, которая выполняет классификацию и маркировку текстовых блоков на странице HTML как шаблонных блоков, или блоков содержащих основной контент. Наш метод использует Скрытую Марковскую модель поверх потенциалов, полученных из признаков объектной модели HTML-документа (Document Object Model, DOM) с использованием сверточных нейронных сетей (Convolutional Neural Network, CNN). Предложенный метод качественно повышает производительность для извлечения текстовых данных из веб-страниц.

Читать дальше →

Рубрика «Читаем статьи за вас». Январь — Февраль 2020

Reading time22 min
Views8K


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Представлены обзоры 11 статей по Computer Vision, Natural Language Processing, Reinforcement learning и другим темам.

Читать дальше →

Пять знаменитых цитат о программировании с объяснениями

Reading time8 min
Views18K


Стать программистом значит подписаться на обучение длиной в жизнь. Поток нового – новые функции, новые языки, новые инструменты, новые фреймворки – не иссякает никогда. Но вместе с тем, программирование – на удивление верная традициям сфера, где все основывается на принципах, проверенных временем. Мы ввели в оборот объектно-ориентированное программирование, современные аппаратные решения, искусственный интеллект, однако, несмотря на все эти изменения, многие аксиомы, которые были сформулированы еще в прошлом поколении, оказываются верными и на сегодняшний день.

Эту статью я посвятил разбору нескольких из своих любимых высказываний, касающихся программирования. Единственным критерием, по которому я производил отбор, было требование, чтобы цитате сравнялось не менее двадцати лет. Потому что это только устаревшие технологии быстро становятся непригодными к использованию, тогда как древние заповеди наших предков-программистов долго сохраняют актуальность.
Читать дальше →

Лопнул ли пузырь машинного обучения, или начало новой зари

Reading time10 min
Views111K
Недавно вышла статья, которая неплохо показывает тенденцию в машинном обучении последних лет. Если коротко: число стартапов в области машинного обучения в последние два года резко упало.

image

Ну что. Разберём «лопнул ли пузырь», «как дальше жить» и поговорим откуда вообще такая загогулина.

Information

Rating
4,573-rd
Location
Москва, Москва и Московская обл., Россия
Registered
Activity