Articles / Bookmarks / Profile of ideological / Habr

How to become an author

Интересуюсь природой вещей

ProfileArticlesPostsNewsComments340

ElizaMarabyan Apr 10 2020 at 13:19

Популярные ошибки в английском среди IT-специалистов

4 min

33K

Learning languages

Основываясь на многолетнем опыте преподавания английского специалистам IT-сферы (программистам, бизнес аналитикам, тестировщикам, маркетинговым специалистам), я собрала список наиболее распространенных среди “айтишников” ошибок в английском языке.

Читать дальше →

+41

kapustor Oct 13 2015 at 08:09

Greenplum DB

17 min

204K

Т-Банк corporate blogBig Data*PostgreSQL*

Продолжаем цикл статей о технологиях, использующихся в работе хранилища данных (Data Warehouse, DWH) нашего банка. В этой статье я постараюсь кратко и немного поверхностно рассказать о Greenplum — СУБД, основанной на postgreSQL, и являющейся ядром нашего DWH. В статье не будут приводиться логи установки, конфиги и прочее — и без этого заметка получилась достаточно объёмной. Вместо этого я расскажу про общую архитектуру СУБД, способы хранения и заливки данных, бекапы, а также перечислю несколько проблем, с которыми мы столкнулись в ходе эксплуатации.

Немного о наших инсталляциях:

проект живёт у нас чуть больше двух лет;
4 контура от 10 до 26 машин;
размер БД около 30 Тб;
в БД около 10000 таблиц;
до 700 queries per second.

За тем, как оно работает, прошу под кат!

Читать дальше →

+15

Ogoun Apr 8 2020 at 17:50

Алгоритм обратного распространения ошибки на примере Word2Vec

9 min

7.9K

Natural Language Processing*Artificial IntelligenceMachine learning*

Translation

Поскольку я столкнулся с существенными затруднениями в поисках объяснения механизма обратного распространения ошибки, которое мне понравилось бы, я решил написать собственный пост об обратном распространении ошибки реализовав алгоритм Word2Vec. Моя цель, — объяснить сущность алгоритма, используя простую, но нетривиальную нейросеть. Кроме того, word2vec стал настолько популярным в NLP сообществе, что будет полезно сосредоточиться на нем.

Читать дальше →

+11

Evgeny_Chernyy Apr 4 2020 at 12:19

Переход от монолитного Data Lake к распределённой Data Mesh

25 min

43K

Big Data*Data storage*

Привет, Хабр! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же статьи).

Все крупные компании сейчас пытаются строить огромные централизованные хранилища данных. Или же ещё более огромные кластерные Data Lakes (как правило, на хадупе). Но мне не известно ни одного примера успешного построения такой платформы данных. Везде это боль и страдание как для тех, кто строит платформу данных, так и для пользователей. В статье ниже автор (Жамак Дегани) предлагает совершенно новый подход к построению платформы данных. Это архитектура платформы данных четвертого поколения, которая называется Data Mesh. Оригинальная статья на английском весьма объёмна и откровенно тяжело читается. Перевод так же получился немаленьким и текст не очень прост: длинные предложения, суховатая лексика. Я не стал переформулировать мысли автора, дабы сохранить точность формулировок. Но я крайне рекомендую таки продраться через этот непростой текст и ознакомиться со статьёй. Для тех, кто занимается данными, это будет очень полезно и весьма интересно.

Евгений Черный

Немало компаний инвестируют в следующее поколение Data Lake с надеждой упростить доступ к данным в масштабе всей компании и предоставить бизнесу инсайты и возможность принимать качественные решения автоматически. Но текущие подходы к построению платформ данных имеют схожие проблемы, которые не позволяют достигнуть поставленных целей. Чтобы решить эти проблемы нам необходимо отказаться от парадигмы централизованного Data Lake (или его предшественника – хранилища данных). И перейти к парадигме, основанной на современной распределённой архитектуре: рассматривать бизнес-домены как приоритет первого уровня, применять платформенное мышление для создания инфраструктуры с возможностью самообслуживания и воспринимать данные как продукт.

Читать дальше →

+12

algotrader2013 Apr 3 2020 at 16:23

Почему успехи ИИ DeepMind в Atari вызывают у меня разочарование

8 min

6K

Machine learning*Artificial IntelligenceThe future is hereAlgorithms*Big Data*

нарезка скринов игр Atari

Картинка, которую вы видите, позаимствована с сайта DeepMind, и демонстрирует 57 игр, в которых их новейшая разработка Agent57 (обзор статьи на Хабре) достигла успеха. Само число 57 взято не с потолка, — именно столько игр было выбрано еще в 2012 году, чтобы стать своеобразным бенчмарком среди разработчиков ИИ для игр Atari, после чего различные исследователи меряются своими достижениями именно на этом датасете.

В этом посте я постараюсь с разных сторон посмотреть на эти достижения, чтобы оценить их ценность для прикладных задач, и обосновать, почему не верю, что за этим будущее. Ну и да, картинок под катом будет много, — я предупредил.

+11

Barrayar Apr 1 2020 at 09:21

Информация с нулевым доверием

11 min

9.7K

VK corporate blogSystem Analysis and Design*Information Security*Research and forecasts in IT*Social networks and communities

Translation

Недавно Google перевела всех своих сотрудников в Северной Америке на удалённую работу. Это было одной из мер по ограничению распространения SARS-CoV-2, вируса, который вызывает заболевание COVID-19. Это подходящее решение для любой компании, которая может на это пойти. Более того, Google и ряд других основных технологических компаний планирует оплачивать армию подрядчиков, которые обычно обслуживают сотрудников компании.

Впрочем, ещё более значимый поступок Google сделала ещё пять лет назад, когда возглавила переход к сетям с нулевым доверием для своих внутренних приложений. Большинство других технологических компаний последовали её примеру. И хотя это было сделано не для того, чтобы сотрудники работали из дома, сейчас это облегчило перевод людей на удалёнку в сжатые сроки.

+47

swaddling5212 Mar 31 2020 at 16:17

Алгоритмы на экзамене в ШАД

7 min

11K

Algorithms*Entertaining tasks

Привет! Меня зовут Александр Курилкин, и я веду курс по алгоритмам в «ШАД Helper». В этом посте я разберу несколько задач из вступительных экзаменов прошлых лет, чтобы вы смогли увидеть, что вас ждет, и понять, чему мы сможем вас научить на нашем курсе. Надеюсь, что вы разделяете мою любовь к интересным задачам по алгоритмам и получите искреннее удовольствие от прочтения этого поста! Итак, приступим...

Читать дальше →

+13

EnglishDom Mar 31 2020 at 10:59

6 ошибок в английских словах, которые жутко бесят нейтивов

6 min

43K

EnglishDom corporate blogLearning languages

Ошибки — это неизбежная часть обучения. Особенно, когда изучаешь иностранный язык. Главное — вовремя понять, что допустил ошибку, и исправить ее.

Но некоторые ошибки настолько распространены, что становятся классическими. И это жутко бесит нейтивов. В этой статье мы собрали распространенные ошибки, которые раздражают носителей языка сильнее всего.

Читать дальше →

+29

Zmey56 Mar 29 2020 at 11:43

Общий финансовый анализ на Python (Часть 2)

2 min

14K

Finance in ITMachine learning*Python*

Ну что продолжим?

Скользящее окно (Moving Windows)

В заголовке я привел дословный перевод. Если кто меня поправит, и другой термин более применим — то спасибо.

Смысл скользящего окна– с каждым новым значением функция пересчитывается за заданный период времени. Этих функций большое количество. Для примера: rolling.mean(), rolling.std(), которые чаще всего и используют при анализе движения акций. rolling.mean() — это обычная скользящая средняя, которая сглаживает краткосрочные колебания и позволяет визуализировать общую тенденцию.

Читать дальше →

+7

szteyw4rstt Mar 28 2020 at 18:06

Коронавирус — апофеоз паники

3 min

11K

Recovery Mode

На Хабре каждый день появляются статьи на тему Коронавируса, пандемии грандиозного информационного масштаба. На момент написания данной статьи в мире зафиксировано 616 680 случаев заражения и 28 818 летальных случаев, а население Земли составляет 7.5 миллиардов человек. В своей статье я совершенно не пытаюсь отрицать серьёзность самого заболевания, но хочу обратить внимание коллег на чрезмерное нагнетание ситуации правительствами и СМИ. История с Коронавирусом уже обрела формат настоящей истерии и я абсолютно уверен, что гораздо больше людей погибнет не от самого вируса, а от инфарктов и других заболеваний спровоцированных резко возросшим уровнем стресса. Текущий информационный поток служит не объективному информированию, а провоцированию такой эмоции как страх. Сцены с бронетехникой на улицах, люди сметающие продукты и товары первой необходимости вызывают волнение и у людей спокойных, а какой эффект всё это оказывает на стариков или впечатлительных людей трудно представить.

Читать дальше →

-15

saver Aug 13 2019 at 13:32

Selenium, Selenoid, Selenide, Selendroid… Что все это значит?

3 min

28K

Mobile applications testing*Web services testing*IT systems testing*

Привет, Хабр!

В мире автоматизации новичку ориентироваться довольно сложно. Приходится узнавать множество понятий, разбираться в особенностях существующих инструментов. Например, вот: Selenium, Selenide, Selenoid, Selendriod — что это, чем отличается? Да и можно ли их сравнивать?

Написал статью, чтобы помочь в этом разобраться. Кому интересно, добро пожаловать под кат!

Читать дальше →

+19

Rembish Sep 14 2009 at 10:35

Текст любой ценой: PDF

12 min

93K

Продолжаем разбирать текстовые форматы на предмет получения текста. Итак, обещанный ранее PDF.

С portable document format'ом не всё так просто, как DOCX или ODT, что мы рассматривали в прошлый раз, но всё же это всё ещё изначально текстовый, а не бинарный формат. Вы удивлены? Тогда давайте посмотрим на то, что там внутри. Дальше действительно много текста.

Читать дальше →

+73

makasin4ik Apr 3 2019 at 12:21

Правда про парсинг сайтов, или «все интернет-магазины делают это»

11 min

121K

Web analytics*Internet marketing*Content-marketing*E-commerce management*

В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).

Читать дальше →

+94

f2heartz Mar 27 2020 at 20:39

Атомная война в эпоху Великого Комбинатора

3 min

3.9K

System Analysis and Design*Systems engineering*Programming*Designing and refactoring*

Достоевский дал миру Великого Инквизитора с его «зачем же ты пришел нам мешать?».
Ильф и Петров — Великого Комбинатора.
Та эпоха уже закончилась, эта — еще не началась.

Читать дальше →

+8

alexkondr Mar 27 2020 at 14:54

Как мы кратно улучшили качество рекомендаций в оффлайн ритейле

11 min

6.6K

Big Data*Data Engineering*Data Mining*Python*Machine learning*

Technotext 2020

Всем привет! Меня зовут Саша, я CTO & Co-Founder в LoyaltyLab. Два года назад я с друзьями, как и все бедные студенты, ходил вечером за пивом в ближайший магазин у дома. Нас очень расстраивало, что ритейлер, зная, что мы придём за пивом, не предлагает скидку на чипсы или сухарики, хотя это так логично! Мы не поняли, почему такая ситуация происходит и решили сделать свою компанию. Ну и как бонус выписывать себе скидки каждую пятницу на те самые чипсы.

И дошло всё до того, что с материалом по технической стороне продукта я выступаю на NVIDIA GTC. Мы рады делиться наработками с коммьюнити, поэтому я выкладываю свой доклад в виде статьи.

Читать дальше →

+11

dvit83 Mar 27 2020 at 14:13

Почему карантин из-за COVID-19 — это все таки overreacting

4 min

20K

BiotechnologiesHealthPopular scienceOpen data*

Recovery Mode

Обычно паника обратно пропорциональна информированности. В случае с вирусом SARS-CoV-2 не так: данные о его преувеличенной опасности публикуются, но уровень страха тем не менее продолжает расти. Очевидно, медиасреда самостоятельно продуцирует необходимые для поддержания тревожного состояния сообщения. Кроме того, большую роль играют интерпретации данных.

Риски

Вчера на новость об отмене Олимпиады в Токио в ФБ отреагировали так: правильно, иначе «для многих спортсменов Олимпиада, при такой эпидемии, может стать последней».

Очевидно, что в массовом сознании степень опасности вируса оценивается как высокая для каждого.

Один из основных источников данных об эпидемии — это американский университет Хопкинса. В статистических данных о заболевании COVID- 19 приводятся данные по смертности, полученные еще в Китае, но они по прежнему считаются актуальными, т.к. статья обновлена 23 марта.

Для взрослых людей до 40 лет смертность составляет 0,2%. Из них большинство смертей обусловлено сопутствующими причинами (сердечные и респираторные заболевания, рак).
Случаев не-обусловленных — 0,9%.

Читать дальше →

+1

Dmitriy_Khodykin Mar 24 2020 at 12:48

Web2Text: глубокое структурированное извлечение содержимого web-страницы

17 min

5K

Machine learning*Data Mining*

Привет, Хабр! Представляю вашему вниманию перевод статьи "Web2Text: Deep Structured Boilerplate Removal" коллектива авторов Thijs Vogels, Octavian-Eugen Ganea и Carsten Eickhof.

Веб-страницы являются ценным источником информации для многих задач обработки естественного языка и поиска информации. Эффективное извлечение основного содержимого из этих документов имеет важное значение для производительности производных приложений. Чтобы решить эту проблему, мы представляем новую модель, которая выполняет классификацию и маркировку текстовых блоков на странице HTML как шаблонных блоков, или блоков содержащих основной контент. Наш метод использует Скрытую Марковскую модель поверх потенциалов, полученных из признаков объектной модели HTML-документа (Document Object Model, DOM) с использованием сверточных нейронных сетей (Convolutional Neural Network, CNN). Предложенный метод качественно повышает производительность для извлечения текстовых данных из веб-страниц.

Читать дальше →

+11

belgraviton Mar 20 2020 at 12:15

Рубрика «Читаем статьи за вас». Январь — Февраль 2020

22 min

8K

Open Data Science corporate blogImage processing*Machine learning*Mathematics*Algorithms*

Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Представлены обзоры 11 статей по Computer Vision, Natural Language Processing, Reinforcement learning и другим темам.

Читать дальше →

+43

InlyIT Mar 20 2020 at 10:49

Пять знаменитых цитат о программировании с объяснениями

8 min

18K

InlyIT corporate blogProgramming*Perfect code*

Translation

Стать программистом значит подписаться на обучение длиной в жизнь. Поток нового – новые функции, новые языки, новые инструменты, новые фреймворки – не иссякает никогда. Но вместе с тем, программирование – на удивление верная традициям сфера, где все основывается на принципах, проверенных временем. Мы ввели в оборот объектно-ориентированное программирование, современные аппаратные решения, искусственный интеллект, однако, несмотря на все эти изменения, многие аксиомы, которые были сформулированы еще в прошлом поколении, оказываются верными и на сегодняшний день.

Эту статью я посвятил разбору нескольких из своих любимых высказываний, касающихся программирования. Единственным критерием, по которому я производил отбор, было требование, чтобы цитате сравнялось не менее двадцати лет. Потому что это только устаревшие технологии быстро становятся непригодными к использованию, тогда как древние заповеди наших предков-программистов долго сохраняют актуальность.

Читать дальше →

+11

ZlodeiBaal Jun 14 2019 at 00:17

Лопнул ли пузырь машинного обучения, или начало новой зари

10 min

111K

Recognitor corporate blogArtificial IntelligenceResearch and forecasts in IT*Machine learning*Image processing*

Недавно вышла статья, которая неплохо показывает тенденцию в машинном обучении последних лет. Если коротко: число стартапов в области машинного обучения в последние два года резко упало.

Ну что. Разберём «лопнул ли пузырь», «как дальше жить» и поговорим откуда вообще такая загогулина.

+177

1 2 ...

23

24 25 ...