Articles / Bookmarks / Profile of husniddinkamolov / Habr

How to become an author

Husniddin @husniddinkamolov^{read⁠-⁠only}

User

ProfileBookmarks332

Durham Mar 27 2016 at 18:23

Русский нейросетевой чатбот

5 min

81K

MeanoTek corporate blogMachine learning*Search engines*Semantics*Website development*

О чатботах, использующих нейронные сети я уже писал некоторое время назад. Сегодня я расскажу о том как я попробовал сделать полномасштабный русскоязычный вариант.

Обучаемые диалоговые системы приобрели в последнее время неожиданную популярность. К сожалению, все что сделано в рамках нейросетевых диалоговых систем, сделано для английского языка. Но сегодня мы восполним этот пробел и научим модель говорить по русски.

Читать дальше →

+22

Turbo Apr 26 2016 at 06:44

Соревнования по машинному обучению (весна-лето 2016)

7 min

9.4K

Machine learning*

С мая по сентябрь любители сложных задач по машинному обучению могут принять участие в нескольких конкурсах, предлагающих крупные денежные призы. Конкурсы проводят ресурсы: Kaggle, специализирующийся на соревнованиях такого плана, DCA, создающий сервисы на технологиях Big Data, платформа исследования искусственного интеллекта на базе игры Дум ViZDoom и Национальная библиотека медицины США.

Читать дальше →

+10

v555 Apr 20 2016 at 11:08

AES шифрование и Android клиент

7 min

46K

Rambler&Co corporate blogDevelopment for Android*Java*

Как говорится, ничего не предвещало беды. Мобильный клиент потихоньку пилился, кофе стыл, задачки закрывались одна за другой, пока вдруг внезапно не пришло письмо на корпоративную почту:

Срочно внедряем новый функционал. Все необходимые параметры для построения бизнес модели, в целях безопасности, будут передаваться в зашифрованном виде AES/CBC/PKCS5Padding с вектором инициализации AAACCCDDDYYUURRS и ключом шифрования ZZHHYYTTUUHHGGRR. Пример зашифрованных данных:

p+oJjsGEULNSptP5Sj1BM5w65hMjkqzahORd8ybIkqyJD0V/608c1tYuKIvDLUIa

RQ9jQ6+EwbyMFjlMa6xuEnxOx4sez001hd3NsLO7p00XoTqAvi9zwUBII+

nPphP6Zr0P4icvODpmhlmRILgSBsUf1H/3VN1lNXjo4LTa

GxLqW3VSg9iV9yFq4VMWqsRF

Попытки быстрого поиска решения ~~выдали кучу неработающих примеров~~ показали, что задача выходит за рамки привычной верстки layout’ов и написания Presenter’ов и требует изучения доков и чтения мануалов. Отличная возможность изучить что-то новое и обогатить свой опыт.

Но для начала, давайте разберемся, что же это такое — шифрование и зачем оно вообще нужно.

Читать дальше →

+6

PSecurity Apr 21 2016 at 09:33

Новый шифровальщик CryptoBit распространяется через наборы эксплойтов, поражающие браузер

4 min

15K

Panda Security в России и СНГ corporate blogInformation Security*

Несколько дней назад антивирусная лаборатория PandaLabs компании Panda Security обнаружила новый образец шифровальщика. Речь идет о новом образце CryptoBit, отличающимся некоторыми уникальными особенностями.

Если сравнивать его с другими известными образцами шифровальщиков, то мы можем сказать, что CryptoBit – это единственный в своем роде экземпляр. Он отличается от других шифровальщиков по многим причинам, но одна из главных особенностей – это появляющееся сообщение, которое инструктирует жертву о

Читать дальше →

+9

fevral13 Apr 21 2016 at 09:37

Управление структурой базы данных без боли

8 min

13K

MySQL*PostgreSQL*

Хочу поделиться инструментом, который родился при разработке одного веб-проекта и очень помогает мне не потеряться в море таблиц, хранимых процедур, индексов и прочих обитателей базы данных.

Сам проект написан на Django, в качестве бекенда — PostgreSQL. В самом начале работы было решено, по крайней мере, частично отказаться от использования Django ORM в пользу «сырого» SQL и хранимых процедур. Другими словами, почти вся бизнес-логика вынесена на уровень базы данных. Сразу скажу, что готовить ORM я умею, но в данном случае требовалось производить многоступенчатые вычисления, связанные с множеством выборок, а это лучше делать на сервере БД и не таскать промежуточные данные в приложение.

Столкнувшись с необходимостью поддержания структуры базы данных вручную, без приятностей Django Migrations, я выяснил, что вручную писать инкрементальные SQL патчи возможно, но трудно уследить за зависимостями объектов БД. К примеру, когда функции, которая используется где-то еще, добавляешь еще один аргумент, простого CREATE OR REPLACE недостаточно — ее нужно сначала DROP, а потом CREATE. При этом нужно предварительно удалить зависимые от нее функции, а потом создать заново (а если от этих функций еще кто-то зависит, тогда надо и их пересоздать).

Под катом краткое описание возможностей в виде туториала. Встречайте — Sqlibrist.

Читать дальше →

+10

a-pichugin Sep 17 2015 at 16:15

Анализ логов с помощью Hadoop/Python

6 min

21K

DCA (Data-Centric Alliance) corporate blogSystem Analysis and Design*Hadoop*Big Data*

Привет, Хабр! В этом посте я хотел бы рассказать вам о том, как мы, Лаборатория новых профессий, вместе с компанией Data-centric Alliance смогли сконструировать несколько лабораторных работ, посвящённых обработке и анализу веб-логов. Эти лабораторные работы являются ключевыми в рамках первого кейса нашей образовательной программы «Специалист по большим данным» и выполняются на основе аудиторных данных DMP Facetz.DCA. Меня зовут Артем Пичугин, и я являюсь её координатором.

Задача

Представьте, что вы компания, продающая автомобили. Кому показать рекламу автомобиля? На каких сайтах? Так, чтобы недорого и эффективно? Казалось бы, ответ очевиден: пользователям, которые заходят на страницы покупки автомобилей на сайтах компаний, а также на досках объявлений типа Avito и т д.

Читать дальше →

0

asash Sep 21 2015 at 15:47

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

6 min

525K

Tutorial

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

Читать дальше →

+44

asash Oct 5 2015 at 16:10

Big Data от А до Я. Часть 2: Hadoop

9 min

237K

DCA (Data-Centric Alliance) corporate blogBig Data*Hadoop*

Tutorial

Привет, Хабр! В предыдущей статье мы рассмотрели парадигму параллельных вычислений MapReduce. В этой статье мы перейдём от теории к практике и рассмотрим Hadoop – мощный инструментарий для работы с большими данными от Apache foundation.

В статье описано, какие инструменты и средства включает в себя Hadoop, каким образом установить Hadoop у себя, приведены инструкции и примеры разработки MapReduce-программ под Hadoop.

Читать дальше →

+32

asash Nov 9 2015 at 09:45

Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений

7 min

86K

Big Data*Hadoop*Website development*

Привет, Хабр! В предыдущих статьях мы описали парадигму MapReduce, а также показали как на практике реализовать и выполнить MapReduce-приложение на стеке Hadoop. Пришла пора описать различные приёмы, которые позволяют эффективно использовать MapReduce для решения практических задач, а также показать некоторые особенности Hadoop, которые позволяют упростить разработку или существенно ускорить выполнение MapReduce-задачи на кластере.

Читать дальше →

+23

ser0t0nin Jan 11 2016 at 13:35

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

11 min

160K

DCA (Data-Centric Alliance) corporate blogPython*Machine learning*

Hello, Habr! Недавно мы получили от “Известий” заказ на проведение исследования общественного мнения по поводу фильма «Звёздные войны: Пробуждение Силы», премьера которого состоялась 17 декабря. Для этого мы решили провести анализ тональности российского сегмента Twitter по нескольким релевантным хэштегам. Результата от нас ждали всего через 3 дня (и это в самом конце года!), поэтому нам нужен был очень быстрый способ. В интернете мы нашли несколько подобных онлайн-сервисов (среди которых sentiment140 и tweet_viz), но оказалось, что они не работают с русским языком и по каким-то причинам анализируют только маленький процент твитов. Нам помог бы сервис AlchemyAPI, но ограничение в 1000 запросов в сутки нас также не устраивало. Тогда мы решили сделать свой анализатор тональности с блэк-джеком и всем остальным, создав простенькую рекурентную нейронную сеть с памятью. Результаты нашего исследования были использованы в статье “Известий”, опубликованной 3 января.

В этой статье я немного расскажу о такого рода сетях и познакомлю с парой классных инструментов для домашних экспериментов, которые позволят строить нейронные сети любой сложности в несколько строк кода даже школьникам. Добро пожаловать под кат.

Читать дальше →

+69

asash Apr 1 2016 at 13:08

Big Data от А до Я. Часть 4: Hbase

11 min

103K

DCA (Data-Centric Alliance) corporate blogBig Data*

Tutorial

Привет, Хабр! Наконец-то долгожданная четвёртая статья нашего цикла о больших данных. В этой статье мы поговорим про такой замечательный инструмент как Hbase, который в последнее время завоевал большую популярность: например Facebook использует его в качестве основы своей системы обмена сообщений, а мы в data-centric alliance используем hbase в качестве основного хранилища сырых данных для нашей платформы управления данными Facetz.DCA

В статье будет рассказано про концепцию Big Table и её свободную реализацию, особенности работы и отличие как от классических реляционных баз данных (таких как MySQL и Oracle), так и key-value хранилищ, таких как Redis, Aerospike и memcached.
Заинтересовало? Добро пожаловать под кат.

Читать дальше →

+22

tsimokha Dec 14 2015 at 06:41

Отдельное хранение медицинских данных и региональные информационные системы

4 min

12K

Dell Technologies corporate blog

Пару месяцев назад мы писали о проблематике хранения результатов медицинской диагностики. Давайте продолжим обсуждение этой темы, и поговорим о необходимости отдельного (продуктонезависимого) хранения медицинских данных, и о региональных информационных системах.

Читать дальше →

+7

ITI_Capital Mar 10 2016 at 06:56

Что должен уметь программист, чтобы получить работу в сфере финансов

5 min

51K

ITI Capital corporate blogWebsite development*

В нашем блоге на Хабре мы много пишем об использующихся в сфере финансов технологиях. На фондовых биржах сегодня используется самое передовое программное и аппаратное обеспечение — как для построения самой торговой инфраструктуры, так и для создания систем онлайн-трейдинга.

Сегодня здесь востребованы математики, физики и программисты. Люди способные создавать алгоритмы торговли и делать на их базе качественный софт. Многие программисты, в свою очередь, хотели бы попробовать свои силы в финансовой отрасли — она может предложить привлекательное сочетание интересных задач и высоких зарплат.

Сегодня мы поговорим о том, какими навыками нужно обладать, чтобы получить работу в HFT-фирме, инвестиционном банке, хедж-фонде или брокерской компании. При подготовке топика использовались материалы сайтов experience.com и quantstart.com.

Читать дальше →

+8

itmo Feb 19 2016 at 06:57

Список ресурсов по машинному обучению. Часть 1

3 min

30K

ITMO corporate blogProgramming*Machine learning*Website development*

Translation

Ранее мы говорили о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решилие еще раз (1, 2) взглянуть в сторону темы машинного обучения и привести адаптированную (источник) подборку полезных материалов, обсуждавшихся на Stack Overflow и Stack Exchange.

Читать дальше →

+23

itmo Feb 20 2016 at 08:27

Список ресурсов по машинному обучению. Часть 2

11 min

48K

ITMO corporate blogMachine learning*Programming*Website development*

Translation

Продолжим (1, 2) рассматривать тему машинного обучения. Вашему вниманию вторая часть (первая тут) адаптированной подборки полезных материалов.

Читать дальше →

+22

Zalina Jan 13 2016 at 12:42

Разные языки программирования и их области применения. Лекция в Яндексе

28 min

455K

Яндекс corporate blogWebsite development*Programming*Industrial Programming*

Наш первый пост в этом году мы решили посвятить очень базовой теме, лекция на которую была прочитана в Малом ШАДе. Занимаются в нём старшеклассники, которым интересны технологии, отсюда специфичность изложения — лекция будет особенно интересна тем, кто только начинает программировать и задумывается о том, в каком направлении развиваться. Для них же у Яндекса есть курс «Введение в программирование (С++)», который можно пройти на платформе Stepic.org.

Лектор Михаил Густокашин — куратор академических программ Яндекса, директор центра студенческих олимпиад факультета компьютерных наук ВШЭ. Михаил подготовил десятки победителей и призёров Всероссийских олимпиад по программированию.

В рамках лекции рассказывается о том, какие бывают языки программирования, чем они отличаются, как они появились и какие из них лучше, а какие — хуже. В начале речь немного пойдет об истории языков — как они появились, как люди начали программировать, как все развивалось, что сейчас происходит. Во второй части будет затронуто то, для каких задач какой язык подходит, как «выбрать себе любимый язык и получать удовольствие от жизни». Лектор также немного расскажет о том, как, по его мнению, всему этому научиться и потом устроиться на работу.

Как всегда, под катом — подробная расшифровка лекции, чтобы вы могли сориентироваться в ее содержании.

Читать дальше →

+27

1cloud Jan 13 2016 at 09:55

350+ полезных ресурсов, книг и инструментов для работы с Docker

14 min

106K

1cloud.ru corporate blogIOTDevelopment for e-commerce*Development of mobile applications*Website development*

Translation

Мы уже ни раз приводили полезные руководства и подборки источников для разработчиков. На этот раз мы решили продолжить тему контейнеров, которую мы затрагивали ранее, и рассказать о подборке тематических ресурсов на GitHub.

Читать дальше →

+28

nepster-web Jan 1 2016 at 10:46

Разработка приложений на Yii2 без опыта — прямой путь в АД

7 min

76K

В этой статье речь пойдет о разработке приложений на Yii2. А именно, как в самом начале своего пути без определенного опыта легко поддаться на искушения и свернуть на дорогу, которая ведет прямо в АД. Далее под словом АД предполагается ситуация в которой вы понимаете, что сопровождать ваш код становится все сложнее.

Предложенная информация может быть полезна начинающим и средним разработчикам, профессионалы могут счесть ее жалобой, что вполне может оказаться правдой.

Читать дальше →

+4

inemelin Dec 23 2015 at 13:53

Разработка на фреймворке Yii2 на платформе IBM Bluemix

3 min

4.6K

IBM Bluemix corporate blogWebsite development*

Tutorial

Recovery Mode

У меня возникли сложности с размещением php-приложений с использованием фреймворка Yii2 на платформе IBM Bluemix. Уверен, я такой не один, поэтому в этом посте содержится короткая инструкция, как этих сложностей можно избежать.

Что нам потребуется сделать:

создать проект в Bluemix
подключить Git
создать проект Yii2 и изменить структуру файлов
настроить облако
включить приложение, залив код

Создаем приложение в Bluemix

Bluemix по своей структуре предназначен для конечного продукта, таким образом разработкой проекта следует заниматься локально или (как я) на отдельном сервере.

После регистрации на bluemix.net заходим на DASHBOARD и создаем среду для приложения на php в Cloud Foundry. Для этого на стартовой странице нажимаем кнопку Create App.

Читать дальше →

+8

danikin Dec 22 2015 at 12:53

Как сэкономить миллион долларов с помощью Tarantool

10 min

31K

VK corporate blogNoSQL*Tarantool*High performance*

Для чего используются базы данных, ведь есть старые добрые файлы? Чем они хуже базы данных или чем база данных лучше файлов? БД — более структурированное хранилище. Она позволяет делать транзакции, запросы и так далее. Самый простой случай: есть сервер с базой данных и несколько приложений, которые делают запросы к серверу. База данных отвечает, меняет что-то внутри себя, и всё хорошо ровно до того момента, пока нагрузка на неё не вырастает настолько, что база данных перестаёт справляться.

Если допустить, что это только нагрузка на чтение, то проблема решается репликацией. Вы можете ставить к базе данных столько реплик, сколько нужно, и все чтения пускать на реплику, а все записи — на мастер. Если же на базу данных идёт нагрузка на запись, то репликация эту проблему не решает, ведь запись должна осуществляться на все реплики. Таким образом, сколько бы вы их ни ставили, вы не уменьшите нагрузку на запись из расчёта на одну машину. Тут на помощь приходит шардинг.

Если база не держит нагрузку на запись, то шарды можно добавлять до бесконечности. Шард устроен сложнее, чем реплика, потому что нужно как-то распределить данные по таблицам или внутри таблицы, по хэшу, по range — есть множество разных вариантов. Таким образом, добавляя реплики и шарды, вы можете делить любую нагрузку на базу данных. Казалось бы, больше желать нечего, о чём дальше говорить?

Читать дальше →

+45

6

7 8 ...