Search
Write a publication
Pull to refresh
170
4

java / open source

Send message

Financial News Sentiment Dataset: определяем точку входа в акции по настроению новостей

Reading time5 min
Views7.4K

Набор данных Financial News Sentiment Dataset (FiNeS) содержит в себе заголовки финансовых новостей о компаниях, торгующихся на Московской и СПб биржах. Целевой переменной датасета является оценка тональности новостных заголовков в виде вещественного числа. Идеи для использования датасета: Создание трейдинговых стратегий на основе анализа тональности новостей "на лету"; Анализ новостного фона в разрезе времени (день/неделя) или в разрезе компании.

Читать далее

Cache pollution? Запасайтесь тестами

Reading time16 min
Views11K

Всем ведь приходилось заниматься улучшением производительности? Для игр особенно актуально, ну может какая-то три-в-ряд не страдает этим. Как обычно серебряной пули нет, начинаем со структур данных, алгоритмов, спускаемся ниже если не помогает, придумываем SoA, AoS шаблоны. Если проблема не решается, подтягиваем профайлеры и предметно разбираем узкие места, но все чтобы мы не делали зачастую таким узким местом всегда будет "железо". Можно сколько угодно оптимизировать другие места, но CPU c его гигагерцами будет простаивать 90% времени если его неправильно "кормить" данными. Одной (только одной из проблем) проблемой организации эффективной работы с данными будет меньше, если знать и уметь работать с кэшами разных уровней. Тут на вики описано, как "на пальцах" быстренько убить перф на обходе массива, простого и общего решения для такого обхода нет. Можно и дальше увеличивать размер кэша, что собственно и делают (гдето здесь на хабре была новость, что Интел при переходе на L1 кэш размером 32кб, заново спроектировал блок доступа к нему, сорян не нашел ссылку), но это дорого, неэффективно на масштабах современных процов, и всегда найдутся данные, которые этот кэш отравят, опять. Интересно как починить? го под кат...

Читать далее

Почему интеграционная БД это отстой

Reading time7 min
Views13K

Интеграционная или shared база данных это архитектурный подход с которым мне часто приходилось сталкиваться, и практически никогда эта встреча не сулила ничего хорошего. Как правило, команда выбирает данный подход по нескольким причинам:

Не надо писать никакие контракты и схемы для интеграций сервисов между собой через API, а каждый может читать/писать из одной БД.

Не надо думать о синхронизации данных, если данные в БД записались значит консистентность достигнута.

Не надо снимать бэкапы с нескольких хранилищ, если можно снимать с одной единственной БД.

Читать далее

“Один дашборд, чтобы править ими всеми”

Reading time6 min
Views4.4K

Привет! Как мы писали в предыдущих постах, наша команда создает удобные дашборды для разных департаментов СИБУРа, от хозяйственной деятельности до продаж. 

Но всегда есть кто-то уровнем повыше, которому нужно как-то централизованно и быстро получать самую верхнеуровневую информацию по всем департаментам сразу (читай - по всем дашбордам).

Для этого мы создаем так называемый Царь-Дашборд. Control Tower. Мета-дашборд. Он содержит информацию о самых важных дашбордах, которые есть в компании, по сквозным процессам (это такие процессы, которые касаются нескольких разных функций, нескольких различных исполнителей в одной компании). Целевая аудитория такого дашборда — первые лица компании: CEO и, что называется, “минус 1” от его должности. Также данные с дашборда могут пригодиться и операционным специалистам, если им удобно воспринимать данные в таком формате.

Читать далее

20 млн рублей в год на парсинге сайтов

Reading time10 min
Views35K

Меня зовут Максим Кульгин, моя компания (xmldatafeed) занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом с вами. Так как тема парсинга часто привлекает внимание и вызывает эмоции (в массе негативные), подготовил статью, где ответил на основные вопросы (их получилось 43) с которыми сталкивались в процессе работы и, надеюсь, развеял некоторые мифы.

1. Можно ли зарабатывать на парсинге? Да. Мы стали активно заниматься этим бизнесом в 2018 году и с тех пор к счастью растем. Привожу открытые налоговые данные. В 2022 году надеемся, что результат будет чуть лучше.

Читать далее

Почему аспирантура — зло

Reading time5 min
Views100K

Вам 20 лет. Вы заканчиваете универ по какой-нибудь прекрасной специальности вроде "Программной инженерии". Вы учитесь на все пятерки, пишете научные статьи, получаете академическую и еще какую-нибудь именную стипендию с крутым названием, ездите по студенческим конференциям и олимпиадам, привозя оттуда призы и охапки мерча. Футболку с последнего чемпионата по программированию вы носите, не снимая (зимой - прямо поверх свитера), и все ваши канцтовары отмечены логотипом Microsoft.

В один прекрасный день научный руководитель предлагает вам остаться в аспирантуре, обещая завидную перспективу. Преподавание с первого же года, стипендия в 10 тысяч, а после защиты надбавка за ученую степень. Ну где еще будешь получать 10 тысяч за научные статьи, думаете вы и...

Читать далее

Как мы внедряли tracing

Reading time6 min
Views13K

Представьте: у вас пара сотен микросервисов, и вдруг всё ломается. А может даже не всё, а, скажем, только одна страница. Если вы хорошо знакомы с системой, то по мониторингам и логам быстро обнаружите проблему и пойдете её решать. Но иногда систему вы видите впервые, и на поиск бага могут часы, или даже дни.

Всем привет, меня зовут Саша Казанцев, я — тимлид команды “Clickme” в hh.ru. В этой статье расскажу о том, как мы внедряли трейсинг. 

Читать далее

Дефолт США: почему о нем никто не говорит, хотя он происходил уже пять раз

Reading time6 min
Views59K

Доллар и госдолг США во всех финансовых учебниках приводятся в качестве примера «безрискового» актива с наивысшей надежностью. Но не все знают, что Дядя Сэм допускал дефолт не раз, и даже не два. В этой статье мы немножко занырнем в финансовую историю Америки, а также выясним – насколько реальна угроза дефолта Штатов сейчас.

Читать далее

Apache Spark 3.1: Spark on Kubernetes теперь общедоступен

Reading time6 min
Views2.8K


С выходом Apache Spark 3.1 в марте 2021-го проект Spark on Kubernetes официально перешел в статус общедоступного и готового к эксплуатации. Это стало результатом трехлетней работы быстрорастущего сообщества, участники которого помогали в разработке и внедрении (изначально поддержка Spark on Kubernetes появилась в Spark 2.3 в феврале 2018 года). Команда Kubernetes aaS от Mail.ru Cloud Solutions перевела самое важное из статьи об основных возможностях Spark 3.1, в которой автор подробно остановился на улучшениях в Spark on Kubernetes.

Читать дальше →

Бот или не бот — вот в чем вопрос

Reading time36 min
Views9.3K

Идентификация пользователей интернета по "веб-отпечатку" (fingerprint) формирует новую реальность. Интернет теряет анонимность прямо сейчас. Это происходит не по причине насилия регулятора, а естественным путем вследствие появления доступной технологии защиты от ботов. Почему защита от ботов деанонимизировала людей, как это уже ударило по коммерции и как совсем скоро изменит общество в целом - популярно под катом.

Читать далее

Взять и собрать «мусор» в облаке — несколько open source решений, которые с этим помогут

Reading time4 min
Views2.8K
image

Если компания активно тестирует гипотезы и запускает новые прототипы, в облаке могут накапливаться «забытые» сервисы, которые продолжают потреблять ресурсы. Есть open source инструменты, которые автоматически находят и удаляют неиспользуемые инстансы в такой инфраструктуре. Обсудим возможности и предпосылки к использованию подобных решений.
Читать дальше →

Как я искал работу на hh.ru

Reading time3 min
Views73K

Добрый день коллеги и все кто читает данную статью. Последнее время стало много в ленте контента по теме поиска работы, вариантов как и кто напишет резюме и поможет решить проблему поиска работы. Поделюсь своим опытом поиска работы через hh.ru с цифрами и выводами.

Мой опыт пользования hh.ru начинается с 2009 года, когда я начал пробовать искать работу для себя на должность CIO (но тогда так не называли, был просто или руководитель ИТ или Директор ИТ). Создал резюме и указал весь свой опыт, за 13 лет я более 50 раз редактировал свое резюме, экспериментировал с описанием, наличием дополнительной информации в виде сертификатов или рекомендательных писем приложенных к резюме, ключевыми навыками. Также экспериментировал с выделением резюме в яркий блок + авто подъем (услуга такая есть у hh), отдельно рассылку по контактам указанным в вакансии.

Читать далее

Планируем идеальный поход с NetworkX и OpenStreetMap

Reading time10 min
Views6.7K

Как создать приложение с открытым кодом для планирования пеших походов и выбора оптимального маршрута?


КДПВ

Любой заядлый турист знает: всё, что ждёт его в походе, зависит от подготовки. Брать ли дождевики? Сколько идти от одного источника воды до другого? Где лучше ночевать в этой местности в это время года? Но самый важный вопрос звучит проще простого: «Что я там буду делать?» Отвечаем на эти вопросы к старту нашего курса по Fullstack-разработке на Python.
Узнать больше

А какой-то что-то как будто бы open source VDI будет?

Reading time9 min
Views10K

Open source так плотно вошел в нашу жизнь, что мы ее без этого феномена и не представляем. Многое, чем мы пользуемся, основано на open source компонентах, работает на open source ОС и это можно продолжать до бесконечности. И если любая инфраструктура начинается с фундамента в виде ОС и виртуализации того или иного типа, и здесь не вызывает вопросов зачем нам Linux, qemu, KVM, containerd и т.п., то VDI на их фоне выглядит экзотикой и точно не является предметом первой необходимости. Тогда возникает вопрос - а зачем тогда вообще разбираться? Ответ простой - если посмотреть на то, что есть в реестре Минцифры в фундаментальных, с точки зрения инфраструктуры, категориях (операционные системы, средства виртуализации, системы управления базами данных, системы контейнеризации и контейнеры), то мы увидим там продукты, которые построены на основе всем известных open source проектов: Linux (почти монопольно), KVM в сочетании с oVirt, Open Stack, OpenNebula, PostgreSQL, Greenplum, Ignite, Kubernetes.

Рынок VDI по сравнению с серверной виртуализацией не велик, но в России немало компаний и организаций, которые понимают, зачем им нужна именно такая инфраструктура. В этой статье попробуем разобраться, какие open source VDI проекты могут лечь в основу российских решений.

Читать далее

Моя попытка сделать Wi-Fi-флешку и что из этого получилось (а что нет)

Reading time11 min
Views64K

Что такое WiFi-флешка? Это флешка, которая опознается, как флешка, пахнет, как флешка, крякает, как флешка, но на самом деле никакая она не флешка, она эмулирует файловую систему, а данные берет по WiFi с сервера.

Читать далее

Вторая жизнь старого железа. Продакшн

Reading time7 min
Views65K

У вас есть отработавшие смартфоны, планшеты, ноутбуки, мониторы? Наконец-то можно проявить смекалку и найти применение старым гаджетам, и перестать выбрасывать их и загрязнять планету.

Всё это можно восстановить, починить, дать железу вторую жизнь, порадовать себя и родственников. Вполне вероятно, что в ближайшие годы продажи паяльных станций побьют рекорды, а ларьки по ремонту техники откроются на каждом углу.
Читать дальше →

Невыжившие в IT

Reading time7 min
Views205K

Этот текст я пишу из лучших побуждений, безо всякой иронии, снобизма и насмешки. Хочу сберечь время и нервы тем, кто поддался на «войти в айти» и прямо сейчас учится сортировать массивы, парсить строки и верит в «да-да, этим ты и будешь заниматься на работе».

Есть такое понятие – ошибка выжившего. Грубо говоря, о явлении, тенденции или событии судят по людям, которые прошли его успешно – выжили. Совершенно игнорируя информацию о тех, кто успеха не достиг. В результате случайная удача интерпретируется как устойчивая вероятность. Если интересна мат.часть – почитайте Нассима Талеба или Даниэля Канемана. Их книги существенно дешевле курсов по ИТ.

Я опишу типичные ошибки тех, кто не выжил. И, соответственно, не вошёл в ИТ. Всё из опыта личных наблюдений.

Да, если «тут всё неправда», «а вот мой друг Коля успешно…» или «а у меня получилось» - прекрасно, текст не про вас и не для вас. Вы и ваш друг Коля – выжившие.

Читать далее

Безумие и успех кода Oracle Database

Reading time4 min
Views81K
На этой неделе пользователи Hacker News решили обсудить вопрос «Каков максимальный объем плохого — но при этом работающего — кода вам доводилось видеть?» (позже к ним присоединились и пользователи Reddit). В комментариях было рассказано немало «веселых» историй про то, с чем мы все время от времени сталкиваемся; но больше всего внимания привлек рассказ про код «передовой СУБД, которую используют большинство компаний, входящих в список Fortune 100».

Победителем в номинации «лавкрафтовские ужасы» заслуженно стал рассказ бывшего разработчика Oracle, который работал над Oracle Database в период разработки версии 12.2. Объем кодовой базы СУБД на тот момент составлял 25 миллионов строк на языке C — и стоило вам изменить лишь одну из этих строк, как ломались тысячи написанных ранее тестов.

За прошедшие годы над кодом успело потрудиться несколько поколений программистов, которых регулярно преследовали жесткие дедлайны — и благодаря этому код смог превратиться в настоящий кошмар. Сегодня он состоит из сложных «кусков» кода, отвечающих за логику, управление памятью, переключение контекстов и многое другое; они связаны друг с другом при помощи тысяч различных флагов. Весь код связан между собой загадочным макросом, который невозможно расшифровать, не прибегая к помощи тетради, в которую приходится записывать, чем занимаются релевантные части макроса. В итоге, у разработчика может уйти день или два только на то, чтобы разобраться, чем же в действительности занимается макрос.
Читать дальше →

Бессерверные платформы для работы с PostgreSQL: что интересного для разработчиков

Reading time3 min
Views5.2K
image

Об оптимизации работы с PostgreSQL уже много рассказывали (в этом году, среди прочего, запустили DBaaS PostgreSQL). Однако тема далеко не исчерпана. Подготовили для вас обзор нового инструмента, который поможет работать с базами данных PostgreSQL, не задумываясь о базовой серверной инфраструктуре.

Бессерверные вычисления приобрели популярность в 2010-х и с тех пор остаются актуальными. В отличие от выделенных серверов, бессерверные модули запускаются при необходимости для каждого события. Технология позволяет не резервировать вычислительные ресурсы заранее и экономить.
Читать дальше →

Почему я не хочу продолжать работу в биотехе

Reading time9 min
Views40K

Немного бекграунда: я никогда не мечтала стать биологом. Я родилась в семье медиков, с детства меня интересовало как устроены мы, люди или другие живые организмы. Мои родители подогревали мой интерес довольно подробными описаниями устройства организмов, ответами на вопросы “почему так, а не иначе”, а отец проводил семинары на популярные медицинские темы для спортсменов. Биология меня интересовала скорее как хобби, мне нравилось читать научпоп, но я никогда не задумывалась о том, чтобы связать свою жизнь с этой сферой. Интересным, с моей точки зрения, фактом является то, что ни отец, ни моя мать не связали свою жизнь с медициной в классическом понимании того, чем должны заниматься выпускники мед. института. Отец и вовсе бросил учебу на последнем курсе. Оба стали предпринимателями.

Я, возможно, наблюдая это, сделала для себя вывод - медицина не приносит денег. Я росла, как я сейчас понимаю, в довольно бедной семье. У нас были деньги на существование, была машина, квартира, у меня была хорошая одежда, но на этом, пожалуй все. Будучи ребенком я для себя видела карьеру успешного офисного менеджера, проводящего планерку, демонстрируя графики роста в окружении изумленных коллег. Думаю, такой выбор карьерного пути был обусловлен моей тогда еще не вполне осознанной потребностью зарабатывать большие деньги. Пожалуй, это было единственной причиной по которой я сделала этот выбор.

Читать далее

Information

Rating
487-th
Location
Россия
Registered
Activity