User

empenoso May 27 at 00:25

Отбор акций Мосбиржи для Backtrader: загрузка истории через библиотеку Игоря Чечета и её поквартальный анализ на Python

Easy

10 min

2.5K

Open source*Python*Finance in IT

Case

Если вы задумывались о системной торговле, то, скорее всего, уже слышали о Python библиотеке Backtrader. Это гибкий фреймворк для тестирования торговых стратегий на исторических данных, который к тому же может быть подключён к автоторговле через API российского брокера. В нём можно реализовать практически любую логику, от простого пересечения скользящих средних до сложных многофакторных моделей.

Однако даже самая изощрённая стратегия ничего не стоит, если протестирована на неликвидных бумагах — там, где в реальной торговле вы бы просто не смогли купить или продать по нужной цене. Именно поэтому работа с ликвидными акциями — ключ к достоверному тесту.

Ликвидность — это не про «красиво на графике», а про то, как на самом деле исполняются сделки, насколько проскальзывает цена и как часто ваши заявки останутся без исполнения. Здесь нам поможет Игорь Чечет — автор библиотек AlorPy, TinkoffPy и FinamPy, размещенных на GitHub, которые дают удобный способ подключиться к API этих трёх брокеров из Python. Эти инструменты и библиотека‑обертка — фактически мост между Backtrader и живым рынком.

В статье будем скачивать исторические данные настолько глубоко, насколько это возможно и находить самые активно торгуемые акции по кварталам за последние 20 лет при помощи моего Python скрипта.

Ваша критика или поддержка идей, приведённых в статье приветствуется.

Ищем ликвидность

AKlimenkov Jan 14 2023 at 14:44

Бритва Оккама и другие острые бритвы познания — как использовать в IT и в жизни

5 min

29K

Lifehacks for geeksPopular scienceReading roomGTD*Development Management*

Про бритву Оккама хоть раз слышал каждый: во многих статьях и книгах встречается призыв не множить сущности без необходимости. Но не все знают, что в науке есть и другие «бритвы», которые помогают избавиться от лишнего. Термин «бритва» используется для обозначения метода, который помогает отбрасывать что-то ненужное, маловероятное, неправдоподобное. Принцип «бритвы» или «лезвия» — это на удивление универсальный инструмент, который помогает не только в процессе научного познания, но и в работе, и в повседневной жизни.

В этой статье я перечислю несколько известных «именных» бритв (про Оккама тоже не забуду) и покажу, как их можно использовать в работе IT-специалиста. Заодно я сформулирую несколько правил, которые сам стараюсь соблюдать при применении этих самых «бритв», чтобы ненароком не ошибиться и не получить результат, противоположный ожидаемому.

+63

ChePeter Feb 4 at 12:03

Распили её правильно. А/В разрез генеральной совокупности

Hard

6 min

567

Business Models*Mathematics*Statistics in ITResearch and forecasts in IT*Data Mining*

Opinion

В написании этой статьи ни один ИИ не ~~пострадал~~ участвовал. Весь текст написан с помощью мощного естественного интеллекта автора

В настоящее время АВ тестирование приобрело всеобъемлющий и неоспоримый формат исследования своих действий в предложении товаров и услуг, да и любого исследования человеческих сообществ.

И главное, что всё просто - берете исследуемое множество, выделяете часть и исследуете эту часть. В надежде, что свойства этой части такие, же как и у всего сообщества.

Главное тут - правильно разделить.

посмотри на А/В тест с другой стороны

kucev Feb 4 at 12:49

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

19 min

2.1K

Big Data*Data Engineering*Data Mining*Artificial IntelligenceMachine learning*

Translation

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.

Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.

vsradkevich Feb 4 at 17:40

Об OpenAI Deep Research

Medium

28 min

8.3K

Artificial IntelligenceMachine learning*Search engines*Research and forecasts in IT*Data Mining*

Review

Всем привет! Меня зовут Владимир, я разработчик ИИ с 8-летним стажем (до этого много backend-frontend, веб-разработки и всего такого), увлеченный наукой и технологиями (в первую очередь наукой омоложения, физикой, автоматизацией -- в прочем как и Вы).

В своей карьере мне довелось пережить эволюцию поисковых инструментов: от эпохи простых поисковиков, через взрыв популярности форумов и Stack Overflow, до появления современных AI-ассистентов. И каждый новый виток этой эволюции менял наш подход к поиску и анализу информации.

Теперь же на горизонте замаячило нечто действительно революционное — автономные ИИ-агенты для проведения исследований. Сегодня я расскажу об одном из самых обсуждаемых таких инструментов — OpenAI Deep Research. Этот специальный режим ChatGPT обещает вывести поиск информации на новую глубину.

Давайте разберемся, что он из себя представляет, чем отличается от привычных нам инструментов, и как его можно применить с максимальной пользой...

DimDimDimDimDim Feb 27 2024 at 15:55

Как быстро написать API на FastAPI с валидацией и базой данных

11 min

33K

Selectel corporate blogAPI*Python*Website development*

Review

✏️ Technotext 2023

Все веб-запросы обрабатываются на сервере — это хорошо всем известно. Но бывает, когда нужно написать специальный программный интерфейс, так называемый API, через который пользователи смогут централизованно получать данные и вносить изменения, например, в свой профиль.

В этой статье мы разработаем простой API с помощью самого популярного стека и FastAPI. Рассмотрим важные концепции в работе с этим фреймворком, набросаем базовую структуру проекта и развернем приложение на облачном сервере. Подробности под катом!

Читать дальше →

+42

kucev May 23 2024 at 14:22

Машинное обучение: мост между бизнесом и Data Science

16 min

5.4K

Artificial IntelligenceData Mining*Data Engineering*Big Data*Machine learning*

Translation

Если последние несколько лет вы не жили на далёком острове без электричества и связи, то, вероятно, слышали о машинном обучении. Этот тренд было сложно не заметить. Каждый раз, когда мы говорим о беспилотных автомобилях, чат-ботах, AlphaGo или предиктивной аналитике, упоминается та или иная реализация машинного обучения. Хотя недостатка в историях и евангелистах нет, машинное обучение пока не стало в глазах бизнеса абсолютной необходимостью. В общественном восприятии применяемые в ML алгоритмы близки к научной фантастике, а подготовка конкретного плана внедрения ML по-прежнему остаётся высоким барьером.

Цель этой статьи — практические ответы, а не подготовка видения или продвижение тренда. Мы поговорим о зонтичном термине data science, о взаимосвязи его отраслей, основных задачах, которые может решать машинное обучение, а также о том, как эти задачи можно перевести на язык бизнеса. Также мы обсудим основные решения, которые нужно принять при найме специалистов, и выделим сложности, которые нужно учесть заранее

Читать дальше →

ShashkovS Feb 26 2018 at 06:23

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

25 min

1.7M

Python*Regular expressions*Perfect code*Sport programming*Reading room

Регулярные выражения в Python от простого к сложному

Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском. Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток. Мало картинок, мало примеров. И почти нет разумных задач. Ну неужели поиск IP-адреса — это самая частая задача для регулярных выражений? Вот и я думаю, что нет.
Про разницу (?:...) / (...) фиг найдёшь, а без этого знания в некоторых случаях можно только страдать.

Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому был разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые прямо очень нужны, но никто про это не пишет.
Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами.

Надеюсь, вам удастся из него извлечь что-нибудь новое и полезное, даже если вы уже в ладах с регулярками.

Читать дальше →

+97

Qvantro Jan 25 2021 at 10:51

Вакцинация для чайников глазами айтишника

13 min

14K

Popular scienceHealth

From sandbox

За последнюю неделю я достаточно часто отвечал на вопросы о вакцинации, что подвигло меня написать небольшой F.A.Q. для чайников без сложной терминологии с ответами на наиболее частые вопросы про прививку от коронавируса. С помощью этой небольшой статьи я объяснял своим родителям и родственником текущую картину мира "вакцинации". "Все изложенное ниже - мое личное мнение и не отменяет необходимости проконсультироваться с врачом.

В статье мы рассмотрим основные вопросы, связанные с безопасностью и эффективностью имеющихся вакцин, а также постараюсь подтвердить или опровергнуть слухи и мифы о доступных россиян вакцин.

Краткий F.A.Q по вакцинации

AlexanderPetrenko Nov 30 2020 at 20:58

Участвуем в соревновании по Data Science. Первый опыт

37 min

5.2K

Python*Artificial IntelligenceMachine learning*Studying in IT

Tutorial

Привет, Хабр!

Давно я не писал никаких статей и, вот думаю, пришло время написать о там, как мне пригодились знания по data science, полученные по ходу обучения небезывестной специализации от Яндекса и МФТИ «Машинное обучение и анализ данных». Правда, справедливости ради надо отметить, что знания до конца не получены — специализация не завершена :) Однако, решать простенькие реальные бизнесовые задачи уже можно. Или нужно? На этот вопрос будет ответ, буквально через пару абзацев.

Итак, сегодня в этой статье я расскажу уважаемому читателю о своем первом опыте участия в открытом соревновании. Хотелось бы сразу отметить, что моей целью соревнования было не получение каких-либо призовых мест. Единственное желание было попробовать свои силы в реальном мире :) Да, в добавок так вышло, что тематика соревнования практически никак не пересекалась с материалом из пройденных курсов. Это добавило некоторые сложности, но с этим соревнование стало еще интереснее и ценнее опыт вынесенный оттуда.

По сложившейся традиции, обозначу кому может быть интересна статья. Во-первых, если Вы уже прошли первые два курса указанной выше специализации, и хотите попробовать свои силы на практических задачах, но стесняетесь и переживаете, что может не получиться и Вас засмеют и т.д. После прочтения статьи, такие опасения, надеюсь, развеятся. Во-вторых, возможно, Вы решаете схожую задачу и совсем не знаете с чего зайти. А здесь готовенький простенький, как говорят настоящие датасайнтисты, бэйзлайн :)

Читать дальше →

Newchronik Nov 13 2020 at 07:24

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

4 min

13K

Machine learning*Artificial IntelligenceAlgorithms*Python*Data Engineering*

Эта статья внеплановая. В прошлый раз я рассматривал нюансы и проблемы различных методов нормализации данных. И только после публикации понял, что не упомянул некоторые важные детали. Кому-то они покажутся очевидными, но, по-моему, лучше сказать об этом явно.

Читать дальше →

Datana corporate blog May 18 2020

В черную металлургию за реальными делами: опыт Datana

Привет, мы Datana! За последние два года мы ушли от работы с госзаказчиком в промышленность. Начали с наивной гипотезы, но увлеклись, погрузились с головой в металлургию и теперь не видим своего будущего без работы на реальном рынке. Сегодня мы ищем пути оптимизации производства с помощью инструментов Индустрии 4.0 (искусственного интеллекта, IIOT, дронов и т.д.) и точно знаем, зачем IT-шнику учить химию и кому после вуза еще потребуется высшая математика. Сегодня расскажем, как мы к этому пришли.

+38

Mumlum Nov 15 2019 at 12:13

Как выучить иностранный язык

10 min

115K

Learning languages

Я расскажу о том, как изучать иностранный язык и буду это делать на примере личного опыта изучения английского языка. Английский я начал учить в 36 лет, а уже сейчас у меня свободный английский язык (как письменный, так и устный), подтверждённый официальными сертификатами. Чтобы не быть голословным: у меня есть сертификат IELTS 7.5 баллов (это С1 level) и сертификат переводчика NAATI. Короче, я знаю о чем говорю.

Оглавление:

Отступление про умных людей и прочих полиглотов
Первый шаг
Какой преподаватель нужен (уровень преподавателя)
Где искать преподавателя
Развитие навыков: слушание
Развитие навыков: чтение
Развитие навыков: письмо
Развитие навыков: разговор: произношение
Развитие навыков: разговор: языковой барьер
Словарный запас
Самое главное

Итак, вопрос: “Как выучить английский язык?”.

Читать дальше →

+87

158

y_durov Nov 16 2019 at 15:41

Как я писал бота для школьных д/з и менял базу данных

3 min

14K

API*MySQL*

Здравствуйте, Хабровчане!
Сегодня я постараюсь поведать вам как школьник может написать бота для хранения домашки для VK.

Осторожно

Сразу обращу внимание, что для серьёзных проектов так строить инфраструктуру нельзя, весь этот проект создавался только для развлечения и убивания времени, ну и презентации на всяких школьных проектных конференциях.

Замечание

17.11.2019 15:55
Мне написали в личные сообщения, что на протяжении статьи не очень понятно, о каких именно домашних заданиях идёт речь.
Уточню сразу, что все задания, о которых я рассказываю в статье, заполняются как в обычном дневнике, а старые задания «исчезают».
Именно так пользователь получает те задания, которые ему будет нужно сделать.

Читать дальше →

+19

nmivan Aug 16 2019 at 16:56

Аки Феникс

11 min

25K

Lifehacks for geeksPersonnel Management*Reading room

Как я всё это ненавижу. Работу, начальника, программирование, среду разработки, задачи, систему, в которую они записаны, подчиненных с их соплями, цели, электронную почту, интернет, социальные сети, где все поразительно успешны, показушную любовь к компании, лозунги, собрания, коридоры, туалеты, лица, рожи, дресс-код, планирование. Я ненавижу всё, что происходит на работе.

Я выгорел. Давно. Еще толком не начав работать, где-то через год после института, я уже ненавидел всё, что меня окружает в этом чертовом офисе. Я приходил на работу, чтобы ненавидеть. Меня терпели, потому что за первый год я показал впечатляющий рост. Со мной возились, как с младенцем. Меня пытались замотивировать, понять, раззадорить, научить, направить. А я всё больше ненавидел.

Читать дальше →

+38

AShtripling Jul 4 2019 at 07:02

Ездовые собаки: что нужно про них знать, и как их выводили

10 min

31K

Туту corporate blogBiotechnologiesUrbanism

У породы бывают карие глаза или синие. А у этой — оба варианта сразу.

Одна из самых крутых историй Туту Приключения — то, как полярники Дмитрий и Матвей Шпаро водят экспедиции школьников на Северный полюс. Да, прямо на самый полюс — на лыжах. В детском лагере «Большое Приключение» в Карелии, куда можно поехать просто так, а юные полярники приезжают готовиться к экспедиции, живут 60 ездовых собак. С этими собаками можно и просто пожить 14 дней, и пройти большой трекинговый маршрут.

Полтора года назад часть собак перевели в Москву. На севере парка «Сокольники» есть отгороженная площадка хаски-парка, и там можно пообниматься с сибирскими хаски и чукотскими ездовыми. Просто дойти до базы, заплатить 400 рублей за билет и оказаться среди клубка лохматых собак. Это те самые собаки, которые участвуют в приключении, просто до них может дойти каждый москвич.

А прелесть в том, что они безопасны для человека. Базовая порода, из которых их выводили, — это просто стаи собак, живших около стойбищ кочевых народов. Стояли яранги чукчей, а вокруг бегали собаки на свободном выгуле. И вот если хотя бы одна из них (любая) зарычит на ребёнка, то её тут же стреляют как опасную.

Много поколений отбраковки собак, агрессивных к людям, и отбора самых послушных (для езды в упряжках) дали собаку, начинающую ластиться к каждому человеку, которого увидит. Но в данном случае это не значит, что они не соперничают между собой.

Читать дальше →

+64

germn Jun 24 2019 at 06:29

10 фич для ускорения анализа данных в Python

5 min

22K

Big Data*Data Mining*Python*Programming*

Translation

Источник

Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала свои самые любимые и сделала из них эту статью. Какие-то из советов ниже уже известны многим, а какие-то появились совсем недавно. Так или иначе, я уверена, они точно не будут лишними, когда вы в очередной раз приступите к проекту по анализу данных.

1. Профилирование Pandas Dataframe

Профилирование помогает лучше понять наши данные, и пакет Pandas Profiling создан как раз для этого. Библиотека даст возможность просто и быстро выполнить разведочный анализ Pandas Dataframe. Обычно в таких случаях в качестве первого шага используются функции df.describe() и df.info(), но они сообщают мало и плохо справляются с большими наборами данных. Одна строка кода с использованием Pandas Profiling, напротив, выведет много информации в интерактивном HTML-отчете.

Вот что вычисляется для заданного набора данных:

Статистика выводимая Pandas Profiling.

Установка

pip install pandas-profiling
или
conda install -c anaconda pandas-profiling

Использование

Давайте используем набор данных о пассажирах Титаника, чтобы продемонстрировать возможности профайлера.

Читать дальше →

+14