Articles / Bookmarks / Profile of EddyLan / Habr

Eduard Lanchev @EddyLan

Data Scientist

Profile Publications 11Comments 55Bookmarks 314

Aleron75 Jan 11 2022 at 09:19

5 грязных трюков в соревновательном Data Science, о которых тебе не расскажут в приличном обществе

5 min

24K

Python*Data Mining*Big Data*

Поговорим про способы жульничества в Data Science.

+56

NewTechAudit Jan 11 2022 at 09:45

Поиск оптимального пути для выявления отклонений в бизнес-процессе

5 min

2.1K

Python*Programming*

Любая крупная компания представляет собой множество обособленных или взаимосвязанных процессов, которые решают задачи различной направленности. Как правило, любой процесс является сложным механизмом взаимодействия людей, сервисов или других компаний, от которых зависит конечный результат исполняемого процесса. Перерывы в поставках ресурсов, изъяны в сервисах и алгоритмах, длительные исполнение простых операций или их повторное выполнение и многие другие факторы приводят к дополнительным экономическим издержкам и накоплению негативного клиентского опыта. Таким образом, анализ процессов и устранение недостатков в них — одна из важных составляющих для успешного ведения бизнеса.

CyberLympha Jan 10 2022 at 16:22

Использование рекуррентных нейронных сетей в Reinforcement Learning

12 min

9.7K

Python*Algorithms*Artificial IntelligenceMachine learning*Programming*

В задачах машинного обучения для обучения модели может использоваться известная целевая переменная (задачи такого типа называются «обучение с учителем»), либо модель самостоятельно учится находить закономерности с имеющихся данных, не имея заранее известные правильные результаты (такой тип задач называется «обучение без учителя»). Обучение с подкреплением (Reinforcement Learning, RL) не относится ни к первому типу, ни ко второму, однако обладает свойствами и того, и другого. Этот вид машинного обучения в настоящее время бурно развивается, разрабатывается множество теоретических алгоритмов RL [1], однако основная причина всплеска интереса заключается в множестве практических задач, в которых применяется RL, прежде всего в автоматизации, оптимизации и робототехнике. Обучение с подкреплением эффективно прежде всего там, где системе требуется анализировать окружающую среду и выбирать политику поведения с учетом получаемого отклика.

Читать дальше →

+14

BorisBurkov Jan 8 2022 at 21:50

Как работает DeepMind AlphaFold2?

33 min

12K

BiologyBiotechnologiesMachine learning*

From sandbox

Translation

На мой взгляд DeepMind AlphaFold2 и Github Copilot являются одними из самых значимых достижений науки и техники в 2021 году. Спустя два года после их первоначального прорыва команда из DeepMind фактически смогла решить (с небольшими оговорками) задачу фолдинга белка, остававшуюся нерешенной более 50 лет. В этом посте я подробно разбираю устройство данной системы.

+29

Razant Jan 8 2022 at 17:45

GPT для чайников: от токенизации до файнтюнинга

13 min

104K

Semantics*Programming*Machine learning*Natural Language Processing*

Tutorial

Technotext 2022

К моему удивлению, в открытом доступе оказалось не так уж много подробных и понятных объяснений того как работает модель GPT от OpenAI. Поэтому я решил всё взять в свои руки и написать этот туториал.

+29

Margarita-3M Dec 31 2021 at 16:29

Теорема Байеса: просто о сложном

8 min

62K

Mathematics*Machine learning*Statistics in IT

From sandbox

Translation

В этой статье мы рассказываем об основах и применении одного из самых мощных законов статистики - теоремы Байеса.

Мы продемонстрируем применение правила Байеса на очень простом, но практичном примере тестирования на наркотики и реализуем расчеты на языке програмирования Python. Мы также проиллюстрируем, как ограничения теста влияют на прогнозируемую вероятность и что в тесте необходимо улучшить, чтобы получить результат с высокой степенью достоверности.

Мы также покажем истинную силу байесовских рассуждений и как несколько байесовских вычислений можно объединить в цепочку, чтобы вычислить общую апостериорную вероятность.

+17

jhw Dec 30 2021 at 14:05

Знакомьтесь: ETNA

5 min

12K

Т-Банк corporate blogMachine learning*

Tutorial

From sandbox

Меня зовут Юля, я разработчик команды ETNA. Расскажу о том, как мы запустили открытый инструмент для аналитики и прогнозирования бизнес-процессов, как он устроен и как его использовать.

В Тинькофф мы часто решаем задачи по прогнозированию: хотим знать количество звонков на линии обслуживания или сколько наличных клиенты снимут в банкомате на следующей неделе. Специалисты по обработке данных и аналитики, которые сталкиваются с проблемами прогнозирования, могут использовать целый ряд различных инструментов для своей работы. Это неудобно и требует времени. Чтобы упростить задачу, мы разработали наш фреймворк.

+18

kucev Dec 28 2021 at 13:09

Методика машинного обучения Human-in-the-Loop

9 min

6.9K

Big Data*Data Mining*Artificial IntelligenceMachine learning*Image processing*

Translation

Human-in-the-loop AI — это технология автоматизации, устраняющая многие проблемы разработки и внедрения машинного обучения.

Большинство проектов создания ИИ завершается провалом. 80% никогда не доберётся до стадии внедрения. Ещё большее количество никогда не вернёт вложенные в них инвестиции. Проблема заключается в том, что разработка ИИ — это процесс экспериментирования, однако при традиционном подходе об этом забывают.

Многие команды разработчиков сегодня начинают применять технологию под названием human-in-the-loop AI (HITL). Технология подразумевает, что можно быстро развернуть работающую модель с меньшим количеством данных и с гарантированно качественными прогнозами. Это похоже на чудо, но в своей статье мы расскажем, что такое HITL и как вы можете использовать эту технологию в собственных проектах разработки ИИ.

Если говорить в общих чертах, при HITL система ИИ и команда людей совместно работают над реализацией задачи.

Читать дальше →

3Dvideo Dec 28 2021 at 11:40

О русской науке замолвите слово или за что я люблю Тинькофф, часть 1

34 min

56K

Algorithms*Artificial IntelligenceIT careerPopular scienceProgramming*

Technotext 2021

Так сложилось, что я уже много лет руковожу научной группой, а с недавних пор лабораторией в МГУ. При этом львиная доля финансирования нашей лаборатории идет от компаний. Изначально она была создана в рамках контракта с Intel (совместная лаборатория), а позднее мы очень активно работали ещё и с RealNetworks (20+ проектов), Samsung (совместная лаборатория), Cisco, Huawei (до 5 контрактов параллельно) и другими. И так получилось, что большая часть наших контрактов (примерно 95% по количеству и 99% по деньгам) приходилась на иностранные компании, при этом взаимодействие с российскими компаниями в среднем заметно контрастировало.

Моим наилучшим примером отношения русских компаний к университетам является любимый пример Олега Тинькова из его книги:

«Третий пример, мой любимый. Весной 2011 года я выступал на мехмате МГУ и с присущим мне эпатажем заявил: «Что такое фундаментальная наука. Ходить грязным, вонючим и в итоге стать нобелевским лауреатом? Так вот, это все булшит! Зарабатывайте деньги. Не думайте про фундаментальную науку, потому что это отстой».
Олег Тиньков, «Революция. Как построить крупнейший онлайн банк в мире»

С Тиньковым есть, о чем поспорить. Например, Нобелевская премия за достижения в области математики не присуждается, а присуждаются Филдсовская и Абелевская премии. Впрочем, Тиньков этого мог и не знать. Важнее, что он явно приводил этот пример много раз, и в книге он дан в главе про найм специалистов.

Меня периодически спрашивают друзья из компаний: «Как там наука? Поднялась с колен? Я слышал — ситуация получше стала». Кому интересно, ~~как Тиньков развалил мехмат~~ что происходит в науке в разрезе работы с компаниями (этюды в багровых тонах, вечерние зарисовки из окопа автора) — добро пожаловать под кат!

Читать дальше →

+150

348

daniilgorbenko Dec 27 2021 at 08:00

Новогодняя ёлочка на рабочий стол

9 min

13K

Development for Windows*Programming*Python*

Всех с наступающими праздниками! Надеюсь, каждый отдохнёт и восполнит силы за праздничные дни, а не будет зависать за очередными багами/фичами/обновлениями!

Помню, лет так 12 назад, когда я был ещё школьником, у всех моих знакомых стояла windows XP. И в моменты нового года у нас была традиция, скачать на каком-нибудь сайте новогоднюю ёлочку, которая запускается отдельной программой и просто на рабочем столе (либо на любом другом окне, если её открыть поверх окон) играет гифка с этой ёлочкой. Мелочь, но к новогоднему настроению она давала в те года +100 очков.

Если раньше такую штуку приходилось искать, где скачать, то теперь пришло время сделать всё самому.

Приступим к написанию своей версии "ёлочки"

Ознакомиться

+14

snakers4 Dec 26 2021 at 11:12

Тестируем лучшие видеокарты для расчетов на конец 2021 года: 3090 Turbo и A10

9 min

14K

IT Infrastructure*Video cardsComputer hardwareMachine learning*

Статья не про майнинг и не для майнеров.

Недавно на Хабре была статья про сравнение карточек для вычислений. На мой взгляд статья получилась очень даже неплохой, но в ней никак не отразили позиции RTX 3090 Turbo и как-то подозрительно мало времени уделили А10.

На мой взгляд среди карточек с "большим" объемом памяти (более 12 гигабайт) по рекомендованной рыночной цене (РРК) 3090 является лидером хит-парада, а по рыночной цене — скорее уже А10. Детальный разбор почему и как я подходил к выбору карточек и тестированию — прошу под кат.

Также так случилось, что у меня под рукой оказалось большое количество рейзеров разной степени говённости. И сначала я замахивался, чтобы поставить некую точку в вечных дебатах про райзеры (а мнения разнятся от такого до банального "не работает" или "для DL нельзя использовать"), но в итоге все получилось чуть более сумбурно. Но я постарался подойти к тестированию райзеров тоже структурированно и аналитически.

И последнее — в прошлой статье я сокрушался, что мол нет на рынке большого выбора однослотовых решений по вменяемой цене. Теперь на выбор решений много, но с доступностью и ценами ситуация лучше не стала (есть как минимум 2 поколения карточек Quadro и Tesla A10, но геймерских нет, насколько я знаю).

Читать дальше →

+33

neuroonet Dec 24 2021 at 03:46

ИИ от DeepMind успешно помогает изучать теорию узлов, и это (скорее всего) прорыв

4 min

12K

Neuro.net corporate blogArtificial IntelligencePopular scienceMachine learning*Mathematics*

Совсем недавно команда исследователей из компании DeepMind, которая специализируется на разработке различных ИИ-алгоритмов, опубликовала интересную научную статью. Она называется "Advancing mathematics by guiding human intuition with AI" и опубликована в авторитетном научном журнале Nature. В ней затрагивается вопрос интуиции человека и машинного обучения.

Многие специалисты уже обратили внимание на статью, причем часть из них считают работу DeepMind прорывом, а часть - обычным исследованием, значение которого преувеличивается журналистами. Но как бы там ни было, а сама работа весьма интересна, поскольку ее результаты дают возможность расширить инструментарий математиков. Речь идет о демонстрации сложных корреляций в одной из гипотез теории узлов из абстрактной математики. Кроме того, алгоритм от DeepMind нашел применение в изучении комбинаций белковых последовательностей. Необычным во всем этом является то, что для решения указанных задач ИИ от DeepMind показал признаки "сильного ИИ".

+17

apelsyn Dec 24 2021 at 06:42

Распознавание номерных знаков. Как все ускорить

8 min

19K

Machine learning*Artificial IntelligencePython*

Nomeroff Net. Как ускорить распознавние номерных знаков.

После запуска моделей на прод рано или поздно приходит понимание того, что Ваши сервисы популярны и что KPI растут. Вместе с популярностью приходят тормоза и нестабильность. В этой статье речь пойдет о прикладном аспекте оптимизации быстродействия алгоритмов/моделей на примере движка распознавания автомобильных номеров “Nomeroff Net”. Буду делиться опытом, полученным на протяжении 2-х летней разработки. Если коротко: нам удалось ускорить время распознавания 1 фото более чем в 10 раз.

“Чел догадался в свой сервер вставить RTX 3090” подумаете Вы… Приблизительно так и было, только если взять замеры до установки GPU то все ускорили в 100+ раз :).
Не будет детального описания архитектуры моделей (они давно известны в узких кругах), хочу поделиться важными моментами, на которые стоит обратить внимание при оптимизации ваших ML-сервисов.

Читать дальше →

+20

Digital_Design Dec 24 2021 at 13:26

Автоматическая генерация протоколов совещаний

10 min

14K

Digital Design corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

Привет! Меня зовут Максим Бондарев, я работаю младшим разработчиком в компании Digital Design и заканчиваю обучение на математико-механическом факультете СПбГУ. В рамках своей исследовательской работы я занимался решением задачи по автоматической генерации протоколов совещаний в составе команды научной лаборатории (aka Конструкторское Бюро) под руководством Максима Панькова. Что из этого получилось, и над чем еще предстоит поработать, расскажу в этой статье.

Allront Dec 21 2021 at 10:03

ModelOps на практике: переходим от отверточной сборки к конвейеру по управлению моделями

8 min

3.7K

SAS corporate blogBig Data*Artificial IntelligenceMachine learning*

Привет хабр! Меня зовут Артем Глазков, я работаю консультантом в российском подразделении компании SAS. Сегодня я хочу рассказать про операционализацию аналитики на практическом примере проекта, который я сделал совместно с моим коллегой Иваном Нардини для крупной итальянской сырьевой компании. Я постараюсь сфокусироваться на наиболее важных деталях и преимуществах подхода ModelOps.

Согласно независимым исследованиям, операционализация аналитики является ключевым трендом развития в области Искусственного Интеллекта. Необходимо научиться не только строить точные модели машинного обучения, но и организовать эффективное управление их жизненным циклом. Без этого модель рискует навсегда застрять внутри стен ‘лаборатории данных’. Практика показывает, что именно там остаются более половины разработанных моделей. Это означает, что время и усилия, затраченные на создание таких моделей, так и не были компенсированы полезным эффектом от их применения.

После внедрения задача инструментов управления жизненным циклом моделей заключается в том, чтобы постоянно поддерживать модель в форме. Мир вокруг модели меняется — в отсутствие настроенного процесса контроля качества работы модели рано или поздно точность ее работы упадет ниже приемлемого значения. Инструменты мониторинга моделей позволяют своевременно выявить потребность в дообучении. Обновленная модель сможет увидеть новые закономерности в данных и правильно их учесть. В результате, удастся обеспечить стабильно высокое качество работы модели на этапе эксплуатации, а значит получить больше практической пользы от каждой разработки.

Читать дальше →

PDudukin Dec 17 2021 at 14:56

Как с помощью машинного обучения ускорить категоризацию товаров на маркетплейсах и в интернет-магазинах?

9 min

РСХБ.цифра (Россельхозбанк) corporate blogBig Data*Artificial IntelligenceAlgorithms*Machine learning*

В июле этого года AliExpress сообщил о новом инструменте, который с помощью машинного обучения автоматизирует и ускоряет загрузку товаров на платформу. Этот же способ подходит интернет-магазинам, чтобы выгрузить информацию о товарах из внутренних баз на сайты. Мы поделимся с вами инструментом, который в сотни раз ускоряет категоризацию и загрузку товаров. Расскажем и о том, как и для чего создавали модель категоризации, используя машинное обучение.

Хочу узнать

X5Tech Dec 17 2021 at 17:55

Стратификация. Как разбиение выборки повышает чувствительность A/B теста

15 min

37K

X5 Tech corporate blogPython*Mathematics*Statistics in IT

Всем привет! На связи команда ad-hoc аналитики X5 Tech.

Сегодня подробно обсудим применение стратификации для повышения чувствительности оценки AB экспериментов.

MaxRokatansky Dec 17 2021 at 18:49

Эмуляторы и симуляторы vs реальные устройства для автоматизации тестирования

5 min

35K

OTUS corporate blogPython*Web services testing*

Translation

В этой статье рассмотрим особенности тестирования мобильных приложений с помощью эмуляторов/симуляторов и на реальных устройствах.

Содержание:

Что такое мобильные эмуляторы и симуляторы;

Типы мобильных тестов;

Инструменты/фреймворки автоматизации мобильного тестирования;

Когда можно использовать эмуляторы/симуляторы, а а когда — стоит тестировать на реальных устройствах.

honyaki Dec 17 2021 at 21:14

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

7 min

3.9K

Skillfactory corporate blogSQL*Big Data*Machine learning*Natural Language Processing*

Translation

Статья написана по мотивам работы "Forecasting SQL Query Cost at Twitter", 2021 («Прогнозирование стоимости SQL-запросов в Twitter»), представленной на IX Международной конференции IEEE по облачной инженерии (IC2E). Подробностями делимся, пока у нас начинается курс по Machine Learning и Deep Learning.

Stanislav_ITE Dec 15 2021 at 15:49

Как устроена платформа автоматизации процессов разработки MLOps Platform #CloudMTS

5 min

1.5K

MWS corporate blogMachine learning*Cloud computing*Cloud services*

Привет, Хабр!

В прошлой статье я рассказывал, как мы строим сервисы для разработчиков ИИ и, в частности, коснулся истории появления нашей MLOps Platform. Сегодня мне хотелось бы показать ее изнутри — поделиться возможностями и показать инструменты под капотом.

Надеюсь, получилось достаточно подробно. А для всего остального есть комментарии: не стесняйтесь задавать вопросы, я обязательно отвечу всем интересующимся. Поехали!

Читать дальше →

1 2 3 4 5

7 8 ...

15 16