Как стать автором
Поиск
Написать публикацию
Обновить
31.66

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Python для биологов

Время на прочтение8 мин
Количество просмотров14K

Каждый, кто слышит словосочетание "язык программирования", наверняка представляет себе код или скрипт, который выполняет строгий порядок действий для решения сложной технической задачи. Если спросить прохожего, для каких целей используются языки программирования, первое, что придет ему на ум - разработка, а любой гуманитарий скажет, что это скучно и совершенно не интересно. Однако, мне хотелось бы развеять эти стереотипы. Учитывая современные тенденции роста научно-технического прогресса, важно отметить, что программирование пересало быть чисто "техническим" инструментом. Сегодня оно позволяет не только создавать алгоритмы для управления техникой, но и делать научные открытия, например в биологии. Понять, как устроена биоинжереная машина внутри наших клеток, какие функции выполняеет каждый отдельно взятый ген, какие гены ответственны за наши болезни, как вирусы и бактерии влияют на нас на молекулярном уровне, как создать новый фармацевтический препарат и множество других вопросов, позволяет программирование.

Python - высокоуровневый язык программирования, который широко применяется в самых разных сферах деятельности: в разработке, в тестировании, в администровании, в анализе данных, в моделировании, а также в науке. Широкое распространение он получил не только, благодаря своей простоте и лаконичности, но и в силу своей модульности, возможности интегрироваться с другими языками программирования и наличия большого количества пакетов для анализа больших данных и научных расчетов.

Читать далее

Регрессионный анализ в DataScience. Простая линейная регрессия. Библиотека statsmodels

Время на прочтение50 мин
Количество просмотров71K

Обзор построения и анализа парной линейной регрессионной модели с использованием библиотеки statsmodels

Вперед

Dagster | Туториал

Время на прочтение9 мин
Количество просмотров17K

Dagster — это оркестратор, предназначенный для организации конвейеров обработки данных: ETL, проведение тестов, формирование отчетов, обучение ML-моделей и т.д.

На паре несложных примеров посмотрим как его развернуть, настроить и работать с ним.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

Распознавание фейков с помощью технологий управления данными

Время на прочтение9 мин
Количество просмотров4.3K

Развитие технологий и все возрастающие объемы информации привели к тому, что слово «фейк» или «информационный фейк» прочно вошло в нашу жизнь. Всевозможные мошенники идут в ногу со временем и оперативно ставят себе на службу технологии, изобретая все новые способы влиять на людей. А значит, нам необходимо задуматься о том, как использовать накопившийся опыт и технологии управления информацией для распознавания фейков, т.е. для их автоматического отделения от реальных фактов. Сегодня мы расскажем о всем многообразии использования технологий управления данными для распознавания фейков.

Что же такое фейки?

Существует множество определений фейков, мы не будем на них останавливаться, но отметим, что в этой статье мы будем говорить не об ошибочной информации (такой как опечатки или случайно вкравшиеся неточности), а об информации искажавшейся намеренно. 

Фейки можно встретить практически в любой форме — тексте, видео или аудио контенте. Поговорим сначала о последних. Для создания аудио и видео фейков существует специальный инструментарий, построенный на глубоком обучении (deep learning). Искаженные таким образом факты называются дипфейками [1, 2]. Кажется, что уже все видели их примеры — эти видеоклипы с различными знаменитостями, которые говорили или делали что-то, чего на самом деле не было (в [3] есть небольшой таймлайн с известными дипфейками), многие пранкеры используют дипфейки в своих звонках. Однако дипфейки это не развлечение, а серьезная угроза: продвинутые мошенники их уже освоили и во-всю пускают в дело [4, 5].

Читать далее

Важно ли DS аналитику знать про software development?

Время на прочтение12 мин
Количество просмотров4.3K


— Иван Иваныч Иванов с утра ходит без штанов!
— А Иванов Иван Иваныч одевает штаны на ночь!
«Афоня» (1975)


Множество курсов, призванных подготовить DS специалистов «за полгода», создают впечатление, что уж сертифицированным датамайнером стать достаточно просто. А что? Немного основ DS языка, немного по структуре данных, немного по различным преобразованиям данных, немного SQL, немного математики (в ML не погружаемся, только знакомимся), немного визуализации, немного HTML+JS+CSS. Специалист готов?


На практике оказывается, что маловато будет.


Все предыдущие публикации.

Читать дальше →

Как полюбить задачи регрессии

Время на прочтение5 мин
Количество просмотров7.6K

У задач классификации, в отличии от задач регрессии, есть одно очень приятное свойство:
большинство ML алгоритмов решения задач классификации выдают не просто ответ, а некоторую оценку уверенности модели в ответе. То есть помимо метрик самой модели мы обладаем оценкой вероятности для конкретного ответа на конкретном примере. Это здорово помогает в принятии решений.
Неправда ли хотелось бы иметь что-то такое и для задач регресии?

Читать далее

Как создать переводчик, который переводит лучше, чем Google Translate

Время на прочтение8 мин
Количество просмотров33K

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В этот раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

Читать далее

Обсуждаем солнечную энергетику в России и Бельгии: стоит ли оно того?

Время на прочтение6 мин
Количество просмотров6.5K

Одна из самых холиварных тем на Хабре – это зеленая энергетика. Мнения самые полярные, а дискуссии жаркие! 

Я уже давно живу и работаю в Бельгии и здесь довольно развита инфраструктура и законодательство в этом вопросе, что конечно подталкивает интересоваться практическими опциями и возможностями. К счастью, у меня есть подруга, с которой мы дружим вот уже лет 15 и работает она в энергетике. И поэтому немало в этом вопросе понимает. Недавно разговор зашёл о солнечной энергетике, что в России есть два полюса: либо это абсолютное “зло” и угроза энергосистеме, а бедные европейцы ставят ветряки и панели от безысходности, либо это абсолютное благо и “бесплатное электричество” и всем срочно нужно ставить панели на крышу. Правда как обычно где-то посередине. Из этой нашей беседы, череды вопросов-ответов и наших посиделок и родился этот пост.

-> модель, расчеты и байки из Забайкалья!

Курс молодого бойца: ускоряем проекты на Битрикс, повышаем их отказоустойчивость

Время на прочтение7 мин
Количество просмотров6.1K

Привет! На связи Данила Соловьев, руководитель направления PHP в AGIMA. Для проджект-менеджеров и джуниор-разработчиков я подготовил небольшой гайд по тому, как ускорять работу крупных проектов на Битрикс и повышать их отказоустойчивость. Здесь вы не найдете сложных кейсов или сногсшибательных решений. Но зато найдете простые и применимые советы.

Читать далее

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Время на прочтение14 мин
Количество просмотров38K

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.
Читать дальше →

Самообучающийся трекер объектов: как отслеживать цель в изменчивых условиях сцены

Время на прочтение16 мин
Количество просмотров16K

Специалисты по компьютерному зрению не один десяток лет бьются над трекингом объектов. Они перепробовали многое: от старой-доброй оценки движения оптическим потоком до сетей-трансформеров.

Есть один подход к трекингу, широко известный на западе, но о котором мало пишут по-русски: Incremental Visual Tracker (IVT). Это трекер объектов на основе модифицированного метода главных компонент: он самообучается на ходу и адаптируется к изменчивым условиям.

Давайте исследуем физиологию этого трекера, чем он интересен и где его можно применить — а затем изучим проблемы его реализации и нюансы использования. Под катом ссылка на репозиторий и много математики.

Читать далее

Как переносить данные откуда угодно куда угодно с помощью Meltano

Время на прочтение8 мин
Количество просмотров3.4K

Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.

Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.

Читать далее

От идеи до внедрения: как построить систему анализа данных для промышленного предприятия

Время на прочтение5 мин
Количество просмотров5.4K

По данным Barc, ещё в 2015 году компании, использующие Big Data & Analytics, смогли на 8% увеличить доходы и на 10% снизить затраты. Сегодняшний тренд на цифровизацию и импортозамещение подталкивает руководителей активнее изучать и внедрять аналитику данных в работу своих предприятий. И если раньше анонсы о внедрении Big Data в основном были связаны с пилотными проектами, то сегодня промышленные компании всё чаще рассматривают работу с данными как важную часть корпоративной стратегии развития.

Мы занимаемся разработкой ПО для промышленных предприятий, и сегодня обладаем достаточной экспертизой о трудностях, которые могут возникать на каждом из этапов внедрения анализа данных, а также об инструментах для их решения. В этой статье мы разберём весь путь внедрения анализа больших данных на предприятии с использованием этих продуктов.

Читать далее

Ближайшие события

Руководство по Human Pose Estimation

Время на прочтение12 мин
Количество просмотров15K

Обычно эту задачу решают при помощи глубокого обучения.

Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.

В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать дальше →

Как обезличить персональные данные

Время на прочтение8 мин
Количество просмотров11K

Для ML-моделей не нужны (и даже вредны) персональные данные. Но пригодятся данные, которые описывают не отдельных людей, а их группы, то есть обезличенные. Как их получить и как с ними работать? Как убедиться, что права того, чьи данные были взяты за основу, не нарушены? И где граница между персональными и анонимными данными?

Меня зовут Алексей Нейман, я исполнительный директор Ассоциации больших данных. В этой статье попробуем разобраться в этих вопросах.

Читать далее

Преимущества алго-трейдинга и важность анализа маркет-даты

Время на прочтение6 мин
Количество просмотров22K

Аннотация: в статье раскрываются основные понятия алготрейдинга. Отдельно рассмотрены хэдж-фонды, площадки для алготрейдинга, а также его преимущества. Отмечается, что алготрейдинг используется в банковском секторе и на крипторынке.

Ключевые слова: алготрейдинг, алгоритмическая торговля, трейдеры, хедж-фонды,

Понятие об алготрейдинге

Понятие алгоритмического трейдинга имеет два основных определения:

1) Алготрейдинг. Автосистема, которая может торговать без трейдера в заданном ей алгоритме. Система необходима для получения прямой прибыли за счёт автоанализа рынка и открытия позиций. Этот алгоритм ещё называют «торговым роботом» либо «советником».

2) Алгоритмическая торговля. Исполнение крупных ордеров на рынке, когда они в автоматическом порядке делятся на части и постепенно открываются в соответствии с заданными правилами.

Если упростить, алгоритмическая торговля — это автоматизация повседневных операций, выполняемых трейдерами, которая позволяет уменьшить время, необходимое для анализа информации об акциях, расчёта математических моделей и проведения транзакций.

Важно, что автоматизация процессов позволяет решить важнейшую проблему человеческого фактора. К данному фактору можно отнести эмоциональность, домыслы, интуицию, неверные прогнозы, ошибки мышления. Все это может препятствовать получению прибыли.

Автор статьи Ulangazy Askarbekov

Director of Quotex (HK) Limited

Читать далее

Как мы научились дистанционно оценивать техническое состояние автомобиля

Время на прочтение7 мин
Количество просмотров7.6K

Добрый день, коллеги! Меня зовут Елена Волченко. В компании Финолаб я являюсь руководителем отдела машинного обучения и анализа данных. Этой статьей я хочу начать цикл публикаций о создании нашей командой сервиса дистанционной оценки технического состояния автомобилей на основе технологий искусственного интеллекта.

Мой рассказ будет разделен на две части. В первой расскажу о потребностях и проблемах в дистанционной оценке повреждений автомобилей. Во второй - о том, как мы решали эту задачу с помощью нейронных сетей и классического machine learning, с какими проблемами сталкивались, каких результатов достигли и что еще предстоит сделать.

Читать далее

Smart Forms: Наш опыт автоматизации сбора данных

Время на прочтение11 мин
Количество просмотров5.6K

Привет, Хабр! Сегодня я хочу поговорить о проблеме автоматизации сбора данных. В этом посте мы обсудим, какие именно минусы несет сбор данных через файлы Excel, а также расскажем подробнее о наших собственных наработках по автоматизации сбора информации. Речь пойдет о практических аспектах применения инструмента Smart Forms, поэтому пост будет интересен в первую очередь пользователям решений Visiology, а также специалистам, которые организуют сбор информации или планируют это делать. Всех, у кого уже есть подобный опыт на любой платформе приглашаю присоединиться к обсуждению в комментариях.

Читать далее

Продвинутые методы Uplift-моделирования

Время на прочтение8 мин
Количество просмотров9.5K

Всем привет! Меня зовут Окунева Полина, я ведущий аналитик компании GlowByte. Сегодня я хочу рассказать о задаче Uplift-моделирования — частном случае такой большой сферы как Causal Inference, или причинно-следственный анализ, — и методах ее решения. Задачи такого типа важны во многих областях. Если вы сотрудник, например, продуктовой компании, то причинно-следственный анализ поможет сократить издержки на коммуникации с людьми, на которых она не повлияет. Если вы врач, то такой анализ подскажет, выздоровел пациент благодаря лекарству или из-за удачного стечения обстоятельств. 

Какого-то полноценного гайда по продвинутым методам Uplift-моделирования я не встретила ни в русско-, ни даже в англоязычном интернете, поэтому было огромное желание структурировать информацию и поделиться ею с интересующимися.

Читать далее

Майним технохардкор в сезоне Data Mining

Время на прочтение8 мин
Количество просмотров28K

С 5 сентября по 20 октября на Хабре проходит сезон Data Mining — конкурс технических статей для дата-сатанистов, знающих толк в оккультных практиках работы с данными.

Хабр проводит сезон вместе с SM Lab (IT-компанией «Спортмастера»). У них, кстати, открыта middle-вакансия для Data / ML Engineer.

Правила просты: вы пишете статью в хаб Data Mining и, если её рейтинг оказывается самым высоким, SM Lab отгружает вам игровой монитор и грант на написание следующего шедевра.

UPD. Сезон закончился, а подробности и победителя можно посмотреть в итоговом посте.

Читать далее