Как стать автором
Обновить
0
0

Пользователь

Отправить сообщение

Pandas: от хаоса к красоте кода

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров16K

Работа с pandas.DataFrame может превратиться в неловкую кучу старого (не очень) доброго спагетти-кода. Я и мои коллеги часто используем эту библиотеку, и хотя мы стараемся придерживаться хороших практик программирования, иногда мы все равно мешаем друг другу, создавая запутанный код.

Я собрала несколько советов и подводных камней, которых следует избегать, чтобы сделать код на pandas чистым. Надеюсь, вам они тоже будут полезны. Также я буду ссылаться на классическую книгу Роберта Мартина «Чистый код: создание, анализ и рефакторинг».

Погнали!

Размышления о высококачественных данных, собранных людьми

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров4.6K


Высококачественные данные — это «топливо» для современных моделей глубокого обучения. Большая часть данных, размеченных под конкретные задачи, создается живыми людьми — аннотаторами, которые занимаются классификацией или проводят RLHF-разметку для LLM alignment. Многие из представленных в этой публикации методов машинного обучения могут помочь улучшить качество данных, но главным остается внимание к деталям и скрупулёзность.

Сообщество разработчиков машинного обучения осознает ценность высококачественных данных, но почему-то складывается впечатление, что «все хотят работать над моделями, а не над данными» (Sambasivan et al. 2021).


Рисунок 1. Два направления обеспечения высокого качества данных.
Читать дальше →

Кратко про алгоритм обучения Q-learning и как он реализуется в Python для новичков

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7.3K

Привет, Хабр!

Q-learning — это алгоритм обучения с подкреплением, который позволяет агенту оптимизировать свою стратегию действий в динамичной среде, стремясь максимизировать сумму будущих наград. Агент исследует среду, принимая решения, основанные на предыдущем опыте, а не на предварительной модели мира.

В этой статье мы и рассмотрим этот алгоритм.

Читать далее

Популярные алгоритмы машинного обучения. Теоретические основы и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение1 мин
Количество просмотров41K

В данной статье в виде ссылок представлены все популярные алгоритмы классического машинного обучения с их подробным теоретическим описанием и немного упрощённой реализацией с нуля на Python, отражающей основную идею. Помимо этого, в конце каждой темы указаны дополнительные источники для более глубокого ознакомления, а суммарное время прочтения статей ниже составляет более трёх часов!

Читать далее

Как организовать межкомандную работу в трекере задач METEOR

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.1K

Сегодня мы поделимся, как организовать межкомандную работу в трекере, какие трудности сопряжены с этим, и какие бывают способы организации такого взаимодействия.

Важно заметить. Если вы используете трекер без ролей и прав, или если ваши пользователи из разных команд видят задачи друг друга и могут с ними работать и вас это устраивает, то это статья не для вас.

Статья будет полезна тем, кто разграничивает права доступа по командам, проектам и сталкивается с вопросами корректной организации совместной работы разных команд друг с другом.

Читать далее

6 нейросетей для создания презентаций: тестируем и проверяем

Время на прочтение8 мин
Количество просмотров37K

Век живи - век учись, а презентации составлять так и не научишься. Сколько времени и сил тратится на подготовку этих стандартных презентаций, особенно во время сессии. Но что если значительную часть этой рутинной работы можно было бы делегировать искусственному интеллекту? Именно такую возможность обещают многочисленные сервисы, использующие нейросети для генерации презентационного контента.

В этом обзоре мы попробуем разобраться, что из себя представляют новомодные ИИ-генераторы презентаций. Честно оценим их возможности и ограничения, пройдемся по функционалу, проверим на практических примерах. 

Главный вопрос к этим сервисам - смогут ли они в текущей форме полностью заменить человека в создании качественного презентационного контента? Или они пока что больше напоминают ассистента, которому нужен присмотр и доработка результатов ручным трудом?

Исследуем, анализируем, делаем выводы! Ведь только опираясь на реальный опыт использования, можно понять, стоит ли овчинка выделки и имеет ли смысл переходить на ИИ-генерацию презентаций. Начнем!

Читать далее

Рисуем с нейросетями: Есть ли у ИИ-художника свой стиль?

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2K

Привет, Хабр! Я – Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я ставлю эксперименты над ИИ, пока у них нет возможности “дать  сдачи” человеку. Если серьёзно, то проверим гипотезу, может ли нейросеть, генерирующая изображения, иметь собственный “авторский стиль”.

Читать далее

Как сделать автоматический полив: грунт и гидропоника

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров17K

Полив — регулярная и трудоемкая задача, которая отнимает массу времени, поэтому ее не мешает автоматизировать, чтобы все работало само. Из песни слов не выкинешь: «Вкалывают роботы, счастлив человек».

В преддверии дачного сезона мы решили поделиться двумя решениями автоматизации для полива грунта и гидропоники. Оба базируются на контроллере под Linux и успешно показали себя в действующих проектах.

Мы посетим загородный дом под Екатеринбургом и стеллажную систему в Минске. Интересно? Ныряйте под кат.

Читать далее

Сканер отпечатков кошачьих носиков

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров25K
Расширение сферы применения биометрической системы контроля доступа на других существ, открывает поистине потрясающие возможности.


Так сложилось, что на территории мануфактуры, где я располагаюсь, живёт достаточно большое семейство иссиня-чёрных котов, все братья от одной матери, но из разных помётов. Весь этот прайд мы именуем просто Бандиты, по соответствующему характеру и поведению. Из всей этой стаи один кошак полюбился мне больше всего: самый адекватный и интеллигентный; и именно его я иногда пускаю в свои кабинеты.
И возжелал я пускать того прекрасного кошака, а остальных отсеивать, дабы не хулиганили в моё отсутствие. И пришла в мою голову мысль о пропускной системе, именуемой КотСКУД — кошачья система контроля доступа.
Читать дальше →

Правда ли, что в Европе везде отсталые сервисы, медленные платежи и плохие онлайн-услуги?

Уровень сложностиПростой
Время на прочтение36 мин
Количество просмотров150K

На Хабре неоднократно в комментариях звучало мнение, что Россия впереди планеты всей по онлайн‑сервисам. Мол, у нас и госуслуги, и финтех, и такси, и доставки — все на высочайшем уровне, а в остальных странах, а особенно в отсталой Европе бедные бюргеры до сих пор стоят в многочасовых очередях, заполняют вручную тонны бумажек и ждут в очередях на кассах чтобы сделать банковский перевод, а курьер не привезет им ночью смузи в течении получаса после заказа. Давайте разбираться, так это или нет.

Читать далее

Как я взял в кредит 66 млн и хотел заработать 40 млн на выращивании тюльпанов

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров86K

Вот уже 4-й год я выращиваю и продаю тюльпаны. Поиск дешевой аренды теплиц привел меня в Симферополь. Здесь я планировал вырастить 3 млн цветков и получить 40 млн прибыли.

Я решил использовать простую и самую эффективную бизнес-стратегию: вырастить большой объем цветка, чтобы получить низкую себестоимость и задемпинговать рынок дешевым цветком приемлемого качества.

Есть мнение, что агробизнес, в частности, выращивание тюльпанов – это сельская романтика, запах земли, работа руками, и вот уже крупный хрустящий тюльпан с большим бокалом отправляется к довольному покупателю. А на счет счастливого фермера отправляется внушительная сумма, вознаграждающая за труд.

А как на самом деле?

Читать далее

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение14 мин
Количество просмотров16K

Метод опорных векторов (Support Vector Machines или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.

Читать далее

Привычки для повышения производительности и качества жизни

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров22K

Каждый день мы сталкиваемся с множеством задач. Не секрет, что на пути к цели существуют препятствия, блокирующие наши ресурсы. Положительные привычки могут стать для нас мощным инструментом для повышения продуктивности и качества жизни. Они определяют нас и формируют индивидуальность. В сегодняшнем материале обсудим, что это за привычки, как повышать собственную продуктивность и уменьшать уровень стресса.

Читать далее

Сложная архитектура простых приложений

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров9.3K

По мотивам Adidas Running (ex. Runtastic)

Как я бы проектировал это интересное, но малоизвестное у нас приложение в роли архитектора.

Предыстория

Рынка систем электронных соревнований (в 2012 г) нет, но есть огромный интерес к спортивному образу жизни и к соревнованиям. В США не менее 50 миллионов (!) человек (это примерно 15% всего населения) хотя бы раз в неделю выходят на пробежку.

Адидас имеет объем продаж 20–30 млрд долл. в год.

Основной рынок – США, остальные страны – второстепенные рынки.

Посмотреть архитектуру

Скрытые симптомы: как модели машинного обучения предсказывают развитие болезни Альцгеймера за 7 лет до ее начала

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров3.7K

К сожалению, в настоящее время нет лекарств, способных полностью вылечить болезнь Альцгеймера (деменцию) или остановить ее прогрессирование на поздних стадиях. В мире с таким диагнозом ежегодного сталкиваются порядка 50 миллионов человек, и с каждым годом эти цифры растут.

Во многом качество жизни пациентов с Альцгеймером зависит от того, как быстро человек обратился к специалистам, однако это тоже является большой проблемой. Болезнь долгое время протекает незаметно, а потом быстро и бесповоротно переходит в тяжелую стадию.

На помощь в решении данной проблемы пришло машинное обучение!

В данном исследовании я подробно расскажу, как с помощью моделей машинного обучения ученым удалось выявить диагнозы и характеристики состояний пациентов, предшествующие развитию болезни Альцгеймера за 7 лет до ее отправной точки!

Приятного прочтения! :)

Читать далее

Мечтают ли компьютеры строить дома? или Как заставить нейросети определять ремонт в квартирах и улучшать объявления

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров6.3K

Как для большинства выглядит процесс постройки дома? Котлован, песок, цемент, какие-то блоки, снующие люди и техника, шум, пыль на пару лет и вот, дом готов. На самом деле всё давно не так. Точнее, так, но это, как говорится, frontend. Но строительство уже давно процесс не физический, а киберфизический. Поэтому есть у него и backend. Это работа с данными на всех этапах, от планирования до оценки ремонта, использование нейросетей для анализа объявлений о продаже, построение экономических моделей и множество всего. В общем, создание дома — это IT-проект, который начинается задолго до возведения здания и не заканчивается после сдачи жителям, т.к. во время эксплуатации продолжается сбор и обработка данных. Меня зовут Алексей, я техлид в команде Data Science по направлению Computer Vision в Самолете, и сейчас вам всё расскажу.

Читать далее

Как мы прогнозируем объемы грузоперевозок на основе машинного обучения, используя MLflow

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.6K
Привет, коллеги! Меня зовут Александр Кузьмичев, и я ведущий специалист по анализу данных в Первой грузовой компании. Мы с коллегами разработали «Прогнозатор» — инструмент для оценки объемов грузоперевозок между ж/д станциями. В основе лежит открытая платформа MLflow, и сегодня я расскажу, чем она нам помогает.


Фотография Ainur Khakimov / Unsplash
Читать дальше →

«Битва Роботов»: ошибки «невыжившего»

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.5K

Привет всем любителям робототехники! Меня зовут Настя, я — руководитель Студенческого конструкторского бюро НИТУ МИСИС и капитан команды BlackOut, которая в 2023 году участвовала в первой «Битве роботов» и… получила бесценный опыт) Многие знают про когнитивное искажение «ошибка выжившего», когда делают неверные выводы из историй победителей. Я расскажу про ошибки «невыжившего» и поделюсь советами для будущих участников чемпионатов по робототехнике.

Читать далее

ClickHouse как бэкенд для Prometheus

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров10K

Привет! Меня зовут Михаил Кажемский, я Lead DevOps в IT‑интеграторе Hilbert Team. В последнее время к нам часто обращаются заказчики, которым нужна помощь с организацией хранения долгосрочных метрик в российских облаках. Так как для многих эта задача сейчас актуальная, в данной статье мы с моим коллегой Денисом Бабичевым решили рассказать, как мы используем мощные возможности ClickHouse для эффективного долгосрочного хранения метрик Prometheus. В статье вы найдете рекомендации по использованию инструмента и описание альтернативных решений, таких как Thanos, Grafana Mimir и Victoria Metrics.

Читать далее

Классификация экзопланет (часть I обработка данных)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.6K

В космосе есть нечто завораживающее и прекрасное, в то же время человек устроен так, что ему если ему что то не известно, то стоит этого бояться (спасибо нашим мамам папам в n-ном поколении за столь широкий диапазон восприятия информации и реагирования на неё), тем не менее всегда находились безумцы исследователи, мечтатели и просто люди, которым в лом заниматься тем, что уже итак без них придумали и хорошо работает, поэтому они стремились придумать что то новое. Кто то занимается курсами по бесконечным саморазвитиям, открывает новые виды дыхания, а также наполняет свои чакры и чувствует прилив сил, а кто-то действительно пытается обнаружить то, что обычному человеку скорее всего в ближайшие лет 50 (а может и больше) не понадобится, ведь вряд-ли мы сможем покинуть нашу солнечную систему раньше этого срока. Однако в том чтобы смотреть в ночное небо и пытаться нарисовать у себя в голове линии, которые называют большой медведицей или тот же ковш, а может и повезет увидеть млечный путь во всей своей красе, есть нечто притягательное и необычное, то что заставляет одновременно почувствовать себя, как говорят некоторые маленькой точкой, но в то же время не забываем что у нас есть микромир, для которого человек, грубо говоря уже сам является целой вселенной. Как писала Лиза Рэндалл в 'достучаться до небес', человек, он где то посередине всего этого мира.

В машинном обучении есть один неоспоримый плюс- возможность заниматься чем угодно, если об это 'что угодно', есть данные. В данной статье мы обработаем данные с орбитального телескопа Kepler, сделаем отбор признаков и построим ml модель для классификации экзопланет. Это первая часть статьи с этими данным. В ближайшем будущем выйдет вторая часть, где будут построены новый модели, в том числе нейросети для данных с Kepler.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность