Search
Write a publication
Pull to refresh
0
Валентина Ендовицкая @Evv8read⁠-⁠only

Developer

Send message

8 недооцененных команд Git, которые должен знать каждый программист (помимо привычных pull, push, add, commit)

Reading time2 min
Views22K

Если вы сделали опечатку, когда вводили имя ветки, вам поможет вот такая команда.

Читать далее

Пошаговое руководство по созданию синтетических данных в Python

Level of difficultyEasy
Reading time7 min
Views7.3K

Простое руководство для новичков: как самому генерировать данные для анализа и тестирования

Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опубликовать научную статью о пользовательском решении в области Data Science, но имеющиеся датасеты нельзя использовать из-за юридических ограничений. А может быть, в рамках проекта машинного обучения вы занимаетесь отладкой и исправлением ошибок и вам нужны данные, чтобы идентифицировать и устранить проблемы.

В этих, да и во многих других ситуациях могут пригодиться синтетические данные. Реальные данные часто недоступны: уже кому-то принадлежат или дорого стоят. Так что умение создавать синтетические данные — важный навык для дата-сайентистов.

В этой статье я расскажу, с помощью каких приёмов и методов можно с нуля создать в Python синтетические данные, игрушечные датасеты и фиктивные значения. В некоторых решениях применяются методы из библиотек Python, в других — приёмы, основанные на встроенных функциях Python.

Читать далее

В помощь разработчику: 6 полезных библиотек визуализации данных

Reading time5 min
Views7.6K

Привет, жители Хабра! Я Саша Пиманов, ведущий iOS-разработчик в МТС Диджитал. В прошлый раз я рассказывал, что почитать начинающим разработчикам. А сегодня поделюсь подборкой из шести библиотек, которые помогут в ежедневной работе. Среди них простые и сложные, с возможностью глубокой кастомизации и без нее. Все они могут здорово облегчить работу программиста, когда нужно визуализировать какие-то данные. Подробности — под катом.

Читать далее

Yolo на мобильном без постобработки

Reading time6 min
Views6.3K

Столкнулся я как-то с проблемой распознавания упорядоченных последовательностей объектов на мобильных устройствах. Идея использовать YOLO пришла довольно быстро, так как модель хорошо подходила по многим параметрам. Я экспортировал обученную модель и с грустью осознал, что она выдает не прошедшие фильтрацию боксы, классы и скоры, а нечто, не поддающееся первичному визуальному анализу.

Читать далее

LLM Leaderboard за апрель 2024

Level of difficultyEasy
Reading time2 min
Views5.4K

Привет, Хабр!

Сегодня мы поговорим о том, какие LLM лучше всего работают на бизнес-задачах. AI-хайп находится на локальном пике, похоже, что весь мир только и делает, что внедряет AI-фичи в свои продукты, собирает миллионы на разработку еще одной оболочки для ChatGPT, заполняет свои ряды AI-тулами и, кажется, предоставляет работу роботам, пока сами попивают кофе в старбаксе. 

Читать далее

Запросы в PostgreSQL: 3. Последовательное сканирование

Reading time16 min
Views19K

В предыдущих статьях я рассказал об этапах выполнения запросов и о статистике.

Теперь пришла пора рассмотреть самые важные узлы, из которых может состоять план. Я начну со способов доступа к данным, и в этой статье расскажу о последовательном сканировании.

В прошлый раз я показывал, как на основе статистики вычисляется кардинальность, а в этой и следующих буду демонстрировать, как рассчитывается стоимость узлов плана. Не то, чтобы конкретные формулы оценки имели большое значение для понимания деталей работы планировщика, но мне хочется показать, что все цифры выводятся из статистики без привлечения черной магии.

Читать далее

Как мы использовали расширенную статистику Postgres и ускорились в 2850 раз

Reading time9 min
Views14K

В этом переводе к старту курса по Fullstack-разработке на Python напоминаем о том, насколько важно знать технологии в деталях, грамотно применять их и планировать работу в целом. Цифра 2850 в заголовке — не преувеличение: ранее занимавший две минуты запрос в базе данных компании Affinity сегодня выполняется за 42 миллисекунды. Подробности, как всегда, под катом. А если вам нужен план развития навыков с большим количеством практики, вы можете обратить внимание на наши курсы.

Читать далее

Работа с pdf-файлами с помощью библиотеки fitz

Reading time4 min
Views27K

Возникла идея создать небольшую утилиту на Python, которая будет парсить PDF и сверять со списком швов, взятых из BIM модели. Изначально я обратился к библиотеке pdfminer, вернее к ее форку pdfminer.six. Но скорость работы меня совершенно не устраивала. Вот, например, загрузка файла в 10 страниц и парой картинок.

Читать далее

Байесовская Сеть Доверия Применительно IoT

Reading time5 min
Views5.5K

Привет, Хабр. В предыдущей статье рассматривали методы и алгоритмы Обнаружения и Диагностики Неисправностей (ОДН) IoT устройств. Как логическое продолжение рассмотрим Байесовскую Сеть Доверия (БСД) для IoT устройств целю ОДН.

Байесовская сеть доверия (англ. Bayesian Belief Network, BBN) — это вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. БСД используются для моделирования предметных областей, которые характеризуются неопределенностью. Эта неопределенность может быть обусловлена недостаточным пониманием предметной области, неполным знанием ее состояния в момент принятия решения, случайным характером механизмов, определяющих поведение этой области, или комбинацией этих факторов. Например, БСД может быть использована для вычисления вероятности того, в чем причина не исправности устройства основываясь на данных по полученных из датчиков и поведением устройства в целом. Таким образом строиться зависимости между сигналами и неисправности устройства.

Читать далее

Исчерпывающее руководство Getting Things Done (GTD) метода с примерами

Reading time10 min
Views159K
В данной статье вы узнаете о методе, помогающем привести в порядок все ваши дела от самых крупных и важных, до тех, что еще только появились в голове.

Я и сама не понаслышке знаю, как сложно перейти от мыслей и планирования к реальным действиям, как не только организовать первостепенные задачи, но и не упустить из вида ценные детали информации.

Я подробно разберу на практике все шаги Getting Things Done метода и вы получите четкую инструкцию к действию (Как привести дела в порядок). Вы сможете не только эффективно организовать свои дела, но и найти больше возможностей для создания новых идей, применяя данную инструкцию на практике.


Читать дальше →

Теорема Байеса: просто о сложном

Reading time8 min
Views66K

В этой статье мы рассказываем об основах и применении одного из самых мощных законов статистики - теоремы Байеса. 

Мы продемонстрируем применение правила Байеса на очень простом, но практичном примере тестирования на наркотики и реализуем расчеты на языке програмирования Python. Мы также проиллюстрируем, как ограничения теста влияют на прогнозируемую вероятность и что в тесте необходимо улучшить, чтобы получить результат с высокой степенью достоверности.

Мы также покажем истинную силу байесовских рассуждений и как несколько байесовских вычислений можно объединить в цепочку, чтобы вычислить общую апостериорную вероятность.

Читать далее

Визуализация архитектуры модели PyTorch

Level of difficultyEasy
Reading time5 min
Views8.3K

PyTorch — это библиотека для глубокого обучения. Вы можете создавать очень сложные модели глубокого обучения с помощью PyTorch. Однако бывают случаи, когда вам нужно иметь графическое представление архитектуры вашей модели. 

В этом посте вы узнаете:

Как сохранить модель PyTorch в формате обмена

Как использовать Netron для создания графического представления.

Читать далее

Что нужно знать, чтобы вдохнуть жизнь в вашу визуализацию

Reading time8 min
Views4.3K


Цвет одинаково важен в любом дизайне и визуализации данных. Он не только «задаёт тон», но и меняет восприятие. Цвет воздействует на уровне подпорогового внимания. Визуальные свойства этого уровня воспринимаются моментально и не требуют обдумывания. Они влияют на восприятие незаметно. Этот процесс бессознателен и обусловлен культурой и опытом. У разных людей восприятие различается. К счастью, есть руководства, помогающие внимательно относиться к цвету; я рекомендую посмотреть Color in Culture graph от Дэвида Маккэдлеса. Подробности — к старту нашего флагманского курса по Data Science.

Читать дальше →

Как составить базу знаний (Как не умереть в море обучающих материалов )

Reading time4 min
Views15K

О том, как не потеряться в огромной куче информации и как ее структурировать (не скажу что правильно, но хоть какой то шаблон).

Так же много полезных ссылок, как в самой статье, так и в базе знаний (кликабельность).

Оценить "базу знаний"

Бессмертная жизнь Лены Сёдерберг

Reading time7 min
Views25K

Думаю, большинству читателей доводилось хотя бы мельком видеть фотографию этой девушки, и многие припоминают, что модель зовут Лена. Я впервые столкнулся с этим снимком в лаборатории Антона Савельева в СПИИРАН, нынешнем СПБ ФИЦ РАН, где работал условным «техническим писателем и литературным редактором англ.-рус.», помогая ребятам готовить статьи на конференции, заявки на гранты и перемалывать прочий контент, требовавший внятной подачи по-английски или по-русски. Несколько позже, уже на Хабре, у меня завязалось виртуальное, а впоследствии и реальное знакомство с @Loriowar. Рассказывая о своём становлении в профессии, он, в частности, написал:

«В программинг пришёл просто: на лабе по цифровой обработке сигналов в очередной раз безжалостно издевался над Леной (https://en.wikipedia.org/wiki/Lenna), жал её по-всякому и прочие непотребства совершал. Естественно, не забывая в красках описывал это в отчёте, который никто не просил делать. За это и позвали биллинг пилить на руби, ибо препод был генеральным директором компании».   

Это Лена Сёдерберг, шведка (род. 1951), заглавное фото которой появилось на обложке ноябрьского номера "Playboy" за 1972 год. Также на центральном развороте этого журнала она изображена в гораздо более откровенном образе. Всемирную известность получила верхняя часть центрального снимка (512 x 512 пикселей). Считается, что именно эта картинка была первым изображением, переданным с компьютера на компьютер в сети ARPANET. Со временем лицо Лены превратилось в эталонный образец для компьютерной обработки изображений.

Читать далее

Откуда берётся квантовая неопределённость?

Reading time10 min
Views16K


Даже такой простой объект, как атом, проявляет квантовую неопределённость. Если спросить, «где отдельный электрон находится прямо сейчас?», ответ можно дать лишь с определённой, ограниченной точностью.


Как бы мы ни совершенствовали своё измерительное оборудование, отдельные квантовые свойства остаются в известной мере неопределёнными. Догадываетесь, почему? Подробности — к старту нашего флагманского курса по Data Science.

Посмотреть

Как использовать тип JSONB в PostgreSQL с Hibernate

Reading time6 min
Views38K

Многие СУБД, помимо поддержки стандарта SQL, предлагают дополнительную проприетарную функциональность. Одним из таких примеров является тип данных JSONB в PostgreSQL, позволяющий эффективно хранить JSON-документы.

Конечно, хранить JSON-документ можно и в виде простого текста — это входит в стандарт SQL и поддерживается Hibernate и JPA. Но тогда вам не будут доступны возможности PostgreSQL по обработке JSON, такие как валидация JSON и другие интересные функции и операторы. Хотя, вероятно, вы об этом уже знаете, раз читаете этот пост.

Если вы хотите использовать колонку типа JSONB с Hibernate 6, то у меня для вас отличные новости. В Hibernate 6 появился стандартный маппинг атрибутов сущностей на колонки JSON — необходимо только его активировать. К сожалению, Hibernate 4 и 5 не поддерживают JSON-маппинг, поэтому при их использовании придется реализовать UserType. Мы рассмотрим оба варианта.

Читать далее

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Reading time14 min
Views38K

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.
Читать дальше →

Как я научил нейросеть распознавать каракули. Введение

Reading time10 min
Views11K

К старту нашего флагманского курса по Data Science делимся расшифровкой видео от Себастьяна Лагу — разработчика игр, тьютора и популяризатора IT, который на своём YT-канале собрал уже около миллиона подписчиков. За подробностями, объяснениями и иллюстрациями от автора приглашаем под кат.


Прочитать первую часть

Information

Rating
Does not participate
Location
Воронеж, Воронежская обл., Россия
Date of birth
Registered
Activity