Как стать автором
Обновить
615.59

Python *

Высокоуровневый язык программирования

Сначала показывать
Порог рейтинга
Уровень сложности

Оптимизация нейронных сетей для AI — переводчика

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров293

Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. 

В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf.

Мы поговорим о методах, которые способствуют постепенной настройке параметров модели, что может привести к более стабильным процессам обучения. Эти техники позволяют тонко настроить процесс обновления весов модели, что улучшает сходимость и в конечном итоге дает лучшие результаты.

Кроме того, в статье обсуждаются стратегии управления темпами обучения, которые играют ключевую роль в том, насколько быстро модель обучается. Понимание того, как правильно корректировать темп обучения с течением времени, может существенно повлиять на динамику обучения и сделать модели более быстрыми и точными.

Наконец, мы затронем важность управления контрольными точками, что позволяет эффективнее использовать обученные модели, усредняя веса из нескольких сессий обучения. Это помогает снизить риск переобучения и обеспечивает сохранение лучших характеристик модели, приобретенных в процессе обучения.

Читать далее

Новости

О сколько нам открытий чудных готовит Python

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.6K

Словари или, по-другому, хеш-таблицы чрезвычайно популярны для хранения данных, поскольку обеспечивают быстрый поиск элемента, но все ли мы о них знаем или существуют нюансы, о которым умалчивают известные ресурсы и пособия? Об этом вы узнаете из данного поста.

Читать далее

Система аналитики и презентации данных с учётом ограничений системы F

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров165

Система аналитики и презентации данных — мой проект, который я выполнял в рамках курсовых работ во время обучения в институте. Описал основные шаги, идеи и поделился своими успехами.

Читать далее

Написал скрипт для gThumb (менеджер и простой редактор фото) для загрузки фотографий в Wikimedia Commons, доволен

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров247

Здравствуйте, я загружаю много (как посмотреть) фото (и не только) в Wikimedia Commons. Вместе с Википедией, это важный сервис, особый: некоммерческий, тоже живет на донаты, без рекламы и платных аккаунтов, всё содержимое в свободных лицензиях. Базовый путь загрузки - через веб клиент, который сложный, это не в Фейсбук перетянуть фото. Экосистема, инфраструктура, комьюнити огромно, есть десяток инструментов загрузки. И внезапно, за вечер, я сделал, по моему мнению, один из лучших инструментов, о котором мечтал годами. Получилось так быстро потому что это скрипт для gThumb, который использует официальное SDK Pywikibot на Питоне, и библиотека для чтения/записи IPTC тегов - где указываются категории, категории это важно - Коммонс это не помойка, при загрузке и после ребята стараются систематизировать артефакты, у каждого файла может быть много категорий.

Читать далее

Что будет, если заинлайнить всё

Время на прочтение25 мин
Количество просмотров8.1K

Усаживайтесь поудобнее, ребята! Сегодня мы с вами разберём следующий увлекательный вопрос: что будет, если заинлайнить вообще всё?

Если вы пока не знакомы с техникой встраивания (inlining) то примите к сведению, что в сообществе специалистов по разработке компиляторов многие, в том числе очень авторитетные фигуры (например, Чендлер Каррут) считают этот приём наиважнейшим при оптимизации компиляторов. Подробнее о том, как устроено встраивание, рассказано здесь — мы беззастенчиво хвалимся той презентацией, с которой выступили перед участниками конференции LLVM Developers' Meeting по межпроцедурной оптимизации. Я рассказывал о встраивании и очень рекомендую вам посмотреть хотя бы первые 6 минут. В этом видео я рассказываю, почему встраивание — очень простое преобразование, а вот тут вашему вниманию предлагается реализация встраивания, предложенная великим Крисом Латтнером уже около 20 лет назад — в ней всего около 200 строк кода. К сожалению, сегодня даже само преобразование пропорционально выросло: в качестве примера взгляните хотя бы на InlineFunction.cpp.

В вышеупомянутом видео я рассказываю, что у встраивания есть свои недостатки. Иными словами, встраивание позиционируется как супер-пупер инструмент в арсенале компиляторщика, но пользоваться этой штукой следует с осторожностью. И следует ли вообще?

Читать далее

Мой первый AI агент: я пью чай, а Мила ищет вакансии (ожидания vs реальность)

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров5.3K

Мой первый AI агент: я пью чай, а Мила ищет вакансии (ожидания vs реальность)

Волна хайпа ИИ агентов докатилась до меня в марте 2025. К тому времени я 7 месяцев общалась с ChatGPT и месяц учила Python и Machine Learning. Я была занята созданием собственной нейронной сети, тестированием моделей и еще имела опыт построения простого Телеграм-бота. Иными словами, загружена под завязку, когда со всех сторон стали доносится истории про то, как «ИИ агент создал сайт за 2 часа». Не выдержав этого натиска, я решила разобраться и построить своего агента. И вот что из этого вышло.

Читать далее

Кригинг F-фактора или кормить, любить и никогда не покидать

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров610

Девочка и мальчик — метисы хаски жили в трубах на стройке, в феврале 2025 года спасены волонтерами, откормлены и подлечены. Сейчас у них появились хозяева и теперь их будут "Кормить, любить и никогда не покидать!". Про любовь может быть как-нибудь в другой раз, а сегодня поговорим про "кормить".

Канули в лету времена, когда своих маленьких друзей все кормили "со стола".

Сегодня в  стране сформировалась полноценная отрасль кормов для непродуктивных  животных. Так на профессиональном языке называют наших домашних любимцев. Это название нам кажется неправильным. Они очень даже продуктивные. Их продукция это любовь и преданность, наши позитивные эмоции, прогулки в любую погоду и многие другие радости жизни.

Чаще всего домашних собак и кошек мы кормим влажными консервированными кормами. Сегодня мы поговорим о производстве влажных кормов, узнаем почему F-фактор критически важен и зачем ему самому нужен кригинг.

Читать далее

EPT-MX-ADM: Новый уровень управления Matrix Synapse — Бета-версия v0.0.1

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров321

Привет, Хабр! Меня зовут Brabus, я разработчик из EasyProTech LLC, и сегодня я хочу рассказать о моём проекте - EPT-MX-ADM. Это современная админ-панель для Matrix Synapse, которая решает проблемы устаревших инструментов вроде Synapse Admin. Если ты админ Matrix-сервера и устал от CORS-ошибок, древнего UI и вечных плясок с Nginx-конфигами, этот проект для тебя. 😎

Читать далее

DIY проект: cистемная информация на LCD дисплее GC9A01 (часть 1)

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3.1K

Всем доброго дня! Мой никнейм Arduinum628, я занимаюсь DIY проектами и программированием на Python и C++. В этой статье пойдёт речь о выводе системной информации с ПК на круглый LCD дисплей GC9A01.

Сама идея проекта мне пришла во время разговора с другом Иваном @proDream Я рассказал ему, что заказал пару LCD дисплеев GC9A01 с Ali Express для своих будущих DIY проектов. Во время разговора Иван внезапно сказал, что ему-бы пригодился девайс для вывода системной информации с ПК. Я подумал - почему-бы не научиться использовать этот дисплей на подобном проекте?!

Сам проект я буду писать не для нужд друга, а скорее в целях обучения работы с этим дисплеем. Как я понял, что ему нужно что-то более компактное и встраиваемое в корпус ПК. По моему совету он купил компактную плату esp32 с дисплеем и будет писать своё решение сам. Я же собираюсь делать что-то вроде приборной панели и поставлю её за клавиатурой. Это чем-то будет напоминать спидометр автомобиля =)

Читать далее

Соединяем физику и лирику. Как я собрал рекомендательную систему для стихов с помощью Flask, sqlite-vec и Hugging Face

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров924

Для песен рекомендательные системы есть, для книг — есть, для фильмов — есть, для стихов — нет. Непорядочек 🤔

Используя Flask, Jinja2, Sentence-Transformers и sqlite-vec, собрал первый прототип рекомендательной системы для стихов. Для машины измерить в цифрах схожесть двух стихов трудно. А для человека — в самый раз. Прикрутил форму оценки рекомендаций, собрал человеческий фидбек.

В статье подробно рассказываю о деталях конструкции.

Читать далее

Не пузырьком единым. Поговорим об алгоритмах сортировки

Время на прочтение10 мин
Количество просмотров2.7K

Если спросить любого, хоть немного знакомого с ИТ человека, какие алгоритмы сортировки он знает, то самым популярным ответом будет, конечно, сортировка методом пузырька. Однако в реальности это, конечно, не единственный способ сортировки. В этой статье мы поговорим о том, какие алгоритмы сортировки бывают и как их можно реализовать на Python.

Читать далее

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров17K

Возможно я был недостаточно внимателен, но мне попалось на Хабре буквально одно, очень краткое упоминание крайне интересного исследования от команды из Университета Цинхуа и партнерских институтов нескольких стран: Absolute Zero Reasoner (AZR) — новую систему машинного обучения, которая развивает принципы self-play и способна обучаться без каких-либо внешних данных. В отличие от традиционных подходов, требующих тысячи размеченных примеров, AZR использует принцип самообучения через создание и решение собственных задач программирования. Система играет две роли одновременно: составителя задач (Proposer) и решателя (Solver), используя исполнитель кода как объективного судью для получения обратной связи. AZR продемонстрировал state-of-the-art результаты в программировании и математических рассуждениях, превзошедший модели, обученные на десятках тысяч человеческих примеров, при этом показав впечатляющий кросс-доменный перенос знаний между различными областями знаний.

Читать далее

Как собрать ДНК с помощью кода: симуляция молекулярных операций на Python

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров1.6K

Синтез ДНК кажется чем-то сугубо биологическим — с пробирками, центрифугами и белыми халатами. Но что, если попробовать собрать ДНК в коде? Не просто сгенерировать последовательность, а симулировать реальные процессы: лигирование, гибридизацию, ПЦР, ошибочные вставки, ферментативные сдвиги и многое другое. В этой статье — практическая попытка воссоздать молекулярную биологию средствами Python, без библиотек типа Biopython, с нуля. Много кода, немного шуток и один вопрос — можно ли построить in silico ДНК-лабораторию?

Слова “биоинформатика” и “программирование” обычно встречаются в одном предложении, когда речь идёт о парсинге геномов, анализе экспрессии генов или машинном обучении для диагностики. Но однажды захотелось большего. Хотелось не просто читать гены, а играть с ними. Моделировать их, собирать руками. Вернее, клавиатурой.

Идея: построить в коде лабораторную скамью, где можно будет “сшивать” фрагменты ДНК, копировать их, проверять на ошибки. Причём без привычных библиотек вроде Biopython — просто Python, NumPy и желание воссоздать реальный молекулярный процесс в виртуальной среде. Можно ли собрать виртуальную ДНК-плазмиду и отдать её синтетической биологии?

Да. Но сначала немного теории.

Читать далее

Ближайшие события

Парсим YouTube на Python как для взрослых: отказоустойчивый скрипт с ротацией ключей

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров6.3K

Путь разработчика парсеров тернист и сложен, сперва ты пытаешься обойти официальные ограничения, потому что так проще, так нету квот и разных требований. Параллельно мучаясь с Selenium, в попытка угнаться за меняющейся версткой YouTube. Кто-то пишет простые скрипты на requests, которые падают при первой же ошибке. И куда вас все эти действия приводят?

Снова ко мне - к официальному YouTube Data API v3.

Читать далее

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров6.4K

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже  миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад.

Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals, профессиональной конференции
по инженерии, базам и системам хранения и обработки данных.

В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

Читать далее

Open Source CRM + Telegram-бот: запись, напоминания, интеграция

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.2K

В рамках проекта по продвижению open-source в России я выложил в открытый доступ Telegram-бота с CRM на PHP + MySQL, который выполняет всю базовую бизнес-логику: он записывает клиентов на услуги, напоминает о визите, собирает телефоны, отслеживает источник заявки, уведомляет администратора, хранит контакты в CRM и делает рассылки. Работает автономно — прямо на Windows, без облаков и внешних сервисов. Подходит предпринимателям, ботмейкерам и самозанятым, кому нужно быстрое, понятное и полностью локализованное решение. Лицензия — MIT. Установил — и автоматизируй бизнес.

Читать далее

FEDOT, да не тот

Время на прочтение6 мин
Количество просмотров825

Привет, Хабр!
Меня зовут Марина, я Head of Analytics and ML в SENSE, занимаюсь анализом данных уже более 5 лет. Сначала препарировала спектры в физике высоких энергий и сотрудничала с ЦЕРН-ом, а теперь строю рекомендательные системы и аналитику.

В статье расскажу про опыт работы с пакетом FEDOT для прогнозирования временных рядов. Статья пригодится тем, кто хочет вкатиться в тему временных рядов и потыкать свои первые модельки на примере отечественных библиотек. Объясняю на примере задачи прогнозирования выходов кандидатов.

Дисклеймер: во временных рядах я только начинаю свой путь, так что делюсь всеми своими фейлами и буду рада обратной связи в комментах.

Читать далее

Дескрипторы Python. Подробное руководство

Уровень сложностиСложный
Время на прочтение34 мин
Количество просмотров5.3K

Привет, хабр! В этой статье хочу рассказать вам про дескрипторы в python. Покажу как и где их применять, а также расскажу о некоторых особенностях, которые могут не знать даже опытные разработчики. Надеюсь многие смогут найти что-то новое для себя.

Читать далее

Монитор 42 — сервис для мониторинга документов о вырубке и застройке зеленых зон

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров930

Что делать, если во дворе появился строительный забор?

Или уже начали вырубать деревья?

Самое время задуматься над созданием системы мониторинга.

Читать далее

Почему multiprocessing.Queue() тормозит и как обойти это с помощью shared_memory

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Привет, Хабр!

Вы запускаете многопроцессную задачу, кидаете данные в multiprocessing.Queue(), а потом вдруг замечаете... что всё тормозит. Муторно. Медленно. Местами прям отвратительно. Вы смотрите в монитор, на top, на htop, на код — и не понимаете: ну ведь должно же летать! А не летит.

Читать далее
1
23 ...

Работа

Data Scientist
45 вакансий