Articles / Bookmarks / Profile of advacc / Habr

How to become an author

@advacc^{read⁠-⁠only}

User

ProfileBookmarks151

RivayMark Jan 23 at 18:35

Управление компьютером. Голосовое управление ПК. Arduino + voice recognition module v3.1 + EasyHID + DFPlayer

Medium

6 min

4K

Developing for Arduino * Voice user interfaces *

Opinion

Устройство для управления компьютером при помощи голосовых команд, и получение отклика, на выполненную инструкцию, голосом Полины из новеллы «Зайчик».

Читать далее

+9

chlorine Jan 24 at 04:00

Горизонтальное масштабирование базы данных. Репликация. Партицирование. Шардирование

Easy

11 min

22K

Programming * Algorithms * System Programming * System Analysis and Design * Database Administration *

Tutorial

В современном мире данных нагрузка на базы данных стремительно растёт. Когда один сервер перестаёт справляться с объёмом запросов, встаёт вопрос о масштабировании: как эффективно распределить нагрузку, сохранив высокую производительность и доступность?

Существует множество стратегий решения указанной проблемы. Сегодня мы разберем самые популярные из них — репликацию, партициривание и шардирование. Рассмотрим их принципы, плюсы и минусы, а также лучшие практики применения. Понимание этих техник поможет разработчикам и архитекторам строить отказоустойчивые, масштабируемые и высокопроизводительные системы хранения данных.

Читать далее

+17

Ykkks Dec 28 2024 at 08:21

«Разработка требований» Вигерса: самый короткий конспект

Easy

5 min

27K

System Analysis and Design * Reading room

Review

Впереди зимние каникулы, и, наверное, многие выбирают себе чтение на эти дни. Самая известная книга среди системных аналитиков — «Разработка требований к программному обеспечению» Карла Вигерса и Джой Битти. Это как Кнут для программистов — все про неё слышали, но мало кто читал от начала до конца. Труд монументальный — в русском издании больше 700 страниц! Мало кто осилит. В сети ходит краткий конспект страниц на 70, но и это много. Я написал для вас супер‑краткий конспект или инструкцию по чтению. Так что, если вы давно хотели прочесть Вигерса, но вас пугал объем — воспользуйтесь этой инструкцией, тут ровно то, что вам следует знать про разработку требований, без воды.

Страницы приведены по изданию БХВ, 3-е издание, на русском языке. Для уточнения смысла я иногда заглядывал в англоязычный оригинал.

Конспект супер‑циничный, имейте в виду!:) Итак, поехали, что вам нужно знать «из Вигерса»:

Читать далее

+23

Vladimir_Rapava Apr 19 2021 at 09:42

Как не потеряться в отечественных изданиях «Искусства схемотехники»

6 min

64K

Popular scienceProfessional literature * Circuit design * Reading roomElectronics for beginners

Так сложилось, что количество русскоязычных изданий книги "Искусство схемотехники" почти вдвое больше оригинальных. И это очень сильно запутывает. Особенно, когда дело касается содержания разных оригинальных изданий. Данная статья предназначена для того, чтобы помочь окончательно разобраться в данном вопросе.

Читать далее

+48

GrishinAlex Jan 14 at 09:19

Облачные хранилища в мире Top Gear

Easy

12 min

7.8K

Selectel corporate blogIT Infrastructure * Data storage * Cloud services *

Opinion

✏️ Technotext 7

Привет, Хабр! Меня зовут Александр Гришин, я менеджер продуктов и отвечаю за развитие облачных баз данных и объектного хранилища в Selectel. Считаю, что новый год — отличное время, чтобы взглянуть на технологии по-новому. Например… через призму Top Gear.

Предлагаю вам немного развлечь себя разными аналогиями между миром транспорта и инструментами хранения данных. Ведь в мире облачных технологий, как и в программе Top Gear, для каждой задачи есть свой «транспорт».

Только представьте: выбирая подходящий инструмент хранения данных в облаке, вы словно решаете, какой вид транспорта использовать для своей задачи — от мощного корабля-контейнеровоза до стремительного гоночного болида. Давайте же погрузимся в экосистему облачных хранилищ и найдем, что подходит именно вам. Подробности под катом!

Читать дальше →

+50

UprightMan Jul 10 2023 at 08:00

Опенсорс-библиотеки для Python: 40+ вариантов, как упростить жизнь начинающего дата-сайентиста

Easy

22 min

15K

FirstVDS corporate blogProgramming * Python * Open source *

Для Python существует более 137 тысяч библиотек с открытым исходным кодом, автоматизирующих работу в разных областях — от отдельных рутинных рабочих процессов в компаниях до создания сложных многофункциональных приложений. Одна из самых популярных областей применения «змеиного языка» — наука о данных, а также задачи, связанные с искусственным интеллектом и машинным обучением.

В этой обширной «шпаргалке» для начинающих AI/ML специалистов мы собрали опенсорсные библиотеки Python, сгруппированные по областям практического применения. Этот список с кратким описанием функций каждого инструмента будет полезен всем, кто постоянно работает с «Питоном» и ищет эффективные инструменты для решения возникающих задач.

Читать далее

+11

Doctor_IT Aug 15 2023 at 10:29

Основы парсинга на Python: от Requests до Selenium

Easy

5 min

168K

Selectel corporate blogOpen data * Web analytics * Python * Programming *

Бывают ситуации, когда нужно автоматизировать сбор и анализ данных из разных источников. Например, если хочется мониторить курс рубля в режиме реального времени. Для решения подобных задач применяют парсинг.

В этой статье кратко рассказываем, как парсить данные веб-сайтов с помощью Python. Пособие подойдет новичкам и продолжающим — сохраняйте статью в закладки и задавайте вопросы в комментариях. Подробности под катом!

Читать дальше →

+36

V-Moskalenko Dec 14 2023 at 06:11

Бенчмарк HTML парсеров в Python: сравнение скорости

Easy

4 min

5.9K

Страховой Дом ВСК corporate blogData Mining * Python * High performance *

Привет, Хабр!

Меня зовут Вадим Москаленко и я разработчик инновационных технологий Страхового Дома ВСК. В этой статье хочу поделиться с вами информацией по проведенному сравнению производительности нескольких популярных библиотек для простого HTML-парсинга.

При необходимости сбора данных с HTML или XML, многим python-разработчикам сразу вспомнятся две популярные библиотеки «BeautifulSoup4» и «lxml» — они весьма удобны и стали широко применяемыми. Но что, если в нашем проекте важна скорость сбора данных? Возникает вопрос: кто из них быстрее и есть ли еще более быстрые библиотеки? При поиске данной информации на Хабре, я нашел подобные статьи, но им уже несколько лет. Так как прогресс не стоит на месте и появляются новые инструменты или те, о которых еще не слышали, мне было интересно провести личное исследование и поделиться информацией.

Читать далее

+7

ru_vds Feb 28 2024 at 13:00

Руководство по веб-скрейпингу на Python

Medium

17 min

50K

RUVDS.com corporate blogPython * Programming *

Tutorial

Translation

В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу.

Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.

Читать дальше →

+55

avalonsec Oct 29 2024 at 12:19

ParallelBeautifulSoup (BS4-hack)

Medium

6 min

1.3K

Review

Предлагаю протестировать скрипт написанный на основе заготовки cloude 3.5 Sonnet с использованием специального промта. Пришлось почти полностью переписать, из-за товарищей в комментариях. Критика это хорошо когда обоснована.

Документацию доделаю потом. Внизу есть пример скрипта.

Читать далее

+1

badcasedaily1 May 13 2024 at 10:47

Веб-скрапинг с Scrapy на Python

Easy

5 min

12K

OTUS corporate blogPython * Programming *

Review

Сегодня мы поговорим о хорошем инструменте для веб-скрапинга, который зарекомендовал себя, библиотеке Scrapy для Python.

Читать далее

+14

vltnmmdv Dec 13 2024 at 08:29

Сбер выкладывает GigaChat Lite в открытый доступ

Medium

18 min

27K

SberDevices corporate blogСбер corporate blogMachine learning * Artificial IntelligenceOpen source *

Review

Салют, Хабр! В начале ноября мы делились с вами новостями о нашем флагмане GigaChat MAX и пообещали рассказать подробнее о процессе создания наших Pretrain-моделей. Пришло время сдержать слово и даже пойти дальше!

Предобучение больших языковых моделей — это одна из наиболее ресурсозатратных стадий, которая непосредственно влияет на весь дальнейший процесс обучения GigaChat. От успешности обучения Pretrain-модели напрямую зависит качество всех следующих этапов обучения, например, Alignment и Vision. Поэтому сегодня мы хотим поделиться весами младшей модели линейки GigaChat версий base и instruct. Модель называется GigaChat-20B-A3B, так как построена на перспективной МоЕ-архитектуре!

Но и это ещё не всё. Вместе с весами мы делимся с сообществом улучшенной реализацией DeepSeek МоЕ, а также кодом для механизма концентрации (а что это такое — читайте дальше ;)). Важно отметить, что хотя GigaChat-20B-A3B обучался на триллионах токенов преимущественно русского текста, он ещё способен на хорошем уровне понимать другие языки. Так что мы делимся мультиязычной моделью. О том, как запускать модель, какие версии доступны и как пользоваться контролируемой генерацией с помощью механизма концентрации, расскажем прямо сейчас!

Узнать что такое MoE

+74

engineer25x8 Dec 20 2024 at 09:47

Как эффективно управлять видеопотоком с веб-камеры в браузере

Easy

9 min

1.9K

Сбер corporate blogWorking with video * Website development * Browsers

Tutorial

Веб‑технологии, такие как Media Capture and Streams API (или просто MediaStream API), открывают большие возможности для работы с видеопотоком в браузере. Они позволяют легко захватывать видеопоток с веб‑камеры и использовать его для создания мощных и интерактивных веб‑приложений. Однако несмотря на широкую доступность этих API их эффективное использование остаётся непростой задачей.

Меня зовут Артем Шовкин, я RnD‑разработчик в СберТехе. В процессе изучения MediaStream API наша команда столкнулась с рядом интересных вопросов. Как эффективно управлять параметрами видеопотока в зависимости от возможностей устройства и сети? Какие подводные камни возникают при кроссбраузерной реализации? Как лучше всего обрабатывать ошибки при работе с видеопотоком?

Мы решили не просто разобраться в работе API, но и в деталях изучить спецификацию Media Capture and Streams, чтобы понять, как она используется в реальных приложениях. В статье мы также использовали код исходников реализации getUserMedia.

Материал пригодится разработчикам, которые встраивают в свои решения работу с камерой, особенно полезен фронтендерам, которые столкнулись с задачами по созданию функциональности работы с веб‑камерой и которым нужно добиться качества видео не хуже, чем в нативных приложениях.

Поехали!

Читать далее

+21

Pashasyr Dec 26 2024 at 09:38

SOAP, XML и Python: получаем данные с zakupki.gov.ru

Easy

8 min

8.2K

Python * Data Mining *

Tutorial

Эта статья написана для начинающих пользователей, которые хотят разобраться в работе сервиса отдачи информации zakupki.gov.ru. Мы шаг за шагом разберем, как получить токен для физического лица, как выглядит XML-документ для запроса и как написать простую программу на Python для взаимодействия с сервисом. Это не руководство от профессионала, а скорее дневник выживания: как не сойти с ума, пока пытаешься подружиться с сервисом zakupki.gov.ru.

Читать далее

+6

art-adept Dec 23 2024 at 10:59

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

14 min

2.1K

HFLabs corporate blogOpen data * Data Engineering * Big Data * System Analysis and Design *

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

+19

Germanlawyer Jul 5 2023 at 08:40

Регистрация ПАК (программно-аппаратных комплексов) в реестре российского ПО 2023

6 min

17K

Legislation in ITIT-companies

В реестре российского ПО стала доступна регистрация ПАК. Теперь компании смогут регистрировать программно-аппаратные комплексы в реестре и получать налоговые льготы: 7,6% страховых взносов и 0% налог на прибыль. В нашем материале мы собрали ответы на самые частые вопросы.

Оглавление:

Читать далее

+1

dilap54 Dec 6 2024 at 09:15

Как мы 2 гбита видео из гаража пытались раздать

Easy

6 min

3.6K

HostingWebsite development * Data storage *

✏️ Technotext 7

Решили мы попробовать для хранения видео файлов использовать garage. Он казалось бы, идеально подходит для наших целей — запускается на древнем консьюмерском железе, требований к латенси сети у него нет, к ошибкам администрирования устойчив. А ещё файлы отдает с низкой задержкой, причем даже если запросить кусок из середины файла. Вроде бы красота, но мы ошиблись.

Никогда не пытайтесь сделать домашний интернет своей опорной инфраструктурой.

Читать далее

+11

Tiabzz Dec 3 2024 at 14:15

Как мы разработали систему грейдинга для системных аналитиков

Medium

10 min

17K

System Analysis and Design * Personnel Management * IT Standards * IT careerDevelopment Management *

Привет, Хабр! Сегодня я хочу поделиться опытом создания и внедрения системы грейдинга для системных аналитиков в моей компании. Эта история о том, как стремиться сделать оценку сотрудников объективной, прозрачной и мотивирующей, какие результаты получили в итоге, какие выявили недостатки. В рамках компании, система грейдинга коснулась нескольких направлений разработки, я же буду акцентировать внимание именно на системных аналитиках.

Читать далее

+13

avangonina Nov 21 2024 at 09:30

ИИ-инструменты для аналитиков: теория, кейсы, советы

Medium

10 min

18K

КОРУС Консалтинг corporate blogArtificial IntelligenceHigh performance *

ИИ давно перестал быть просто забавным развлечением, он позволяет высвободить время от рутины и операционки, что дает сконцентрироваться на уникальных нетипичных задачах, где требуется весь спектр навыков аналитика. В течение пары лет я активно использовал ИИ в работе и искал точки применения, в которых они оптимизируют мою работу. Если раньше на подготовку к интервью и его расшифровку я мог потратить несколько часов или даже целый день, теперь это занимает около получаса. Другой пример – подготовка схем и диаграмм для визуализации проекта. С помощью ChatGPT и PlantUML на подготовку черновика диаграммы у меня уходит минут пять. И таких примеров очень много, о некоторых из них я расскажу подробнее в этой статье.

Читать далее

+15

R2Robotics Jun 3 2021 at 11:43

Исследование методов SLAM для навигации мобильного робота внутри помещений. Опыт исследования R2 Robotics

15 min

32K

В настоящее время существует множество видов навигации автономных беспилотных аппаратов и роботов. В целом их можно разделить на навигацию внутри помещений – indoor, и вне помещений – outdoor.

В свою очередь, навигация внутри помещений также направлена на решение множества задач. Как правило, это мобильные роботы, предназначенные для перемещения грузов на складе, роботы пылесосы, роботы для мерчандайзинга, интерактивного общения с клиентами, официанты и т.д. Когда мы переходим к навигации внутри помещений, то сразу теряем все преимущества спутниковой навигации, потому что спутниковый сигнал, как правило, не достигает устройств сквозь бетонные и металлические конструкции. С другой стороны, благодаря тому что пространство внутри зданий зачастую ограниченно относительно небольшими площадями, можно воспользоваться такими средствами навигации, как триангуляция, навигация по различным меткам (QR коды с указанием последующих команд для робота, сигнальные линии по ходу движения, метки на стенах для коррекции местоположения), SLAM навигация, а также комбинации вышеперечисленных методов.

Читать далее

+14

3