Articles / Bookmarks / Profile of Bigbad / Habr

Дмитрий @Bigbad

Пользователь

Profile Articles 2Posts News Comments 84

janvarev Feb 7 2022 at 14:58

Ирина — опенсорс русский голосовой помощник. Offline-ready

9 min

58K

Open source*Python*Voice user interfaces*

- Ирина, таймер...
- Ставлю таймер на пять минут.

Вполне себе обыденная история из моего быта. Я таки сделал собственного автономного голосового помощника.

TL;DR> Ирина вполне неплохо работает дома 24x7.

Потребуется установить Python 3.5+ и зависимости через pip (немного знаний Python).

Скиллы "из коробки": таймер, погода, контроль медиа (громче/тише/дальше), контроль плеера MPC-HC, запуск медиа из папки, расписание ближайших электричек, "подбрось кубик/монетку".

Плагинами добавляются: другие скиллы, Text-to-Speech и Speech-to-Text движки.

Интересно? Поехали >

+106

mikprin Oct 14 2024 at 23:37

Сервис для обхода блокировки OpenAI API в России или ваш первый API

Easy

5 min

10K

Python*API*

Tutorial

Всем привет! Сегодня я расскажу вам, как я сделал сервис для обхода блокировки OpenAI в россии со стороны OpenAI (не Роскомнадзор даже) с использованием FastAPI и Docker. Мотивация проста. У меня в РФ есть сервер на котором работают сервисы и я хочу подключить к ним OpenAI, но они не дают доступ, распознавая IP из россии. Подумал что напишу сервер для пересылки запроса. Если вам интересно, как за несколько шагов запаковать работу с ИИ в красивую и простую оболочку, то устраивайтесь поудобнее. Мы вместе погрузимся в этот увлекательный процесс!

zabarov Jan 12 at 18:44

Подключение чата DeepSeek к Алисе

Medium

3 min

7.1K

PHP*Artificial Intelligence

Tutorial

В этой статье вы узнаете, как интегрировать GPT в колонку Алисы без зарубежных серверов, используя DeepSeek. Покажем пошаговую настройку PHP-хостинга, объясним, где взять нужные ключи и как настроить навык в Яндекс.Диалогах. Результат — умный помощник, способный отвечать на вопросы с помощью мощи GPT.

+16

Deleted-user Nov 24 2023 at 20:24

OpenConnect: недетектируемый VPN, который вам понравится

Medium

15 min

312K

Configuring Linux*Information Security*System administration*Network technologies*

Review

Я уже написал здесь много статей на тему прокси-протоколов и прокси-клиентов, которые очень сложно детектировать и заблокировать, и которые используют пользователи в Китае, Иране, Ираке, Туркменистане, и теперь вот в России (мы здесь в отличной компании, правда?). Но довольно часто мне в комментариях писали, мол, это все отлично, но мне нужен именно VPN для целей именно VPN - доступа в частные локальные сети, либо для соединения клиентов между собой, и желательно так, чтобы его не заблокировали ~~обезьяны с гранатой~~. Поэтому сегодня мы поговорим именно о VPN.

Классические OpenVPN, Wireguard и IPSec отметаем сразу - их уже давно умеют блокировать и блокировали не раз. Модифицированный Wireguard от проекта Amnezia под названием AmneziaWG — отличная задумка, но есть одно но...

+323

356

Deleted-user Apr 25 2023 at 21:58

Bleeding-edge обход блокировок с полной маскировкой: настраиваем сервер и клиент XRay с XTLS-Reality быстро и просто

Easy

11 min

546K

Network technologies*System administration*Information Security*Configuring Linux*

Tutorial

В серии предыдущих статей я описывал, почему повсеместно используемые VPN- и прокси-протоколы такие как Wireguard и L2TP очень уязвимы к выявлению и могут быть легко заблокированы цензорами при желании, обозревал существующие гораздо более надежные протоколы обхода блокировок, клиенты для них, а также описывал настройку сервера для всего этого.

Но кое о чем мы не поговорили. Во второй статье я вскользь упомянул самую передовую и недетектируемую технологию обхода блокировок под названием XTLS-Reality, и пришло время рассказать о ней поподробнее, а именно - как настроить клиент и сервер для нее.

Кроме того, что этот протокол еще более устойчив к выявлению, приятным фактом будет и то, что настройка сервера XTLS-Reality гораздо проще, чем описанные ранее варианты - после предыдущих статей я получил довольно много комментариев типа "А что так сложно, нужен домен, нужны сертификаты, и куча всего" - теперь все будет гораздо проще.

+37

310

Komrus Aug 2 2024 at 13:13

Настройка на роутерах Keenetic отдельной WiFi сети с внешним подключением через WireGuard

Easy

3 min

86K

Network technologies*

Tutorial

В последнее время удручающе регулярно прилетали вопросы из серии "что сделать, чтобы Youtube на (не-шибко) умном телевизоре опять заработал?". Если ограничиться сугубо техническими аспектами возникшей неурядицы, то на достаточно широко распространённых домашних роутерах Keenetic есть возможность порешать проблему мышкой-менюшкой.

В общем-то вся инструкция сводится к фразе "поднимите с роутера WireGuard соединение КУДА_НИБУДЬ и настройке отдельную WiFi сеть с этим WireGuard как внешним соединением", но зачастую спрашивающие хотели бы видеть скучную пошаговую инструкцию.

Чтобы не плодить сущности – подготовил статейку с пошаговой инструкцией.

+35

Ibragim_bad Dec 8 2022 at 11:38

Как устроен процесс найма и собеседований на позицию Machine Learning Engineer

5 min

23K

Studying in ITIT-emigrationIT careerArtificial Intelligence

Это статья с 21-ой ссылкой о подготовке к собеседованиям. Я собеседовался на позиции Machine Learning Engineer.

Разобрал основные этапы (алгоритмы, machine learning system design, поведенческий этап) и как к ним готовиться.

+16

Flaker Dec 29 2016 at 15:30

Методы защиты от CSRF-атаки

5 min

191K

System Analysis and Design*Information Security*

From sandbox

Что такое CSRF атака?

Ознакомиться с самой идеей атаки CSRF можно на классических ресурсах:

Выдержка из ответа на SO:

Причина CSRF кроется в том, что браузеры не понимают, как различить, было ли действие явно совершено пользователем (как, скажем, нажатие кнопки на форме или переход по ссылке) или пользователь неумышленно выполнил это действие (например, при посещении bad.com, ресурсом был отправлен запрос на good.com/some_action, в то время как пользователь уже был залогинен на good.com).

Как от нее защититься?

Эффективным и общепринятым на сегодня способом защиты от CSRF-Атаки является токен. Под токеном имеется в виду случайный набор байт, который сервер передает клиенту, а клиент возвращает серверу.

Защита сводится к проверке токена, который сгенерировал сервер, и токена, который прислал пользователь.

Читать дальше →

+22

igor_suhorukov Feb 2 2023 at 08:42

Как поместить весь мир в обычный ноутбук: PostgreSQL и OpenStreetMap

29 min

27K

Geoinformation services*OpenStreetMap*Java*PostgreSQL*

Когда человек раньше говорил что он контролирует весь мир, то его обычно помещали в соседнюю палату с Бонапартом Наполеоном. Надеюсь, что эти времена остались в прошлом и каждый желающий может анализировать геоданные всей земли и получать ответы на свои глобальные вопросы за минуты и секунды. Я опубликовал Openstreetmap_h3 — свой проект, который позволяет производить геоаналитику над данными из OpenStreetMap в PostGIS или в движке запросов, способном работать с Apache Arrow/Parquet.

Первым делом передаю привет хейтерам и скептикам. То что я разработал — действительно уникально и решает проблему преобразования и анализа геоданных используя обычные и привычные инструменты доступные каждому аналитику и датасаенс специалисту без бигдат, GPGPU, FPGA. То что выглядит сейчас простым в использовании и в коде — это мой личный проект в который я инвестировал свои отпуска, выходные, бессонные ночи и уйму личного времени за последние 3 года. Может быть я поделюсь и предысторией проекта и граблями по которым ходил, но сначала я все же опишу конечный результат.

Первый пост не претендует на монографию, начну с краткого обзора...

+79

Stormglass Feb 22 2023 at 14:42

Своя альтернатива Google Maps: хостим сервер OpenStreetMap

Medium

7 min

16K

QIWI corporate blogOpen source*OpenStreetMap*Geoinformation services*Hosting

Tutorial

Translation

Зачем? Это странно...

Нет, не странно! Google Maps — это, наверно, самый потрясающий сервис, который мы получаем бесплатно [в обмен на свои персональные данные].

Я пользуюсь им почти каждый день, он невероятно полезен для ориентирования на местности.

Но что, если бы нам вообще не нужен был Google?

OpenStreetMap бесплатно предоставляет всему миру данные карт, собранные при помощи краудсорсинга. Но я не имею в виду, что можно просто воспользоваться OSM. Эта организация предоставляет данные, однако политика использования стимулирует пользователей не полагаться на её серверы при личном пользовании, а брать на себя ответственность за хостинг. И глядя на этот проект, я понимаю, почему. Его аппаратные требования не для слабонервных.

Читать дальше →

+33

franky_d_zoro Jan 30 2023 at 14:17

SEO Выводы из утечки кода поисковика Яндекс

6 min

104K

Search engines*Web analytics*Increasing Conversion Rate*Search engine optimization*

Opinion

Я был в восторге, когда узнал об утечке проприетарного исходного кода Яндекса. И после анализа данных я должен сказать, что выводы оказались весьма интересными! Итак, без лишних слов, давайте окунемся в основные выводы, которые я сделал.

+182

130

KorDen32 Oct 23 2022 at 23:19

Эмбарго на A-GPS или почему смартфоны стали плохо определять местоположение

5 min

150K

Global Positioning Systems*Geoinformation services*Smartphones

Ориентировочно с мая 2022 года в разных темах на форуме 4PDA и других интернет-площадках начали появляться сообщения вида "Что-то смартфон стал плохо ловить спутники GPS и показывать точное местоположение". Многие связывали это с обновлениями прошивок, пробовали откатываться, использовать различные приложения, дергающие различные API Android...

Объединяло все эти жалобы два момента: все смартфоны на чипах Qualcomm Snapdragon различных поколений, и все пользователи были из РФ.

+290

341

Moryshka Mar 1 2021 at 11:46

DeepPavlov 3 года: обзор и итоги 2020 года

10 min

5.7K

Московский физико-технический институт (МФТИ) corporate blogMachine learning*Artificial IntelligenceIT-companiesNatural Language Processing*

Уже февраль 2021 года, а значит пришло время подводить итоги! В это время, 3 года назад, состоялся первый альфа релиз библиотеки. Библиотека DeepPavlov v0.0.1 содержала несколько предварительно обученных моделей и конфигураций JSON. А сегодня у нас есть несколько продуктов, множество пользователей и сценариев использования, достижения в всемирно известных конкурсах и конференциях, и всего через несколько месяцев библиотека DeepPavlov совершит скачок до версии v1.

И несмотря на обстоятельства пандемии, в 2020 году у нас было много задач и поводов для гордости. Как минимум, мы обновили наш веб-сайт, выпустили новый продукт DP Dream, выиграли Про/Чтение, а также повторно участвуем в Alexa Prize Challenge. Об этих и других достижениях мы рады поделиться с вами в обзоре нашего 2020 года.

Ps. 5 марта в честь 3х летия состоится встреча пользователей и разработчиков открытой библиотеки DeepPavlov. Посмотреть детали и зарегистрироваться можно на сайте.

alexanderkuk Aug 24 2020 at 21:07

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

34 min

102K

Machine learning*Artificial IntelligencePython*Natural Language Processing*Data Mining*

Technotext 2020

Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей. Библиотека Natasha сейчас встроена в образовательные программы ВШЭ, МФТИ и МГУ.

Проект подрос, библиотека теперь решает все базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение именованных сущностей.

Для новостных статей качество на всех задачах сравнимо или превосходит существующие решения. Например с задачей NER Natasha справляется на 1 процентный пункт хуже, чем Deeppavlov BERT NER (F1 PER 0.97, LOC 0.91, ORG 0.85), модель весит в 75 раз меньше (27МБ), работает на CPU в 2 раза быстрее (25 статей/сек), чем BERT NER на GPU.

В проекте 9 репозиториев, библиотека Natasha объединяет их под одним интерфейсом. В статье поговорим про новые инструменты, сравним их с существующими решениями: Deeppavlov, SpaCy, UDPipe.

+53

darvecher Nov 21 2019 at 12:08

Практический опыт обновления MySQL 5.7 до версии 8.0

3 min

35K

MySQL*

Недавно мы обновили свои сервера с MySQL 5.7 на 8.0.

Оставим за рамками этой статьи зачем и какие новые плюшки появились в MySQL 8.0, а вместо этого расскажем о том, с какими сложностями мы столкнулись в процессе обновления.

Читать дальше →

+30

shurup Mar 23 2021 at 09:35

Почему tar.xz-файлы, созданные с Python tar, оказались в 15 раз меньше, чем у macOS tar

3 min

22K

Флант corporate blogProgramming*Data compression*

Translation

Прим. перев.: это не совсем обычный перевод, потому что в его основе не отдельно взятая статья, а недавний случай со Stack Exchange, ставший главным хитом ресурса в этом месяце. Его автор задает вопрос, ответ на который можно отнести к базовым знаниям в области ИТ, но в то же время оказавшийся откровением для некоторых посетителей сайта.

Сжимая каталоги по ~1,3 ГБ, в каждом из которых по 1440 файлов JSON, я обнаружил 15-кратную разницу между размером архивов, сжатых с помощью tar на macOS или Raspbian 10 (Buster), и архивов, полученных при использовании библиотеки tarfile, встроенной в Python.

+74

xmeoff Nov 22 2011 at 22:52

Интеграция JavaScript cookies в CURL-запросы

10 min

25K

PHP*

From sandbox

В этой статье я расскажу об одной необычной проблеме, с которой мне однажды пришлось столкнуться по роду своей деятельности. Внимание: эта статья не для начинающих. Предполагается, что читатель уже имеет опыт веб-программирования и знаком с языком PHP, библиотекой CURL и основами HTTP.

Перейдем к описанию проблемы.
Мне нужно было написать скрипт бота для одного сайта с целью автоматизации некоторого процесса из нескольких шагов, не считая авторизации.

Читать дальше →

+29

alexanderkuk Feb 7 2016 at 21:22

Мониторинг выполнения задач в IPython Notebook

2 min

37K

Python*

Хотел бы поделиться простым, но полезным инструментом. Когда много работаешь с данными, часто возникают примитивные, но долгие операции, например: «скачать 10 000 урлов», «прочитать файл на 2Гб, и что-то сделать с каждой строчкой», «распарсить 10 000 html-файлов и достать заголовки». Долго смотреть в зависший терминал тревожно, поэтому долгое время я использовал следующий гениальный код:

def log_progress(sequence, every=10):
    for index, item in enumerate(sequence):
        if index % every == 0:
            print >>sys.stderr, index,
        yield item

Эта функция прекрасна, больше года она кочевала у меня из задачи в задачу. Но недавно я заметил в стандартной поставке Jupyter виджет IntProgress и понял, что пора что-то менять:

Читать дальше →

+36

sadfun Feb 5 2019 at 17:48

Морти, мы в UltraHD! Как посмотреть любой фильм в 4K, дорисовав его через малоизвестную нейросеть

3 min

115K

DIYMachine learning*Working with video*

Наверное, вы слышали про технологию Яндекса DeepHD, с помощью которой они как-то раз улучшили качество советских мультфильмов. Увы, в публичном доступе ее еще нет, а у нас, рядовых программистов, вряд ли найдутся силы написать свое решение. Но лично мне, как обладателю Retina-дисплея (2880х1800), недавно очень захотелось посмотреть «Рика и Морти». Какого же было мое разочарование, когда я увидел, как мыльно на этом экране выглядит 1080р, в котором существуют оригиналы этого мультсериала! (это прекрасное качество и обычно его вполне достаточно, но поверьте, ретина так устроена, что анимация с ее четкими линиями в 1080р выглядит мыльновато, словно 480р на FHD-мониторе)

Я твердо решил, что хочу увидеть этот мультсериал в 4К, хотя и совершенно не умею писать нейросети. Однако решение было найдено! Любопытно, что нам даже не придется писать код, понадобится лишь ~100 ГБ места на диске и немного терпения. А результат — четкое изображение в 4К, которые выглядит достойнее, чем любая интерполяция.

Читать дальше →

+214

187

DesertFlow Feb 17 2019 at 00:04

GPT-2 нейросеть от OpenAI. Быстрый старт

9 min

145K

Artificial IntelligenceMachine learning*

Не успели отшуметь новости о нейросети BERT от Google, показавшей state-of-the-art результаты на целом ряде разговорных (NLP) задач в машинном обучении, как OpenAI выкатили новую разработку: GPT-2. Это нейронная сеть с рекордным на данный момент числом параметров (1.5 млрд, против обычно используемых в таких случаях 100-300 млн) оказалась способна генерировать целые страницы связного текста.

Генерировать настолько хорошо, что в OpenAI отказались выкладывать полную версию, опасаясь что эту нейросеть будут использовать для создания фейковых новостей, комментариев и отзывов, неотличимых от настоящих.

Тем не менее, в OpenAI выложили в общий доступ уменьшенную версию нейросети GPT-2, со 117 млн параметров. Именно ее мы запустим через сервис Google Colab и поэкспериментруем с ней.

Читать дальше →

+50

2 3 ...

6 7