Статьи / Профиль AlexeySushkov / Хабр

Алексей Сушков@AlexeySushkov

Инженер

ПрофильСтатьи18ПостыНовостиКомментарии59

@AlexeySushkov 19 апр в 11:20

Накорми языковую модель документами

Простой

13 мин

12K

Машинное обучение * Искусственный интеллектIT-инфраструктура * Natural Language Processing *

Обзор

Одна из актуальных задач для компаний в сфере ИИ - это поиск и генерация ответов по внутренней документации. На первый взгляд кажется, что решение простое: скормить документы большой языковой модели (LLM) и получать ответы. На практике же технические решения оказываются далеко не такими эффективными и качественными, как хотелось бы. Сейчас для работы с локальными документами доступны два основных подхода - RAG (Retrieval-Augmented Generation) и дообучение модели (fine-tuning). Оба подхода имеют свои преимущества и ограничения. В статье рассмотрим их как с теоретической, так и с практической точки зрения.

+13

@AlexeySushkov 19 ноя 2024 в 20:04

Я наконец понял, что не так с ЕГЭ…

Простой

13 мин

49K

Управление персоналом * Будущее здесьБизнес-модели * Научно-популярное

Мнение

По мотивам книги "Долой среднее!"

В нашей повседневной жизни понятие "среднего" давно укоренилось и воспринимаются как совершенно естественное. Мы привыкли оценивать людей по их физическим, психическим или интеллектуальным способностям, исходя из того, насколько они соотносятся со средними значениями. Рассуждения о средней оценке или среднем интеллекте не вызывают противоречий. Нам кажется, что что существует нормальный путь развития, при котором школьные оценки и результаты экзаменов в университете напрямую связаны с успехом в профессии, карьере и жизни. В книге "Долой среднее!" профессора Тодда Роуз такие установки считаются не просто ошибочными, а вредными для принятия решений в современно мире! Книга провокационная, однако она побуждает к размышлениям, помогает разобраться в том, почему мы живем в мире, где все основывается на оценках и на сравнении со средними показателями. И я наконец понял, что не так с ЕГЭ! Но давайте пойдем по порядку.

-5

640

@AlexeySushkov 17 мар 2024 в 11:30

Мозг промышленного масштаба или как воплотить мечту в реальность?

Простой

8 мин

4.4K

Искусственный интеллектDevOps * Управление проектами * Машинное обучение * IT-инфраструктура *

В предыдущей статье мы рассмотрели различные типы нейросетей и обсудили, какие задачи можно решать с их помощью. Теперь рассмотрим задачу искусственного интеллекта с организационной и технической точки зрения.

При работе над сложными проектами обычно вовлечена команда разработчиков и специалистов по обработке данных, у которых сразу возникают вопросы: как управлять проектом, совместно разрабатывать модель машинного обучения (Machine Learning model), проводить ее тестирование, каким образом синхронизировать код и результаты экспериментов? После разработки и оптимизации ML-модели возникает необходимость ее развертывания в промышленной среде. Все эти проблемы могут казаться менее увлекательными, чем решение самой задачи машинного обучения, но они имеют критическое значение для успешной реализации ML-проектов.

В этой статье мы подробно рассмотрим жизненный цикл ML-сервиса от идеи до разработки и внедрения, а также инструменты и принципы, используемые на каждом этапе.

@AlexeySushkov 9 янв 2024 в 08:40

Кто знает, что значит GPT в названии ChatGPT, могут дальше не читать

Простой

11 мин

70K

Алгоритмы * Машинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

✏️ Технотекст 7

В настоящее время искусственный интеллект (ИИ) стремительно развивается. Мы являемся свидетелями интеллектуальной мощи таких нейросетей, как GPT-4 Turbo от OpenAI и Gemini Ultra от Google. В Интернете появляется огромное количество научных и популярных публикаций. Зачем же нужна еще одна статья про ИИ? Играя с ребенком в ChatGPT, я неожиданно осознал, что не понимаю значения аббревиатуры GPT. И, казалось бы, простая задача для айтишника, неожиданно превратилась в нетривиальное исследование архитектур современных нейросетей, которым я и хочу поделиться. Сгенерированная ИИ картинка, будет еще долго напоминать мою задумчивость при взгляде на многообразие и сложность современных нейросетей.

+60

@AlexeySushkov 17 июн 2022 в 11:57

Сам себе PKI: Практика на примере OpenSSL и CA Smallstep. (Статья 2)

10 мин

46K

IT-стандарты * IT-инфраструктура * Анализ и проектирование систем * Криптография * Информационная безопасность *

Введение

В предыдущей статье "Сам себе PKI: Теория на примере Let’s Encrypt" мы рассмотрели теорию и разобрали пример, как происходит установка HTTPS соединения между браузером и веб-сайтом при использовании сертификатов Let's Encrypt. В этой статье перейдем к практике и самостоятельно реализуем ту же самую схему:

- Сначала вручную с помощью OpenSSL пройдем цепочку генерации и использования самоподписанных сертификатов в HTTPS сервере.

- Далее развернем собственный удостоверяющий центр Smallstep и будем получать сертификаты, подписанные им.

Схема PKI остаётся той же, только изменяются компоненты:

- В качестве CA вместо Let's Encrypt, будет использоваться OpenSSL и CA Smallstep.

- В роли Web-сервера вместо Интернет веб-сайта, будет выступать простой HTTPS сервер, запущенный на Node.js.

@AlexeySushkov 17 июн 2022 в 11:56

Сам себе PKI: Теория на примере Let’s Encrypt. (Статья 1)

9 мин

29K

Информационная безопасность * Криптография * Анализ и проектирование систем * IT-инфраструктура * IT-стандарты *

За последние годы инфраструктура приватных ключей PKI (Public Key Infrastructure) незаметно окружила нас со всех сторон:

- Большинство сайтов в сети Интернет используют HTTPS протокол. Для его работоспособности необходимо получать сертификаты из удостоверяющих центров (Certificate Authority)

- Компании организуют доступ к своей IT инфраструктуре и информационным ресурсам с помощью ключей и сертификатов, которые сотрудники получают из специальных систем.

- Для отправки документов в государственные и коммерческие структуры требуется цифровая подпись, которая реализуется теми же механизмами.

Давайте разберемся как работают системы PKI, т.к. они еще долго будут актуальны для обеспечения аутентификации и безопасной передачи данных. В данной статье рассмотрим теорию и в качестве примера PKI возьмём самую известную в мире реализацию PKI - HTTPS протокол в сети Интернет. В качестве удостоверяющего центра будем использовать бесплатный Let's Encrypt. В следующей статье "Сам себе PKI: Практика на примере OpenSSL и CA Smallstep" перейдем к практике и организуем безопасную передачу данных на основе TLS протокола.

На схеме упрощенная система PKI для организации HTTPS в сети Интернет.

@AlexeySushkov 30 июл 2021 в 15:43

Cам себе облако: установка ELK и TICK стеков в Kubernetes

13 мин

18K

Kubernetes * Облачные сервисы * Проектирование API * IT-стандарты * Анализ и проектирование систем *

Казалось бы простая задача - развернуть Kubernetes кластер и в нем запустить централизованный мониторинг TICK стек и логирование ELK стек. Но для меня она осложнилась тем, что с этим технологиями я столкнулся впервые. Чтобы понять, как все работает, хотел пройти простые Quick Start инструкции. К своему удивлению, не нашел детальных актуальных описаний - либо отдельные статьи со своей спецификой, либо многостраничные книги по Kubernetes. Пока собирал пазл из многочисленных материалов, решил написать статью, в которой рассмотреть общую концепцию развертывания TICK и ELK стеков в Kubernetes.

Для чего, вообще, решать задачу централизованного мониторинга и логирования в Kubernetes?

@AlexeySushkov 22 дек 2020 в 08:47

Best practices для клиент-серверного проекта PoC

21 мин

12K

IT-стандарты * JavaScript * Анализ и проектирование систем * Информационная безопасность * Веб-разработка *

Типичный клиент-серверный проект PoC (Proof of Concept) для веба состоит из клиента с GUI, сервера c бизнес логикой и API между ними. Также используется база данных, хранящая оперативную информацию и данные пользователей. Во многих случаях необходима связь с внешними системами со своим API.

Когда у меня возникла необходимость в создании проекта PoC, и я начал разбираться в деталях, то оказалось, что порог вхождения в веб-программирование весьма высок. В крупных проектах для каждого компонента есть выделенные специалисты: front-end, back-end разработчики, UX/UI дизайнеры, архитекторы баз данных, специалисты по API и информационной безопасности, системные администраторы. В небольшом PoC надо самому во всем разобраться, выбрать подходящее техническое решение, реализовать и развернуть. Ситуацию ухудшает тот факт, что из обучающих материалов не всегда понятно, почему предлагается сделать именно так, а не иначе, есть ли альтернативы, является ли решение best practice или это частное мнение автора. Поэтому я разработал заготовку под названием «Common Test DB», отвечающую лучшим практикам. Ее можно использовать для начала любого проекта, остается только наполнить функциональным смыслом.

В статье я подробно опишу примененные best practices, расскажу про имеющиеся альтернативы и в конце размещу ссылки на исходники и работающий в сети пример.

Читать дальше →

@AlexeySushkov 25 мая 2020 в 08:10

Безопасность REST API от А до ПИ

17 мин

170K

Веб-разработка * Информационная безопасность * Анализ и проектирование систем * IT-стандарты * Проектирование API *

Технотекст 2020

Введение

Умение реализовать грамотное REST API — полезный навык в наше время, т.к. все больше сервисов предоставляют свои возможности с помощью API. Но разработка REST API не ограничивается реализацией HTTP запросов в определенном стиле и формированием ответов в соответствии со спецификацией. Задача обеспечения безопасности REST API не так очевидна, как, например, обеспечение безопасности баз данных, но ее необходимость не менее важна.
В настоящее время многие онлайн системы с помощью API передают приватные данные пользователей, такие как медицинские или финансовые. Текущая же ситуация с безопасностью в веб-приложениях весьма печальна: по данным Comnews порядка 70% содержат критические уязвимости. Поэтому всем, кто участвует в проектировании, реализации и тестировании онлайн систем, важно иметь общую картину по существующим угрозам и способам обеспечения безопасности как всей системы, так и используемого REST API.

В статье я попытался обобщить информацию о существующих уязвимостях REST API, чтобы у читателей сложилась общая картина. На схемах представлена современная архитектура клиент-сервер и обобщенный REST API запрос с потенциальными угрозами безопасности. Далее я подробнее расскажу об этих угрозах, и как технически реализовать защиту от них.

Читать дальше →

+49

@AlexeySushkov 5 мар 2020 в 19:32

Современные стандарты идентификации: OAuth 2.0, OpenID Connect, WebAuthn

13 мин

104K

IT-стандарты * Анализ и проектирование систем * Информационная безопасность * Веб-разработка * Разработка мобильных приложений *

Пускать или не пускать? Вот в чем вопрос…

Сейчас на многих сайтах мы видим возможность зарегистрироваться или войти с помощью соцсетей, а некоторые сайты предлагают использовать внешние ключи безопасности или отпечатки пальцев. Что это? Стандарты с хорошо проработанной безопасностью или проприетарные реализации? Можем ли мы доверять этим технологиям и использовать их для разработки сайтов и в повседневной жизни? Давайте разбираться. Итак, сейчас существуют несколько стандартов и технологий для идентификации пользователей OAuth 2.0,OpenID Connect, WebAuthn, SAML 2.0, Credential Management API и др. В статье я расскажу о трех наиболее перспективных протоколах OAuth 2.0, OpenID Connect и WebAuthn. И чтобы понять как их применять на практике, сделаем три лабораторные работы. В качестве платформ для идентификации пользователей будем использовать GitHub и Google, на которых у большинства есть аккаунты.

Читать дальше →

+16

@AlexeySushkov 22 окт 2019 в 08:20

Что нам стоит IoT построить? Свой IoT на Amazon за один день

7 мин

10K

Интернет вещейОблачные сервисы * Amazon Web Services * Node.JS * Анализ и проектирование систем *

Начать разбираться с IoT (Internet of Things) платформами меня останавливало отсутствие IoT устройства, которое было бы совместимо по протоколам и способам доступа. Но когда я понял, что в качестве устройства можно использовать обыкновенный смартфон, то реализация работающей цепочки заняла один день.

Возьмем смартфон, который будет эмулировать IoT устройство c датчиками температуры, влажности и давления и отсылать показания на Amazon IoT платформу. На платформе заведем правило, которое при поступлении данных от нашего устройства будет вызывать сервис нотификаций, который в свою очередь будет отсылать e-mail с полученными данными.

Такая система, конечно, несет мало практической ценности, но позволяет разобраться, как все устроено:

Почему именно IoT платформа от Amazon? И зачем вообще нужно понимать, как работают IoT платформы?

Читать дальше →

@AlexeySushkov 5 сен 2019 в 13:59

Блокчейн: что нам стоит PoC построить?

11 мин

7.3K

Распределённые системы * КриптовалютыДецентрализованные сети * Анализ и проектирование систем * Amazon Web Services *

Глаза боятся, а руки чешутся!

В прошлых статьях мы разобрались с технологиями, на которых строятся блокчейны (Что нам стоит блокчейн построить?) и кейсами, которые можно с их помощью реализовать (Что нам стоит кейс построить?). Настало время поработать руками! Для реализации пилотов и PoC (Proof of Concept) я предпочитаю использовать облака, т.к. к ним есть доступ из любой точки мира и, зачастую, не надо тратить время на нудную установку окружения, т.к. есть предустановленные конфигурации. Итак, давайте сделаем что-нибудь простое, например, сеть для перевода монет между участниками и назовем ее скромно Сitcoin. Для этого будем использовать облако IBM и универсальный блокчейн Hyperledger Fabric. Для начала разберемся, почему Hyperledger Fabric называют универсальным блокчейном?

Читать дальше →

@AlexeySushkov 27 мая 2019 в 08:19

Блокчейн: что нам стоит кейс построить?

8 мин

13K

Анализ и проектирование систем * Биллинговые системы * Децентрализованные сети * Криптовалюты

Вся история человечества — это попытки разрушить старый порядок вещей и построить новый, разумеется, лучший. (Анонимный автор)

В прошлой статье «Что нам стоит блокчейн построить?» мы разобрались с технологиями, на которых работают все блокчейны. Пришло время понять какие задачи могут решить современные блокчейны. Для начала давайте посмотрим на аналитику текущего состояния блокчейна и перспективах на будущее. Как техническому специалисту, мне импонирует компания Gartner с ее многочисленными циклами зрелости технологий (Hype Cycles). На графике показан цикл зрелости блокчейна в бизнесе на конец 2018 года. Какие выводы можно сделать?

Читать дальше →

@AlexeySushkov 2 апр 2019 в 07:17

Что нам стоит блокчейн построить?

29 мин

36K

Криптография * КриптовалютыДецентрализованные сети * Биллинговые системы * Анализ и проектирование систем *

Вся история человечества — это непрерывное избавление от цепей и создание новых, еще более крепких. (Анонимный автор)

Анализируя многочисленные blockchain проекты (Bitshares, Hyperledger, Exonum, Ethereum, Bitcoin и др.), я понимаю, что с технической точки зрения все они построены по одним принципам. Блокчейны напоминают дома, у которых при всем разнообразии конструкций, декора и назначений имеются фундамент, стены, крыша, окна, двери, которые связаны друг с другом определенными способами. И если понять основные принципы проектирования зданий, знать свойства применяемых материалов, то можно определить целевое назначение конкретного дома. В настоящее время с блокчейном возникла ситуация, что все про него слышали, но мало кто понимает архитектуру и принципы работы. Поэтому возникает непонимание для чего и как имеет смысл использовать технологии блокчейна.

В данной статье мы разберем общие для всех блокчейнов свойства и принципы. Далее посмотрим на задачи, которые можно решать с помощью блокчейна и для закрепления материала построим маленький, но настоящий блокчейн на своем виртуальном участке!

Итак, давайте вспомним какие проблемы изначально решил блокчейн.

Читать дальше →

@AlexeySushkov 23 авг 2017 в 14:18

Машинное обучение: от Ирисов до Телекома

16 мин

60K

Блог компании NexignBig Data * Data Mining * Python * Машинное обучение *

Мобильные операторы, предоставляя разнообразные сервисы, накапливают огромное количество статистических данных. Я представляю отдел, реализующий систему управления трафиком абонентов, которая в процессе эксплуатации у оператора генерирует сотни гигабайт статистической информации в сутки. Меня заинтересовал вопрос: как в этих Больших Данных (Big Data) выявить максимум полезной информации? Не зря ведь одна из V в определении Big Data — это дополнительный доход.

Я взялся за эту задачу, не являясь специалистом в исследовании данных. Сразу возникла масса вопросов: какие технические средства использовать для анализа? На каком уровне достаточно знать математику, статистику? Какие методы машинного обучения надо знать и насколько глубоко? А может лучше для начала освоить специализированный язык для исследования данных R или Python?

Как показал мой опыт, для начального уровня исследования данных нужно совсем не много. Но мне для быстрого погружения не хватало простого примера, на котором наглядно был бы показан полный алгоритм исследования данных. В этой статье на примере Ирисов Фишера мы пройдем весь путь начального обучения, а далее применим полученное понимание к реальным данным оператора связи. Читатели, уже знакомые с исследованием данных, могут сразу переходить к главе, посвященной Телекому.

Читать дальше →

+10

@AlexeySushkov 18 апр 2017 в 10:04

Mission critical communication и при чем тут NFV?

7 мин

12K

Блог компании NexignСистемы связи * Анализ и проектирование систем * IT-стандарты *

Ищут пожарные,
Ищет милиция...

Что такое «Mission critical communication»? Это связь, от надежности которой зависят жизни людей. Примеры служб, для которых такая связь нужна – это система-112, МЧС, силовые структуры (МВД, ФСБ, Министерство обороны). Также mission critical связь необходима в зоне чрезвычайных ситуаций и на объектах, аварии на которых могут принести разрушительные последствия: энергетика, химическая промышленность, общественный транспорт и т.п.
Mission critical сети связи строятся на основе стандартов профессиональной мобильной радиосвязи (ПМР). На данный момент есть два основных стандарта: TETRA (Terrestrial Trunked Radio) ETSI EN 300 392 и DMR (Digital Mobile Radio) ETSI 102 361. Не буду вдаваться в подробности (информация по этим стандартам доступна в сети), но у них, помимо достоинств, есть существенный недостаток: они заточены на голос, а скорость передачи данных и видео существенно ограничена. Хотя понятно, что возможность передать видео с места событий может иметь критичное значение. Что же делать?

Читать дальше →

@AlexeySushkov 12 дек 2016 в 13:04

Облака как любовь

7 мин

15K

Блог компании NexignБиллинговые системы * Анализ и проектирование систем * IT-стандарты *

Что такое облака, и когда имеет смысл строить облачные решения? И если строить, то какие платформы использовать? Нужно ли предоставлять клиентам облачные сервисы? А может, лучше использовать виртуализацию? И чем отличается виртуализация от облаков? Эти вопросы задают все IT и «не IT» компании: от крупных операторов связи до небольших стартапов. Давайте попробуем разобраться! В предыдущей статье мы рассмотрели понятия SDN и NFV. Возникает вопрос — если и то и другое связано с виртуализацией и сетями, то это получились облака? Ведь все мы прекрасно знаем, что облака — это виртуализация ресурсов где-то в сети. Я попробовал найти формальное определение облаков, но не нашел. Определения были расплывчаты и нечетки, как настоящие облака. И тогда у меня возникло чувство, что ОБЛАКАМ невозможно дать четкого определения, они как ЛЮБОВЬ, которую можно только описывать и характеризовать с разных сторон. Дальнейшее расследование подтвердило это предположение. Для начала нашел стандарт Cloud Computing, который разрабатывает NIST (National Institute of Standards and Technology). Он выделяет 3 измерения облачных сервисов:

Читать дальше →

@AlexeySushkov 28 ноя 2016 в 14:29

SDN & NFV и при чем тут Облака

5 мин

16K

Блог компании NexignIT-стандарты * Анализ и проектирование систем * Биллинговые системы *

Аббревиатуры SDN и NFV в последнее время звучат все чаще и звучат вместе. В тендерах операторы связи требуют от производителей обязательной поддержки SDN и NFV, т.к. уверены, что эти технологии оказывают положительное влияние на OPEX, CAPEX и TTM. Быстрый серфинг интернета показывает, что SDN — это Software-Defined Networking, а NFV — это Network Functions Virtualization. Обе технологии связаны с виртуализацией и с сетями, т.е. на первый взгляд складывается впечатление, что они очень похожие, если не одно и то же. Давайте разбираться, так ли это на самом деле! Проверка по Google Trend сначала подтверждает гипотезу: тренд запроса «SDN and NFV» начинается в 2013 году:

Читать дальше →