Articles / Bookmarks / Profile of zartdinov / Habr

How to become an author

User

ProfileArticlesPostsNewsComments390

GlobalSign_admin Nov 19 2023 at 19:10

Постквантовая защита WhatsApp, новый Matrix 2.0 и PoW-задачи для входа на сайт

4 min

4K

GlobalSign corporate blogInformation Security*Cryptography*Instant Messaging*Software

На Хабре уже упоминали, что протокол Signal получил постквантовую защиту, хотя в краткой новости не вдавались в детали. Но это действительно важное событие с учётом того, что количество пользователей этого протокола превышает 1 млрд человек за счёт WhatsApp.

Signal применяется для криптографической защиты сессий в одноимённом мессенджере, в Google RCS, WhatsApp и др. Опенсорсный протокол можно использовать в любом ПО.

Итак, что изменилось в криптографической подсистеме?

Читать дальше →

+6

rebuilder Nov 19 2023 at 13:17

Коммивояжёр за полином*

Hard

12 min

5.1K

High performance*Open source*Python*Algorithms*

Если вам нужно решить задачу коммивояжёра, то нет ничего проще. Нужно просто взять квантовый компьютер с числом кубитов не меньшим числа вершин рассчитываемого графа…

Нет под рукой квантового компьютера? Не беда, читайте дальше и узнаете, как можно решать данную задачу на классическом компьютере за полиномиальное время* от числа вершин.

Читать далее

+13

timonin Nov 19 2023 at 09:23

Fooocus v2 — бесплатный Midjourney у вас на компьютере. Подробная инструкция по установке и использованию нейросети

Easy

10 min

347K

Graphic design*The future is hereArtificial Intelligence

Tutorial

Друзья, всем привет! Сегодня я хочу рассказать вам про самую простую и доступную для понимания нейросеть, которая создает изображения по вашему текстовому описанию. Она называется Fooocus и основана на знаменитой Stable Diffusion XL. Это идеальное решение в качестве вашей первой нейросети, и необходимый инструмент для любого дизайнера или контент мейкера.

Внутри много тяжелых изображений.

Читать далее

+115

tech_priestess Nov 18 2023 at 15:06

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Easy

26 min

312K

Machine learning*Studying in ITIT careerArtificial Intelligence

Tutorial

Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы, и, наконец, выполняю свое обещание. Надеюсь, этот гайд станет подсказкой, которая поможет найти правильное направление новичкам, которые хотят погрузиться в нашу область.

Читать далее

+156

willdiealone Nov 18 2023 at 11:48

Как принимать платежи в Telegram | Оплата без всяких токенов и асинхронная обработка платежа

Easy

7 min

21K

Instant Messaging*Payment systems*.NET*API*C#*

Tutorial

Как принимать платежи на своем сайте или в telegram используя библиотеку yoomoney-api.

Читать далее

+5

BitterLollipop Nov 15 2023 at 13:07

Сокровища HTML: 7 тегов, которые упростят вам жизнь

Easy

7 min

24K

Website development*CSS*HTML*

Review

✏️ Technotext 2023

Все мы знакомы с широко используемыми HTML тегами, такими как <div>, <p>, <a>, и <img>. Однако, существуют HTML - теги, которые могут упростить жизнь, и вместо написания дополнительного кода, выполнят всю работу :)

Читать далее

+59

igor_suhorukov Nov 15 2023 at 06:03

Поиск удобных мест для жизни в Москве на GitHub Pages с помощью DuckDB в браузере

Easy

5 min

5K

JavaScript*Programming*OpenStreetMap*Geoinformation services*

В прошлых статьях и на форумах я получил несколько дельных советов связанных с визуализацией результатов. От агрегированных данных теперь перейдем к детальной инфомации для каждого жилого здания. Продолжим анализировать географию столицы.

Как подготовить для этого данные я детально описывал в "Где 15 минут пешком от дома до метро в Москве" "Где в Москве жить «неплохо»". В публикации "Жилье в 500м от сетевых продуктовых магазинов в Москве." я столкнулся со специфичным трафиком с желтушных публикаций и сообщество OSMеров предложило мне отличный вариант, когда визуализация не требует чтения исходной статьи.

Карта теперь доступна на сайте и использует DuckDB Wasm для запросов к данным прямо из браузера!

Читать далее

+19

DenisBerezutskiy Nov 14 2023 at 00:37

Улучшаем пунктуатор на стенограммах

Medium

29 min

2.5K

Data Mining*Machine learning*Artificial IntelligenceNatural Language Processing*

Привет, Хабр! Сегодня я расскажу о том, как натренировать качественный русскоязычный пунктуатор и капитализатор для стенограмм (то есть, модель, превращающую только что распознанный Speech-to-Text’ом “привет хабр” в литературный “Привет, Хабр!”). Задача эта давно известная и в последние годы кое-как решаемая с помощью нейросетей-трансформеров, например, BERT. Ключевое слово здесь – “кое-как”. Мы пробовали множество открытых доступных моделей (подробности ниже), но результат сильно не дотягивал до нужного нам уровня. Пришлось доделывать модель самим.

Некоторые энтузиасты LLM сразу спросят: а зачем отдельно тренировать пунктуатор в 2023-м, когда есть универсальный ChatGPT? Одна из проблем в том, что ChatGPT работает только на зарубежных серверах, и как они там собирают данные – никому не известно. И это не говоря ещё о риске перевирания текста и высокой стоимости.

Если к вам обращаются заказчики за автономной системой протоколирования митингов, то ни о каком ChatGPT не может идти и речи. Что касается других LLM (Llama 2, T5 и т.д.), то они постоянно страдают галлюцинациями, потребляют в разы больше памяти и работают в десятки, а то и сотни раз медленнее, чем стандартный пунктуатор на BERT. Подробнее об экспериментах с использованием генеративных LLM – в разделе ниже.

В отличие от генеративных сетей, архитектура BERT в принципе хорошо подходит для расстановки знаков и заглавных букв: гарантия от галлюцинаций и быстрая работа, даже на CPU. Однако результат очень сильно зависит от того, на каких данных их обучали. Например, как мы выяснили на собственном опыте, пунктуаторы, натренированные на типичных больших русскоязычных корпусах (новости, энциклопедии, литература, рандомный кроулинг) очень редко ставят точки. Причём, как показали дальнейшие эксперименты, та же по строению модель справлялась намного лучше, если учить её на правильно подобранном датасете.

Читать далее

+13

zakirovdamir Nov 9 2023 at 19:24

Технически подкованный способ похудеть без смс и регистрации

Easy

3 min

21K

HealthLifehacks for geeks

Digest

Я программист, и никого не удивлю своей проблемой — в 28 лет набрал 10 кг жира, в 34 года ещё 10 кг, сейчас мне 44 года и я до сих пор не избавился полностью от этих совершенно ненужных килограммов.

Теория полностью известна, но

Читать далее

+41

yagodkinvs Nov 7 2023 at 17:08

Бесплатные VPN | ТОП 15 Лучших VPN для ПК и телефона

12 min

681K

Information Security*Network technologies*GadgetsLifehacks for geeks

Review

Топ бесплатных VPN-сервисов для компьютеров и телефонов в 2023 - обзор лучших VPN для использования в России, доступных для загрузки на Windows, MacOS, iPhone, Android, а также для браузеров Google Chrome, Opera, FireFox, Яндекс.

Проанализировал более 100 VPN-приложений для разных платформ и провел тестирование каждого из них, чтобы составить рейтинг 15 наиболее надежных и эффективных, подтвержденных работоспособностью в России на данный момент и с перспективой функционирования в 2024 году.

Читать далее

-6

parfinn Nov 7 2023 at 15:03

Как увеличить скорость разработки и улучшить внутреннюю коммуникацию с помощью дизайн-системы?

10 min

4.1K

Сравни corporate blogSystem Analysis and Design*Development Management*Design

Привет, Хабр! На связи Дмитрий Парфёнов (СТО) и Антон Смирнов (дизайн-директор). Сегодня хотим поделиться нашим опытом создания и внедрения дизайн-системы для ускорения разработки сайта и мобильного приложения Сравни. Сразу скажем, что процесс это был непростой, не обошлось без всевозможных затыков — о них тоже пойдет речь.

Надеемся, что статья будет полезна всем, кто участвует в разработке крупных приложений в компаниях с большим количеством уже работающих продуктов.

Читать далее

+4

mvideo Nov 3 2023 at 16:00

Прогнозирование временных рядов с помощью библиотеки Skforecast

Medium

7 min

11K

М.Видео-Эльдорадо corporate blogData Engineering*Python*System Analysis and Design*Reading room

Case

В открытом доступе существует огромное число библиотек для построения моделей машинного обучения в Python. Самые популярные — scikit-learn, XGBoost, LightGBM, Catboost, PyTorch. Каждая из них позволяет построить регрессионную модель для прогнозирования на временных рядах, но для этого требуется преобразование данных и создание новых фичей (feature engineering).

Кроме того, временные ряды требуют своих подходов в оценивании моделей машинного обучения, так как стандартная кросс-валидация не подходит для временных данных. В этой статье мы (я + я) рассмотрим нюансы прогнозирования на практике и с помощью библиотеки skforecast.

Читать дальше →

+20

ewolf Nov 3 2023 at 09:00

Мультиплатформенные образы: что это такое и зачем они нужны

7 min

11K

AvitoTech corporate blogWebsite development*Go*

Павел Агалецкий, ведущий инженер в Авито, рассказал, как запустить один и тот же образ на разных платформах, почему мультиплатформенные образы удобнее, и как собирать их в режиме кросс-компиляции.

Читать далее

+11

dentsuRU Oct 27 2023 at 12:47

Как мы определили веса алгоритмов ранжирования крупнейших маркетплейсов на открытых данных

Easy

6 min

6K

OKKAM Group corporate blogAlgorithms*Machine learning*

Case

Привет, Хабр! Меня зовут Владислав Абрамов, я аналитик в команде разработки компании Easy Commerce. Перед нами стояла задача создать алгоритм, который определяет влияние характеристик карточки товара на поисковую позицию в крупнейших российских маркетплейсах. Большинство из них не раскрывают принципы ранжирования — эту проблему нужно было решить с помощью анализа открытых данных. В этой статье расскажу, как мы прошли этот путь и проверили, что решение действительно работает.

Читать далее

+11

AmneziaAdept Oct 26 2023 at 17:09

Создаем свой VPN с защищенным от блокировок протоколом AmneziaWG, или WireGuard на максималках

5 min

183K

Amnezia VPN corporate blogInformation Security*Open source*Network technologies*

Всем привет! Возможно уже совсем скоро разные новостные и IT-ресурсы будут подчищать информацию о способах обхода блокировок. А пока этого не случилось, запасаемся полезными гайдами и разворачиваем свои собственные VPN с защищенными от блокировок протоколами. Расскажу как это сделать, как изменилась Amnezia и как мы защитили WireGuard от блокировок.

Читать далее

+111

aio350 Oct 23 2023 at 09:07

Особенности кодировки строк в Base64 в JavaScript

Hard

6 min

20K

JavaScript*Website development*

Case

Translation

Кодировка (encoding) и декодирование (decoding) в Base64 — распространенный способ преобразования двоичных данных в безопасный текст. Он часто используется в Data URL, таких как встроенные (inline) изображения.

Прим. пер.: с помощью data URL можно решить проблему (ошибку) отсутствующей фавиконки в браузере.

<link rel="icon" href="data:." />

Что происходит при кодировке и декодировании в base64 строк в JS? В этой статье мы рассмотрим некоторые особенности и ловушки, связанные с этими процессами.

Читать дальше →

+9

isumix Oct 20 2023 at 20:14

Fusor vs React

2 min

5.4K

JavaScript*Angular*ReactJS*VueJS*TypeScript*

^{Mortal Kombat - Vs Screen (MKX version) Fan art by LukenStruken}^{CC BY-SA 3.0}

Моя работа состоит в написании кода на React. Несмотря на то, что мне нравится React, при разработке на нем я столкнулся с некоторыми его недостатками. В связи с этим, я решил создать свою библиотеку, Fusor, чтобы исправить эти недостатки и вот что из этого получилось.

Читать далее

+13

alsnum Oct 20 2023 at 12:46

Точка, точка, запятая, или Почему на Госуслугах нет части пунктуационных знаков

Easy

6 min

11K

РТЛабс corporate blogContent-marketing*Email layout*Interfaces*Typography*

Госуслуги — это не просто очередной портал, на котором размещается полезная информация о работе органов государственной власти. По сути Госуслуги — это средство коммуникации. Как социальные сети и мессенджеры, но не между людьми, а между государством и гражданами.

Чтобы коммуникация была более эффективной, на Госуслугах введены собственные правила оформления текстов. Одно из них — удаление части знаков пунктуации.

Для чего мы это сделали и что именно убрали, я расскажу в этой статье.

Читать далее

+19

janvarev Oct 18 2023 at 11:19

Сайга-Мистраль — третья русская нейросеть после YaGPT и GigaChat, публично доступная по API

5 min

30K

Я уже недавно писал на Хабре, что понемногу пилю свой сервис VseGPT с доступом по OpenAI API и чатом к различным нейросетям - ChatGPT, Claude, LLama и пр. (Коротко: потому что вендорлок - зло, разнообразие и опенсорс - добро)

Большая часть работы - это, конечно, роутинг запросов на разные сервера, которые осуществляют обработку нейросетевых моделей; свой у меня скорее общий универсальный интерфейс, который сглаживает разницу между моделями, ну и некоторые прикольные фишечки.

Но я давно задумывался развернуть что-то уникальное, собственное, чего нет у других - в особенности опенсорсную Сайгу.

TLDR: Сайга-Мистраль 7B сравнима с 70B моделью. Доступна на сайте, её можно использовать по API или через интерфейс чата.

Читать далее

+18

Takagi Sep 7 2023 at 09:11

Как (быстро) сделать русский локальный ChatGPT

Medium

7 min

49K

Programming*Machine learning*Artificial IntelligenceNatural Language Processing*

Retrospective

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

Читать далее

+88

1 2 ...

13

14 15 ...