Статьи / Закладки / Профиль zartdinov / Хабр

@zartdinov

Пользователь

ПрофильСтатьиПостыНовостиКомментарии422

@pizhonkov 15 янв в 16:16

Реальная эффективность Qwen 2.5 Coder против ChatGPT (или можно ли сэкономить 20$?)

Простой

8 мин

16K

.NET * C# * Natural Language Processing * Open source * Искусственный интеллект

Из песочницы

Можно ли сэкономить 20$ и заменить ChatGPT локальным Qwen 2.5 Coder? Попробуем проверить логику моделей!

+15

@ElKornacio 12 янв в 14:09

PGlite — полноценный Postgres-сервер на WASM. Работает прямо в браузере и Node.js

Простой

4 мин

3.6K

Node.JS * JavaScript * PostgreSQL *

Обзор

Безумные штуки иногда можно найти в интернете. Листая 2024 JavaScript rising stars (https://risingstars.js.org/2024/en#section-all) обнаружил там удивительного зверя - Postgres скомпилированный через emcc в WASM версию, и допиленный до состояния, когда его можно запустить внутри JS-процесса (браузер/Node.js/Bun/etc).

Как он устроен, как им пользоваться, и, самое главное, зачем? Добро пожаловать под кат :)

Поехали!

+34

@ElKornacio 10 янв в 11:30

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

Простой

4 мин

1.6K

Машинное обучение * SQL * Искусственный интеллектPostgreSQL *

Обзор

У вас есть Postgres, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI/Anthropic, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав.

Под катом описание open-source решения pg_auto_embeddings, которое вам поможет.

Скорее под кат!

+11

@H0fm4n 9 янв в 16:18

Геолокация по теням: как определить место съёмки исторической фотографии

Простой

4 мин

4.1K

Python *

Из песочницы

В этой статье я расскажу о том, как можно определить географическое местоположение объекта на фотографии, используя только длину тени и время съёмки. Мы рассмотрим конкретный пример - историческую фотографию 1963 года из Сайгона (ныне Хошимин), и напишем Python-скрипт для анализа возможных локаций.

+19

@SbWereWolf 9 янв в 07:35

Извлекаем почтовые индексы из ФИАС

Средний

10 мин

810

PHP * PostgreSQL *

Туториал

✏️ Технотекст 7

Recovery Mode

Казалось бы если ФИАС содержит эти данные, то просто выгрузи их ? Но не тут то было, дело в том что почтовые индексы есть у домов, но почтовых индексов нет у населённых пунктов, при этом населённые пункты через произвольное количество своёв "абстракции" связаны с домами. Эта связь записана в таблицу ADM_HIERARCHY - группировка по административному делению.

Собственно задача состоит в том что бы сгруппировать почтовые индексы всех домов и взять минимальный индекс как индекс собственно населённого пункта (индекс населённого пункта обычно заканчивается нолями, у "подчинённых" почтовых отделений индексы заканчиваются цифрами от 1 до 9).

Но прежде чем начать работать с данными, надо к этим данным получить доступ, разместить эти данные там где к ним можно будет выполнять запросы.

О том как это сделать и решить проблему с выборкой будет эта статья-инструкция.

@yepiwt 9 янв в 09:39

RAG в действии: актуальные инструменты и возможности их применения

Простой

18 мин

5.3K

Блог компании RaftИскусственный интеллектNatural Language Processing * Будущее здесь

Из песочницы

Задумывались ли вы, кто на самом деле находится по ту сторону телефонной линии или чата? В современном мире за приятным голосом неизвестного абонента или ненавязчивым текстовым сообщением часто скрывается вовсе не человек, а искусственный интеллект. Этот робот обучен выполнять задачи маркетинга и клиентской поддержки. Но когда мы пишем негативный фидбек или выражаем свои пожелания, то надеемся если не на изменения, то хотя бы на эмоциональную реакцию. Но ИИ такой ответ — не по силам.

+16

@SeeeRgo 9 янв в 05:30

Индекс галерности и удержание сотрудников

Простой

5 мин

7.8K

Управление персоналом * Бизнес-модели * Веб-разработка *

Мнение

Галеры - это компании, которым плевать на сотрудников. Это естественным образом приводит к высокой текучке кадров. На мой взгляд, на аутстафе такое встречается чаще, чем на аутсорсе или в продуктовой компании. Потому что на аутстафе увеличение твоей полезности на проекте влияет на оплату примерно никак.

Чтобы бороться с текучкой, нужно выстраивать процессы, помогающие удерживать сотрудников. Но это большие инвестиции финансовых и человеческих ресурсов, без гарантий успеха. Поэтому настоящая галера в такие процессы не будет вкладываться вполне осознанно.

+15

@ki11j0y 7 янв в 17:43

Cовмещаем Haproxy, Vless, WebSocket, VPN и сайт на одном порту

Сложный

13 мин

16K

Системное администрирование * Настройка Linux * Сетевые технологии * Сетевое оборудованиеИнформационная безопасность *

Туториал

Из песочницы

Cовмещаем Vless, WebSocket, VPN и сайт на одном порту средствами Haproxy, создаем альтернативу VPN на основе WebSocket.

+26

@IvanVakhrushev 4 янв в 17:16

pg-index-health – статический анализ структуры PostgreSQL баз данных

Сложный

19 мин

4.4K

Open source * PostgreSQL * Java *

✏️ Технотекст 7

С 2019 года я занимаюсь разработкой open source инструмента под названием pg-index-health, который позволяет анализировать структуру БД и находить потенциальные проблемы.

Все эти годы pg-index-health эволюционировал и развивался. За 2024 год мне при поддержке нескольких контрибьюторов удалось решить большинство остававшихся «детских болячек» и довести проект до состояния, когда он готов к масштабной экспансии.

В этой статье я хочу подробно рассказать об идеях, которые стоят за этим инструментом, и как его использовать в ваших проектах.

+25

@Statzilla 28 дек 2024 в 12:53

Будущее LLM в XS, S, M и других размерах

Простой

4 мин

891

Искусственный интеллект

Как научить ИИ думать масштабно, но экономно? Представьте интеллект, который выбирает, какой «размер мозга» нужен для каждого запроса: от простого ответа «2+2» до сложных вычислений. Заставить модель говорить «я не знаю» и «просить о помощи», при этом эффективно расходуя ресурсы?

@YourChief 27 дек 2024 в 19:40

dumbproxy — что нового?

Средний

5 мин

2.9K

Сетевые технологии * СофтСистемное администрирование * Расширения для браузеровOpen source *

dumbproxy уже упоминался на Хабре в одной из моих прошлых статей. Это HTTP(S) прокси-сервер, который работает через TLS, напрямую совместим с браузерами и браузерными расширениями, и имеет заметное количество дополнительных функций, расширяющих его границы применимости и облегчающих его использование.

+25

@GlobalSign_admin 22 дек 2024 в 19:01

Парольная защита статичной HTML-страницы на JS

3 мин

5.5K

Блог компании GlobalSignJavaScript * Веб-разработка * Информационная безопасность * Криптография *

Обычно парольная защита производится через веб-сервер, который проверяет пароль и выдаёт контент. Стандартный способ: .htaccess и htpasswd. Но что, если нужно выложить зашифрованную веб-страницу и файлы на публичном хостинге, где у нас нет контроля над сервером? Эту проблему решают инструменты StatiCrypt и Portable Secret.

Для шифрования HTML перед публикацией StatiCrypt использует AES-256 и WebCrypto, а расшифровка происходит с помощью ввода пароля в браузере на стороне клиента, как показано в демо (пароль test).

StatiCrypt генерирует статическую страницу, которую можно безопасно заливать на любой хостинг, в том числе бесплатный сторонний хостинг, такой как GitHub Pages.

Читать дальше →

+28

@m5xim 21 дек 2024 в 15:58

PHP Typed: Маленький Composer пакет, который нарушает PHP правила ради вас

Простой

8 мин

4.8K

CMS * WordPress * Laravel * Веб-разработка * PHP *

Перевод

Звучит слишком громко? Давайте уточним, чтобы избежать обманутых ожиданий: этот пакет использует немного магии вне Хогвартса, и будет действительно полезен любителям строгой типизации в PHP.

+10

@IvanRomanovich 15 дек 2024 в 13:00

Раскройте возможности блокчейна TON: Пошаговое руководство по сбору данных с помощью dton.io

Простой

7 мин

1.4K

Криптовалюты

Туториал

Для любой технической задачи на TON, вам необходимо использовать индексаторы. Индексаторы это сервисы, которые агрегируют внутри себя транзакции блокчейна, обогащают данные и позволяют получить эти данные в необходимом виде.

Без использования таких сервисов, для каждого запроса информации, вам бы пришлось парсить кучу блоков блокчейна, чтобы вернуть данные. В данной статье, я покажу вам как делать GraphQL запросы в dton.io на блокчейне TON. Возьмем простую задачу и пройдем весь путь формирования запроса и параллельно рассмотрим основные возможности индексатора.

@Squirrelfm 12 дек 2024 в 15:01

Обучение и fine-tuning моделей простым языком: зачем, как, где

Средний

18 мин

9.8K

Блог компании RaftМашинное обучение * Искусственный интеллект

Туториал

В нашей работе с большими языковыми моделями (LLMs), один из самых популярных вопросов касается их до-обучения. Каждый второй клиент спрашивает, нужно ли проводить дополнительное обучение модели.

Давайте рассмотрим нужно ли это, как это сделать.

+29

@badcasedaily1 11 дек 2024 в 14:43

BRIN-индексы в PostgreSQL

Простой

5 мин

4.6K

Блог компании OTUSPostgreSQL *

Обзор

Привет, Хабр!

Когда мы говорим о PostgreSQL и оптимизации запросов, большинство тут же вспоминает B-Tree индексы, GIN, GiST и так далее. Но вот BRIN иногда остается в тени, хотя в некоторых сценариях он способен творить чудеса с производительностью, особенно когда ваши таблицы размером с космический лифт, а места на диске жалко. Сегодня я расскажу, как именно работает BRIN.

+17

@AkaMikhelson 4 дек 2024 в 07:54

Пора перестать в любой непонятной ситуации строить DWH для аналитики

Простой

4 мин

Big Data * Хранение данных * Data Engineering *

Мнение

Привет!
Кажется, первая статья нашла своего благодарного читателя.Снова мысли от CDO трудящегося вместе с одной небольшой компанией ру-сегмента.
Продолжу о том, что "наболело".

Эта статья может быть Вам полезна, если консалтинг/интегратор/CTO/CIO/~~сын маминой подруги~~ настойчиво хочет решить все Ваши "проблемы" в аналитике классным корпоративным хранилищем, далее - DWH.

@egusinets 24 ноя 2024 в 22:22

Принцип тестирования «Скопление дефектов» (Defect Clustering). Где прячутся баги?

Простой

11 мин

2.7K

Тестирование IT-систем * Тестирование веб-сервисов * Тестирование мобильных приложений * Управление разработкой *

FAQ

В разработке ПО мы часто сталкиваемся с ситуацией, когда большая часть дефектов концентрируется в относительно небольшом количестве модулей. Это явление называется скоплением дефектов (Defect Clustering). Принцип Парето (80/20) здесь прекрасно иллюстрирует ситуацию: 80% проблем обычно обнаруживается в 20% кода. Понимание причин этого феномена и умение идентифицировать "зоны риска" — ключ к эффективному тестированию.

Почему дефекты кучкуются?

Существует несколько причин, по которым дефекты имеют тенденцию скапливаться в определенных областях.

@danolivo 19 ноя 2024 в 13:55

Ускоряем запросы в PostgreSQL, оптимизируя оператор GROUP BY

Сложный

9 мин

13K

Блог компании Postgres ProfessionalSQL * Базы данных * PostgreSQL *

Кейс

Пользователи PostgreSQL нередко оперируют аналитическими запросами, при выполнении которых данные сортируются и группируются по разным правилам. За счёт оптимизации вычисления агрегатов и сортировок можно значительно сократить время и стоимость выполнения запросов. Об одной из таких оптимизаций — выборе порядка колонок в выражении GROUP BY — расскажем в этой статье.

Postgres уже умеет перестраивать список группируемых выражений в соответствии с порядком колонок из условия ORDER BY, чтобы исключить дополнительную сортировку и сэкономить вычислительные ресурсы. Мы пошли дальше, реализовали свою идею в дистрибутивах Postgres Pro Standard и Enterprise и вынесли патчи на обсуждение сообщества Postgres (первое и второе) в надежде, что они войдут в ближайшую версию ванильного PostgreSQL.

+43

@simromann 19 ноя 2024 в 09:07

Опыт работы с библиотекой h3: гексы, геопризнаки и Geo Feature Store

Простой

5 мин

1.6K

Блог компании Альфа-БанкГеоинформационные сервисы * Машинное обучение *

Кейс

Привет, меня зовут Роман Симановский, я Junior Data Scientist в команде Геоаналитики Альфа-Банка. Сегодня поделюсь опытом того, как мы работаем с пространственными данными, преобразовывая их в гео-признаки. С их помощью мы улучшаем модели машинного обучения, добавляя в них информацию об окружающем мире. На самом деле, это не так уж сложно, поэтому статья будет короткой.

+11

1 2 ...

5 6

8 9 ...

53 54