Павел @pahaz

C-level, startupper, co-founder, делаю ит-компании

Profile Articles 2Posts News Comments 28

crowncode Jan 23 at 13:15

Кейс: CRM-система для ЖКХ и управляющих компаний

Easy

8 min

1.4K

CRM systems*Open source*

From sandbox

К нам обратилась управляющая компания, которая планирует обслуживать объекты в другой стране. Им нужно разработать систему для работы с обращениями жителей.

В статье мы сделаем обзор open-source решений, которые можно взять за основу для задач управляющих компаний, это статья - обсуждение, хочется чуть больше делиться кейсами и обсуждать выбранные решения.

AlanRobotics Nov 26 2024 at 11:24

Как мы создали LLM-модель Cotype Nano

7 min

8.5K

МТС corporate blogMTS AI corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

На связи группа фундаментальных исследований MTS AI. В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории.

+35

tg_bomze Jun 29 2024 at 22:17

Irbis-7B или как мы учили ЛЛМку казахскому языку

Medium

7 min

6.8K

Natural Language Processing*

From sandbox

Языковые модели, основанные на архитектуре трансформеров, такие как Llama, Mistral и прочие, показывают впечатляющие результаты на английском языке. Однако их эффективность на других языках, включая казахский, может страдать. Дообучение на отдельный домен, даже при наличии хорошего датасета, может не давать значительного прироста в качестве. И дело не столько в том, что базовая модель при обучении видела мало текста на казахском, сколько в неэффективной токенизации. Этот недостаток приводит к тому, что модели не могут в полной мере использовать свой потенциал на языках, отличных от английского. В данной статье мы расскажем решали эту проблему при создании казахской языковой модели.

+17

milabs Dec 21 2023 at 02:33

БагБаунти с АстраЛинус или то, что нужно знать о защищённости защищённой ОС

Easy

12 min

44K

Information Security*Operating systems

Opinion

Хочу поделиться своим опытом участия в программе баг-хантинга ГК Астра (да, да - именно той, которая недавно совершила ~~каминг‑аут~~ IPO) на платформе BI.ZONE Bug Bounty.

+127

152

gle4er Nov 24 2023 at 12:55

Организуем High Availability PostgreSQL

7 min

24K

AvitoTech corporate blogPostgreSQL*IT Infrastructure*Database Administration*

Чтобы система долго работала без сбоев и перерывов, нужно поработать над отказоустойчивостью. В статье дадим несколько способов её построить и покажем готовое решение.

+15

gle4er Dec 22 2023 at 12:53

Архивная репликация в PostgreSQL: пошаговая инструкция

9 min

11K

AvitoTech corporate blogPostgreSQL*Database Administration*

Разбираем c Григорием Тарасенко, инженером команды SQL на примере, как реплицировать базы без использования слотов репликации.

+11

alizar Jun 12 2023 at 12:00

Первые агенты для самообучения сильного ИИ

Medium

6 min

20K

RUVDS.com corporate blogThe future is hereArtificial IntelligenceMachine learning*Popular science

Opinion

Тысячи учёных, программистов и просто энтузиастов по всему миру сейчас со всех сторон стараются подойти к главному изобретению в истории человечества, если оно будет сделано — это сильный ИИ (AGI, artificial general intelligence).

Один из подходов к созданию AGI — самообучение так называемых агентов, то есть автономных систем, способных найти решение для произвольных задач и улучшать его до бесконечности. Результаты первых экспериментов интересные.

Читать дальше →

+54

pahaz Jun 20 2024 at 18:33

На чем разработать свой стартап или с чего начать хакатон в 2024? (часть 1)

Medium

5 min

5.8K

Website development*JavaScript*ReactJS*TypeScript*

Review

Попробуем собрать свой идеальный boilerplate для full-stack разработки в 2024 году. В этой статье мы будем постепенно собирать свой шаблон для быстрого запуска стартапов.

Сразу предупреждаю, что статья будет холиварной, всех хейтеров прошу в комменты, предлагайте решения со ссылкой на публичные кейсы.

kvaps Jul 4 2023 at 09:45

KubeVirt: внутреннее устройство и сеть. Как достигнуть совершенства? (обзор и видео доклада)

Medium

15 min

12K

Флант corporate blogSystem administration*Network technologies*DevOps*Kubernetes*

Case

Всем, привет! Я Андрей Квапил, работаю во «Фланте» над Kubernetes-платформой Deckhouse. Это статья по мотивам моего доклада о разработке нашей системы виртуализации на основе KubeVirt. Я расскажу, какие альтернативы KubeVirt мы рассматривали, чем они нас не устроили, как устроен KubeVirt, как он работает с файловыми хранилищами, сетью и о том, как происходит запуск виртуальных машин внутри Kubernetes. А еще — какие изменения мы внесли в KubeVirt, чтобы он полностью соответствовал нашим задачам. Будет сложно, но интересно.

Кстати, в начале 2023 года мы уже рассказывали на Хабре о Deckhouse Virtualization — нашей системе виртуализации нового поколения.

+43

Bright_Translate Apr 26 2024 at 16:00

Сложнейшая проблема компьютерных наук: центрирование

Medium

7 min

35K

RUVDS.com corporate blogWebsite development*Web design*HTML*CSS*

Review

Translation

Заявляю: «Мы, как цивилизация, разучились использовать центрирование». Ну то есть мы, конечно, знаем, как это делать — очень просто:

display: flex;
justify-content: center; /* Горизонтальное центрирование */
align-items: center; /* Вертикальное центрирование */

Не спрашивайте, почему вам нужно запомнить четыре слова вместо просто горизонтальное/вертикальное; всё равно лучше, чем было до этого.

Ещё можно использовать сетку:

display: grid;
justify-items: center; /* Горизонтальное центрирование */
align-items: center; /* Вертикальное центрирование */

Также не спрашивайте, почему выражение justify-content стало justify-items.

Читать дальше →

+227

survivorm Feb 5 2018 at 15:03

Парсеры, обработка текста. Просто о сложном. CFG, BNF, LL(k), LR(k), PEG и другие страшные слова

19 min

48K

Python*Algorithms*

From sandbox

Наверное, каждому программисту приходилось сталкиваться с задачами вида «прочитать что-то в формате А и произвести с ним некие манипуляции». Будь то json, логи nginx, cfg, sql, yaml, csv или что-то еще. Хорошо, когда можно воспользоваться библиотекой, однако, по разным причинам, это удается не всегда. Тогда и встает вопрос создания собственного парсера для заданного формата. И это, как говорят англичане, часто оказывается PITA (болью в ...). В этой статье я постараюсь облегчить эту боль. Кому интересно, добро пожаловать.

Читать дальше →

+41

pahaz Mar 1 2024 at 18:28

Кто трогал мой mac? Ловим горничную или evil maid detection

Easy

4 min

6.8K

Information Security*

Case

Я часто нахожусь в командировках и путешествиях, внимательно отношусь к безопасности своего macbook. Недавно, вернувшись в отель, я обнаружил признаки того, что кто-то что-то делал с моим ноутбуком в мое отсутствие.

В этой статье мы рассмотрим способы, позволяющие узнать о попытке физического доступа к вашему макбуку, соберем данные о вторжении и отправим их себе в Telegram.

+13

Kilor Mar 10 2020 at 08:50

PostgreSQL Antipatterns: сказ об итеративной доработке поиска по названию, или «Оптимизация туда и обратно»

7 min

9.7K

Тензор corporate blogHigh performance*Database Administration*SQL*PostgreSQL*

Тысячи менеджеров из офисов продаж по всей стране фиксируют в нашей CRM-системе ежедневно десятки тысяч контактов — фактов общения с потенциальными или уже работающими с нами клиентами. А для этого клиента надо сначала найти, и желательно очень быстро. И происходит это чаще всего по названию.

Поэтому неудивительно, что, разбирая в очередной раз «тяжелые» запросы на одной из самых нагруженных баз — нашего собственного корпоративного аккаунта СБИС, я обнаружил «в топе» запрос для «быстрого» поиска по названию для карточек организаций.

Причем дальнейшее расследование выявило интересный пример сначала оптимизации, а затем деградации производительности запроса при последовательной его доработке силами нескольких команд, каждая из которых действовала исключительно из лучших побуждений.

0: чего же хотел пользователь

[КДПВ отсюда]

Что вообще обычно подразумевает пользователь, когда говорит про «быстрый» поиск по названию? Почти никогда это не оказывается «честный» поиск по подстроке типа ... LIKE '%роза%' — ведь тогда в результат попадают не только 'Розалия' и 'Магазин Роза', но и 'Гроза' и даже 'Дом Деда Мороза'.

Пользователь же подразумевает на бытовом уровне, что вы ему обеспечите поиск по началу слова в названии и покажете более релевантным то, что начинается на введенное. И сделаете это практически мгновенно — при подстрочном вводе.

Читать дальше →

+17

sqshq Apr 11 2016 at 11:18

Микросервисная архитектура, Spring Cloud и Docker

14 min

262K

Website development*Programming*Microservices*Java*

Tutorial

Привет, Хабр. В этой статье я кратко расскажу о деталях реализации микросервисной архитектуры с использованием инструментов, которые предоставляет Spring Cloud на примере простого концепт-пруф приложения.

Код доступен для ознакомления на гитхабе. Образы опубликованы на докерхабе, весь зоопарк стартует одной командой.

Читать дальше →

+31

AlexBin Nov 3 2016 at 07:10

Знакомство с хранилищем Ceph в картинках

11 min

318K

SAN*Decentralized networks*Cloud computing*System administration*Data storage*

Recovery Mode

Облачные файловые хранилища продолжают набирать популярность, и требования к ним продолжают расти. Современные системы уже не в состоянии полностью удовлетворить все эти требования без значительных затрат ресурсов на поддержку и масштабирование этих систем. Под системой я подразумеваю кластер с тем или иным уровнем доступа к данным. Для пользователя важна надежность хранения и высокая доступность, чтобы файлы можно было всегда легко и быстро получить, а риск потери данных стремился к нулю. В свою очередь для поставщиков и администраторов таких хранилищ важна простота поддержки, масштабируемость и низкая стоимость аппаратных и программных компонентов.

Знакомьтесь: Ceph

Ceph — это программно определяемая распределенная файловая система с открытым исходным кодом, лишенная узких мест и единых точек отказа, которая представляет из себя легко масштабируемый до петабайтных размеров кластер узлов, выполняющих различные функции, обеспечивая хранение и репликацию данных, а также распределение нагрузки, что гарантирует высокую доступность и надежность. Система бесплатная, хотя разработчики могут предоставить платную поддержку. Никакого специального оборудования не требуется.

При выходе любого диска, узла или группы узлов из строя Ceph не только обеспечит сохранность данных, но и сам восстановит утраченные копии на других узлах до тех пор, пока вышедшие из строя узлы или диски не заменят на рабочие. При этом ребилд происходит без секунды простоя и прозрачно для клиентов.

Читать дальше →

+40

BarakAdama Jul 18 2017 at 12:19

Яндекс открывает технологию машинного обучения CatBoost

6 min

103K

Яндекс corporate blogOpen source*Python*Machine learning*Search engines*

Сегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.

CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.

+214

128

AndreiYemelianov May 15 2014 at 11:14

Sysdig — инструмент для диагностики Linux-систем

16 min

51K

Selectel corporate blog

Sysdig — инструмент для диагностики Linux-систем

Для сбора и анализа информации о системе в Linux используется целый набор утилит. Для диагностики каждого из компонентов системы используется отдельный диагностический инструмент.

Читать дальше →

+57

Olga_ol Oct 4 2016 at 14:50

Лекции Техносферы. 1 семестр. Введение в анализ данных (весна 2016)

3 min

43K

VK corporate blogMathematics*Algorithms*R*Python*

Слушайте и смотрите новую подборку лекций Техносферы Mail.Ru. На этот раз представляем в открытом доступе весенний курс «Введение в анализ данных», на котором слушателей знакомят со сферой анализа данных, основными инструментами, задачами и методами, с которыми сталкивается любой исследователь данных в работе. Курс преподают Евгений Завьялов (аналитик проекта Поиск Mail.Ru, занимающийся извлечением полезных бизнесу знаний из данных, генерируемых поисковым движком и десктопными приложениями), Михаил Гришин (программист-исследователь из отдела анализа данных) и Сергей Рыбалкин (старший программист из студии Allods Team).

Лекция 1. Введение в Python

Из первой лекции вы узнаете, что такое анализ данных, какие инструменты используют для анализа данных, а также как работает Python.

Читать дальше →

+60

aalexeev Sep 6 2016 at 14:07

4 вида утечек памяти в JavaScript и как с ними бороться

16 min

133K

Website development*JavaScript*

Translation

В этой статье мы рассмотрим распространённые виды утечек памяти в клиентском JavaScript. Также мы узнаем, как их обнаружить с помощью Chrome Development Tools.

timeline в Chrome Dev Tools

Читать дальше →

+98

ipogudin Jun 15 2011 at 10:59

Конкурентный доступ к реляционным базам данных

13 min

63K

Programming*

From sandbox

Вопросы параллелизма в компьютерных вычислениях очень сложны! Причинами большой сложности являются огромное количество деталей, которые нужно учитывать при разработке параллельных программ. В программирование и без того существует большое количество деталей, которые создают почву для ошибок, параллелизм же, добавляет ещё.

Вопросы конкурентного доступа к реляционным базам данных встают практически перед любыми разработчиками прикладного программного обеспечения и не только перед ними. Результатом такой востребованности этой области является наличие большого количества созданных архитектурных паттернов. Это позволяет успешно справляться с большой сложностью разработки таких программ. Ниже пойдёт речь о таких рецептах, а также механизмах на которых базируется их реализация. Повествование будет иллюстрироваться примерами кода на Java, но большинство материала не привязано к языку. Цель статьи — описать проблемы конкурентного доступа к реляционным базам данных, в качестве введения в предмет, а не полноценного охвата темы.

Читать дальше →

+56

2 3 ...

13 14