Статьи / Профиль tablum / Хабр

Gregory@tablum

Enthusiast, Bootstrapper and Irrational Man

ПрофильСтатьи11ПостыНовостиКомментарии35

@tablum 12 дек 2023 в 10:45

Как быстро выбирать языковые модели (LLM) под свои задачи

Средний

6 мин

23K

Блог компании EXTRACTUM.IOМашинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

✏️ Технотекст 2023

Последние полгода я активно занимаюсь разработкой сервисов на базе больших языковых моделей, они же «LLM». Для каждого проекта мне приходится подбирать модель по определенным критериям: языковая поддержка, требования к памяти, типу (instruction-based или completion), скорости генерации и т.п. Первое время я использовал платформу HuggingFace, где ежедневно публикуются около сотни новых моделей. Но кто им пользовался, знает, насколько там неудобный и слабый поиск: даже точные совпадения по названию он иногда не выдаёт. Плюс к этому, приходится тратить достаточно времени, чтобы найти и сравнить модели по нескольким критериям. В этой статье я расскажу, как решил проблему выбора языковых моделей.

+27

@tablum 14 янв 2022 в 13:08

Конкурентный анализ приложений из App Store на основе открытых данных

9 мин

Блог компании EXTRACTUM.IOАналитика мобильных приложений * Развитие стартапаРазработка мобильных приложений * Программирование *

В этой статье я покажу, как можно без программирования парсить, анализировать и визуализировать данные из RSS- и Atom-лент на примере загрузки и парсинга фида Apple iTunes, а также проведения последующего конкурентного анализа приложений.

Представим, что мы собираемся публиковать в App Store мобильное приложение по тематике “медитация”. И хотим посмотреть, как обстоят дела в этой нише. При этом сделаем вид, что не знаем о существовании таких сервисов, как App Annie, Sensor Tower и аналогичных. Или знаем, но нам расхотелось делать в них детальный анализ, как только мы узнали стоимость месячной подписки. Поэтому будем действовать как экономные бутстрапперы и анализировать “сырые” данные от компании Apple. Тем более, что сделать это оказалось очень просто.

+14

@tablum 10 дек 2021 в 08:14

Загрузка, парсинг и визуализация данных без программирования

5 мин

9.2K

Блог компании EXTRACTUM.IOData Engineering * SQL * Визуализация данных * Программирование *

Туториал

Признаюсь честно, у меня как у программиста, хоть и не настоящего, есть недоверие к «no-code» решениям. То есть тем, которые не требуют программирования, где всё можно делать через drag-and-drop и клики мышкой. Но после полугода разработки собственного «no-code» ETL сервиса с визуализацией данных я изменил отношение к этому классу продуктов, начал ими пользоваться и даже получать пользу, экономя время на рутинных операциях по анализу данных из логов, баз данных и файлов.

В этой заметке я предложу несколько вариантов загрузки и парсинга данных из сервисов и по URL с «материализацией» в SQL базу, покажу как за пару минут собрать свой информер с отправкой в Telegram, Slack или на email. И всё это произойдет без единой строчки кода (потому что в сервисе TABLUM.IO этот код уже кто-то написал ;-). «Алхимия данных» начинается под катом.

+21

@tablum 11 ноя 2021 в 17:50

Как я «напрограммировал» себе скилл рисования диаграмм в скетч-стиле

5 мин

28K

Блог компании EXTRACTUM.IOРазвитие стартапаГрафический дизайн * Обработка изображений * Программирование *

Технотекст 2021

По работе мне часто приходится рисовать разные схемы, диаграммы процессов и графики, в том числе и те, которые потом используются в качестве иллюстраций для сайта, статей и презентаций. Всё бы ничего, но есть у диаграмм и графиков, сделанных в популярных онлайн-сервисах наподобие draw.io или lucidcharts одна беда — они выглядят как-то слишком уныло и «олдскульно», в духе «90-х». Всю эту инфографику хотелось бы сделать более заметной, привлекательной и душевной (и, желательно, без привлечения дизайнера).

Так у меня возникла идея создания инструмента для отрисовки диаграмм и графиков в стиле «нарисовано от руки». Об истории создания сервиса и «подводных камнях» я расскажу в этой заметке.

+157

@tablum 9 ноя 2021 в 07:01

«BI or not to BI»: небольшая история разработки небольшого BI-сервиса

5 мин

5.7K

Блог компании EXTRACTUM.IOПрограммирование * SQL * Облачные сервисы * Развитие стартапа

В мае 2021 года меня похитили инопланетяне и приказали разработать сервис аналитики данных, в простонародье именуемый “self-service BI (business intelligence)”. И не просто какой-то аналог Redash или Superset в масштабе 1:43, а с нормальной поддержкой загрузки данных из файлов (локальных и через веб), ну и, конечно, с коннекторами к популярным базам данным. Например, чтобы можно было импортировать содержимое файлов json, xml или логов, а потом сджойнить их с выгрузкой из clickhouse. И ещё чтобы графики рисовались. Дашборды тоже было бы неплохо, но можно и без них.

Вот что они мне нарисовали в качестве ТЗ:

+30

@tablum 13 апр 2018 в 21:25

Drupalgeddon2: началась эксплуатация SA-CORE-2018-002

2 мин

15K

ХостингВеб-разработка * Информационная безопасность *

Drupalgeddon2 все-таки пришел к нам.

Что случилось? После безумного анонса «одной из самых страшных уязвимостей Drupal» все замерли в ожидании рабочего эксплойта и через 4 дня даже начали немного грустить, считая, что вся паника была зря, так как никто не мог придумать ничего стоящего. Но стоило только CheckPoint'у сегодня опубликовать рабочий PoC на SA-CORE-2018-002, как армия ботов начала атаковать сайты на Drupal, что называется, «in the wild».

Читать дальше →

+24

@tablum 24 июн 2016 в 09:25

Веб-сервисы для проверки сайтов на вирусы

5 мин

232K

Информационная безопасность * Веб-разработка *

Рано или поздно веб-разработчик, веб-мастер или любой другой специалист, обслуживающий сайт, может столкнуться с проблемами безопасности: ресурс попадает под санкции поисковой системы или начинает блокироваться антивирусом, с хостинга могут прислать уведомление об обнаружении вредоносного кода, а посетители начинают жаловаться на всплывающую рекламу или редиректы на “левые” сайты.

В этот момент возникает задача поиска источника проблемы, то есть диагностики сайта на проблемы безопасности. При грамотном подходе диагностика состоит из двух этапов:

проверки файлов и базы данных на хостинге на наличие серверных вредоносных скриптов и инжектов,
проверки страниц сайта на вирусный код, скрытые редиректы и другие проблемы, которые, порой, невозможно выявить статическим сканером файлов.

Предположим, вы уже проверили файлы на хостинге специализированными сканерами и почистили аккаунт хостинга от «вредоносов» (или ничего подозрительного на нем не нашлось), но поисковик все равно ругается на вирусный код или на сайте по-прежнему активен мобильный редирект. Что делать в этом случае? На помощь приходят веб-сканеры, которые выполняют динамический и статический анализ страниц сайта на вредоносный код.

Читать дальше →

+14

@tablum 26 мая 2016 в 10:16

Так ли безопасны «топовые» сайты: исследуем рейтинг Alexa

6 мин

15K

Информационная безопасность * Веб-разработка *

Если посмотреть на Top-1000 сайтов рейтинга Alexa в зоне .ru, то в первых трех сотнях будут сайты Яндекса, Google, Mail.ru и других крупных проектов и компаний, а дальше пойдут, в основном, развлекательные, игровые ресурсы, торренты и профильные СМИ (а еще временами будут встречаться домены тизерных партнерских сетей).

У сайтов, занимающих не самые топовые позиции из первой тысячи, посещаемость бывает порядка 10 000 – 80 000 уникальных хостов в сутки, а иногда и выше. Для хакеров подобные ресурсы привлекательны тем, что, с одной стороны, сайты имеют высокую посещаемость, а с другой – низкий уровень защиты (обычно, вообще никакого), поскольку владельцы подобных сайтов часто не уделяют должного внимания вопросам безопасности (не знают, не умеют, не хотят). Например, ресурс с посещаемостью 85000 уникальных хостов в сутки может работать на Wordpress с уязвимыми версиями плагинов. Получается, что соотношение затрат на взлом к “профиту” от него для данной категории сайтов максимально, и это лакомый кусок, которым, как минимум, один злоумышленник да воспользуется. В теории все вроде бы логично, но хотелось бы в этом убедиться на практике, поэтому я решил просканировать большой массив топовых ресурсов (например, первые 50 000 сайтов Alexa в зоне .ru) на предмет взлома/заражения, редиректов и других проблем безопасности. Что из этого получилось – ниже в статье.

Читать дальше →

+30

@tablum 30 мар 2016 в 08:25

Небольшое погружение внутрь взломанного сайта

4 мин

29K

Информационная безопасность * Веб-разработка *

Не секрет, что большинство сайтов в наши дни взламываются не вручную. Есть большая армия ботов, которые ищут уязвимость в скриптах сайтов, брутфорсят админ-панели CMS, FTP/SSH аккаунты, затем загружают небольшие скрипты-загрузчики или бэкдоры, через них внедряют в скрипты сайта несколько десятков управляющих «агентов», а также раскидывают по случайным каталогам, открытым на запись, веб-шеллы, спам-рассыльщики и другие вредоносные php (и иногда perl) скрипты. Изнутри зараженный сайт выглядит примерно так (фрагмент отчета сканера AI-BOLIT):

Паттерны заражения (число, состав и назначение вредоносных скриптов) могут меняться. В данном случае статистика по заражению следующая:

41 вставка бэкдора
5 WSO веб-шеллов
4 скрипта, внедряющих вредоносный код в .php файлы
7 mail() спам-рассыльщиков
2 спам-рассыльщика, работающих через SMTP
1 бэкдор
1 скрипт, внедряющий вредоносный код в wordpress/joomla скрипты

Среди “вредоносов” есть всякие интересные экземпляры. Но речь сегодня пойдет не о них. Интереснее анализировать не столько статический вредоносный код в файлах, сколько процесс работы с «вредоносами» в динамике: какие запросы и в каком формате шлют командные центры внедренным бэкдорам, с какой интенсивностью, с какими параметрами и т.п. Кроме того, статический анализ для современных зловредов работает плохо, потому что некоторые скрипты не содержат payload’ов.

Читать дальше →

+20

@tablum 14 окт 2015 в 11:03

Не все виджеты одинаково «полезны»

3 мин

24K

Веб-разработка * Информационная безопасность *

Иногда веб-мастера и владельцы сайтов добровольно (естественно, по незнанию) устанавливают себе на сайте компоненты, которые несут угрозу как посетителям, так и самому сайту. В основном это касается любителей халявы: бесплатные премиум шаблоны, “нулленые” коммерческие CMS, плагины, загруженные не с сайта разработчика и прочие “бесплатности”. К этому списку можно смело добавлять javascript и flash-виджеты для сайта: календарь, mp3-плейер, калькулятор, конвертер валют — все эти элементы, кроме полезных функциональных элементов сайта, могут принести целую “вязанку” нежелательного контента или даже распространять вредоносный код, заражая компьютеры и мобильные устройства посетителей сайта.

На первый взгляд подобные виджеты размещают только “Васи Пупкины” на страницах своих личных блогов, но за последнюю неделю мне довелось анализировать три коммерческих и достаточно посещаемых проекта, которые также использовали зараженные виджеты (один размещал калькулятор для подсчета суммы заказа, второй – календарь на новостном сайте, третий – онлайн-радио).

Читать дальше →

+11

@tablum 3 июл 2015 в 16:59

Экспресс-анализ подозрительной активности в журнале веб-сервера

7 мин

21K

Веб-разработка * Информационная безопасность *

Из песочницы

На большинстве современных хостингов кроме FTP доступа к файловой системе предоставляется также SSH доступ (по-умолчанию или по запросу в тех поддержку). Умение веб-мастера работать с файлами сайта в терминале (в режиме командной строки) по SSH экономит ему массу времени. Операция, которая может занимать десятки минут по FTP, делается через командную строку за пару секунд. Кроме того, есть много операций, которые можно сделать только по SSH в режиме командной строки.

Веб-мастеру не обязательно осваивать весь инструментарий операционной системы Unix, для начала достаточно познакомиться с базовыми командами, а к ним добавить несколько полезных трюков при работе с командной строкой по SSH, чтобы быстро искать файлы, изменять их атрибуты, копировать, удалять и выполнять операции с текстовыми данными.

Я пропущу описание протокола и процесса подключения к аккаунту хостинга по SSH, в сети можно найти множество видео-уроков и статей по данной теме, скажу лишь что для подключения вам потребуется программа Putty (ОС Windows) / Терминал (Mac OS X) или аналогичные, и доступы к хостингу по SSH: хост, порт, логин и пароль (часто имя и пароль они совпадают с доступом в cPanel, ISPManager или аккаунтом панели управления хостингом).

Итак, что полезного можно делать в командной строке? Можно быстро выполнять поиск подстроки в текстовом файле, сортировку, фильтрацию текстовых данных. Например, для анализа журналов (логов) веб-сервера, чтобы выявить подозрительные запросы к сайту или понять, как взломали сайт.

Предположим, вы заметили подозрительную активность на сайте (стал медленно открываться, пропали доступы в админ-панель, с сайта рассылают спам и т.п.). Первое, что в этом случае нужно выполнить – это проверить файлы сайта на вредоносный код специализированными сканерами. Но пока сайт сканируется, можно провести экспресс-анализ логов веб-сервера с помощью команд find/grep, чтобы опеределить, не было ли обращений к каким-то подозрительным скриптам, попыток брутфорса (подбора пароля) или вызовов хакерских скриптов. Как это сделать? Об этом ниже.

Читать дальше →

Как быстро выбирать языковые модели (LLM) под свои задачи

Конкурентный анализ приложений из App Store на основе открытых данных

Загрузка, парсинг и визуализация данных без программирования

Как я «напрограммировал» себе скилл рисования диаграмм в скетч-стиле

«BI or not to BI»: небольшая история разработки небольшого BI-сервиса

Drupalgeddon2: началась эксплуатация SA-CORE-2018-002

Веб-сервисы для проверки сайтов на вирусы

Так ли безопасны «топовые» сайты: исследуем рейтинг Alexa

Небольшое погружение внутрь взломанного сайта

Не все виджеты одинаково «полезны»

Экспресс-анализ подозрительной активности в журнале веб-сервера

Информация

Специализация