Как стать автором
Обновить
93
-1
Gregory @tablum

Enthusiast, Bootstrapper and Irrational Man

Отправить сообщение

Как быстро выбирать языковые модели (LLM) под свои задачи

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 12K

Последние полгода я активно занимаюсь разработкой сервисов на базе больших языковых моделей, они же «LLM». Для каждого проекта мне приходится подбирать модель по определенным критериям: языковая поддержка, требования к памяти, типу (instruction-based или completion), скорости генерации и т.п. Первое время я использовал платформу HuggingFace, где ежедневно публикуются около сотни новых моделей. Но кто им пользовался, знает, насколько там неудобный и слабый поиск: даже точные совпадения по названию он иногда не выдаёт. Плюс к этому, приходится тратить достаточно времени, чтобы найти и сравнить модели по нескольким критериям. В этой статье я расскажу, как решил проблему выбора языковых моделей.

Читать далее
Всего голосов 31: ↑29 и ↓2 +27
Комментарии 25

Конкурентный анализ приложений из App Store на основе открытых данных

Время на прочтение 9 мин
Количество просмотров 6.1K

В этой статье я покажу, как можно без программирования парсить, анализировать и визуализировать данные из RSS- и Atom-лент на примере загрузки и парсинга фида Apple iTunes, а также проведения последующего конкурентного анализа приложений.

Представим, что мы собираемся публиковать в App Store мобильное приложение по тематике “медитация”. И хотим посмотреть, как обстоят дела в этой нише. При этом сделаем вид, что не знаем о существовании таких сервисов, как App Annie, Sensor Tower и аналогичных. Или знаем, но нам расхотелось делать в них детальный анализ, как только мы узнали стоимость месячной подписки. Поэтому будем действовать как экономные бутстрапперы и анализировать “сырые” данные от компании Apple. Тем более, что сделать это оказалось очень просто.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 0

Загрузка, парсинг и визуализация данных без программирования

Время на прочтение 5 мин
Количество просмотров 8.3K

Признаюсь честно, у меня как у программиста, хоть и не настоящего, есть недоверие к «no-code» решениям. То есть тем, которые не требуют программирования, где всё можно делать через drag-and-drop и клики мышкой. Но после полугода разработки собственного «no-code» ETL сервиса с визуализацией данных я изменил отношение к этому классу продуктов, начал ими пользоваться и даже получать пользу, экономя время на рутинных операциях по анализу данных из логов, баз данных и файлов.

В этой заметке я предложу несколько вариантов загрузки и парсинга данных из сервисов и по URL с «материализацией» в SQL базу, покажу как за пару минут собрать свой информер с отправкой в Telegram, Slack или на email. И всё это произойдет без единой строчки кода (потому что в сервисе TABLUM.IO этот код уже кто-то написал ;-). «Алхимия данных» начинается под катом.

Читать далее
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 4

Как я «напрограммировал» себе скилл рисования диаграмм в скетч-стиле

Время на прочтение 5 мин
Количество просмотров 25K

По работе мне часто приходится рисовать разные схемы, диаграммы процессов и графики, в том числе и те, которые потом используются в качестве иллюстраций для сайта, статей и презентаций. Всё бы ничего, но есть у диаграмм и графиков, сделанных в популярных онлайн-сервисах наподобие draw.io или lucidcharts одна беда — они выглядят как-то слишком уныло и «олдскульно», в духе «90-х». Всю эту инфографику хотелось бы сделать более заметной, привлекательной и душевной (и, желательно, без привлечения дизайнера).

Так у меня возникла идея создания инструмента для отрисовки диаграмм и графиков в стиле «нарисовано от руки». Об истории создания сервиса и «подводных камнях» я расскажу в этой заметке.

Читать далее
Всего голосов 157: ↑157 и ↓0 +157
Комментарии 37

«BI or not to BI»: небольшая история разработки небольшого BI-сервиса

Время на прочтение 5 мин
Количество просмотров 5.4K

В мае 2021 года меня похитили инопланетяне и приказали разработать сервис аналитики данных, в простонародье именуемый “self-service BI (business intelligence)”. И не просто какой-то аналог Redash или Superset в масштабе 1:43, а с нормальной поддержкой загрузки данных из файлов (локальных и через веб), ну и, конечно, с коннекторами к популярным базам данным. Например, чтобы можно было импортировать содержимое файлов json, xml или логов, а потом сджойнить их с выгрузкой из clickhouse. И ещё чтобы графики рисовались. Дашборды тоже было бы неплохо, но можно и без них.

Вот что они мне нарисовали в качестве ТЗ:

Читать далее
Всего голосов 32: ↑31 и ↓1 +30
Комментарии 5

Drupalgeddon2: началась эксплуатация SA-CORE-2018-002

Время на прочтение 2 мин
Количество просмотров 14K
Drupalgeddon2 все-таки пришел к нам.

image

Что случилось? После безумного анонса «одной из самых страшных уязвимостей Drupal» все замерли в ожидании рабочего эксплойта и через 4 дня даже начали немного грустить, считая, что вся паника была зря, так как никто не мог придумать ничего стоящего. Но стоило только CheckPoint'у сегодня опубликовать рабочий PoC на SA-CORE-2018-002, как армия ботов начала атаковать сайты на Drupal, что называется, «in the wild».
Читать дальше →
Всего голосов 27: ↑27 и ↓0 +27
Комментарии 11

Веб-сервисы для проверки сайтов на вирусы

Время на прочтение 5 мин
Количество просмотров 210K
Рано или поздно веб-разработчик, веб-мастер или любой другой специалист, обслуживающий сайт, может столкнуться с проблемами безопасности: ресурс попадает под санкции поисковой системы или начинает блокироваться антивирусом, с хостинга могут прислать уведомление об обнаружении вредоносного кода, а посетители начинают жаловаться на всплывающую рекламу или редиректы на “левые” сайты.



В этот момент возникает задача поиска источника проблемы, то есть диагностики сайта на проблемы безопасности. При грамотном подходе диагностика состоит из двух этапов:
  1. проверки файлов и базы данных на хостинге на наличие серверных вредоносных скриптов и инжектов,
  2. проверки страниц сайта на вирусный код, скрытые редиректы и другие проблемы, которые, порой, невозможно выявить статическим сканером файлов.

Предположим, вы уже проверили файлы на хостинге специализированными сканерами и почистили аккаунт хостинга от «вредоносов» (или ничего подозрительного на нем не нашлось), но поисковик все равно ругается на вирусный код или на сайте по-прежнему активен мобильный редирект. Что делать в этом случае? На помощь приходят веб-сканеры, которые выполняют динамический и статический анализ страниц сайта на вредоносный код.
Читать дальше →
Всего голосов 21: ↑18 и ↓3 +15
Комментарии 7

Так ли безопасны «топовые» сайты: исследуем рейтинг Alexa

Время на прочтение 6 мин
Количество просмотров 15K
Если посмотреть на Top-1000 сайтов рейтинга Alexa в зоне .ru, то в первых трех сотнях будут сайты Яндекса, Google, Mail.ru и других крупных проектов и компаний, а дальше пойдут, в основном, развлекательные, игровые ресурсы, торренты и профильные СМИ (а еще временами будут встречаться домены тизерных партнерских сетей).



У сайтов, занимающих не самые топовые позиции из первой тысячи, посещаемость бывает порядка 10 000 – 80 000 уникальных хостов в сутки, а иногда и выше. Для хакеров подобные ресурсы привлекательны тем, что, с одной стороны, сайты имеют высокую посещаемость, а с другой – низкий уровень защиты (обычно, вообще никакого), поскольку владельцы подобных сайтов часто не уделяют должного внимания вопросам безопасности (не знают, не умеют, не хотят). Например, ресурс с посещаемостью 85000 уникальных хостов в сутки может работать на Wordpress с уязвимыми версиями плагинов. Получается, что соотношение затрат на взлом к “профиту” от него для данной категории сайтов максимально, и это лакомый кусок, которым, как минимум, один злоумышленник да воспользуется. В теории все вроде бы логично, но хотелось бы в этом убедиться на практике, поэтому я решил просканировать большой массив топовых ресурсов (например, первые 50 000 сайтов Alexa в зоне .ru) на предмет взлома/заражения, редиректов и других проблем безопасности. Что из этого получилось – ниже в статье.
Читать дальше →
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 15

Небольшое погружение внутрь взломанного сайта

Время на прочтение 4 мин
Количество просмотров 28K
Не секрет, что большинство сайтов в наши дни взламываются не вручную. Есть большая армия ботов, которые ищут уязвимость в скриптах сайтов, брутфорсят админ-панели CMS, FTP/SSH аккаунты, затем загружают небольшие скрипты-загрузчики или бэкдоры, через них внедряют в скрипты сайта несколько десятков управляющих «агентов», а также раскидывают по случайным каталогам, открытым на запись, веб-шеллы, спам-рассыльщики и другие вредоносные php (и иногда perl) скрипты. Изнутри зараженный сайт выглядит примерно так (фрагмент отчета сканера AI-BOLIT):



Паттерны заражения (число, состав и назначение вредоносных скриптов) могут меняться. В данном случае статистика по заражению следующая:

  • 41 вставка бэкдора
  • 5 WSO веб-шеллов
  • 4 скрипта, внедряющих вредоносный код в .php файлы
  • 7 mail() спам-рассыльщиков
  • 2 спам-рассыльщика, работающих через SMTP
  • 1 бэкдор
  • 1 скрипт, внедряющий вредоносный код в wordpress/joomla скрипты

Среди “вредоносов” есть всякие интересные экземпляры. Но речь сегодня пойдет не о них. Интереснее анализировать не столько статический вредоносный код в файлах, сколько процесс работы с «вредоносами» в динамике: какие запросы и в каком формате шлют командные центры внедренным бэкдорам, с какой интенсивностью, с какими параметрами и т.п. Кроме того, статический анализ для современных зловредов работает плохо, потому что некоторые скрипты не содержат payload’ов.
Читать дальше →
Всего голосов 25: ↑23 и ↓2 +21
Комментарии 36

Не все виджеты одинаково «полезны»

Время на прочтение 3 мин
Количество просмотров 24K
Иногда веб-мастера и владельцы сайтов добровольно (естественно, по незнанию) устанавливают себе на сайте компоненты, которые несут угрозу как посетителям, так и самому сайту. В основном это касается любителей халявы: бесплатные премиум шаблоны, “нулленые” коммерческие CMS, плагины, загруженные не с сайта разработчика и прочие “бесплатности”. К этому списку можно смело добавлять javascript и flash-виджеты для сайта: календарь, mp3-плейер, калькулятор, конвертер валют — все эти элементы, кроме полезных функциональных элементов сайта, могут принести целую “вязанку” нежелательного контента или даже распространять вредоносный код, заражая компьютеры и мобильные устройства посетителей сайта.

На первый взгляд подобные виджеты размещают только “Васи Пупкины” на страницах своих личных блогов, но за последнюю неделю мне довелось анализировать три коммерческих и достаточно посещаемых проекта, которые также использовали зараженные виджеты (один размещал калькулятор для подсчета суммы заказа, второй – календарь на новостном сайте, третий – онлайн-радио).


Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 9

Экспресс-анализ подозрительной активности в журнале веб-сервера

Время на прочтение 7 мин
Количество просмотров 18K
На большинстве современных хостингов кроме FTP доступа к файловой системе предоставляется также SSH доступ (по-умолчанию или по запросу в тех поддержку). Умение веб-мастера работать с файлами сайта в терминале (в режиме командной строки) по SSH экономит ему массу времени. Операция, которая может занимать десятки минут по FTP, делается через командную строку за пару секунд. Кроме того, есть много операций, которые можно сделать только по SSH в режиме командной строки.

Веб-мастеру не обязательно осваивать весь инструментарий операционной системы Unix, для начала достаточно познакомиться с базовыми командами, а к ним добавить несколько полезных трюков при работе с командной строкой по SSH, чтобы быстро искать файлы, изменять их атрибуты, копировать, удалять и выполнять операции с текстовыми данными.

Я пропущу описание протокола и процесса подключения к аккаунту хостинга по SSH, в сети можно найти множество видео-уроков и статей по данной теме, скажу лишь что для подключения вам потребуется программа Putty (ОС Windows) / Терминал (Mac OS X) или аналогичные, и доступы к хостингу по SSH: хост, порт, логин и пароль (часто имя и пароль они совпадают с доступом в cPanel, ISPManager или аккаунтом панели управления хостингом).

Итак, что полезного можно делать в командной строке? Можно быстро выполнять поиск подстроки в текстовом файле, сортировку, фильтрацию текстовых данных. Например, для анализа журналов (логов) веб-сервера, чтобы выявить подозрительные запросы к сайту или понять, как взломали сайт.

Предположим, вы заметили подозрительную активность на сайте (стал медленно открываться, пропали доступы в админ-панель, с сайта рассылают спам и т.п.). Первое, что в этом случае нужно выполнить – это проверить файлы сайта на вредоносный код специализированными сканерами. Но пока сайт сканируется, можно провести экспресс-анализ логов веб-сервера с помощью команд find/grep, чтобы опеределить, не было ли обращений к каким-то подозрительным скриптам, попыток брутфорса (подбора пароля) или вызовов хакерских скриптов. Как это сделать? Об этом ниже.
Читать дальше →
Всего голосов 13: ↑7 и ↓6 +1
Комментарии 6

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность

Специализация

Fullstack Developer, Project Director
Lead
От 1 000 000 001 ₽
JavaScript
HTML
CSS
Adaptive layout
JQuery
Web development
Crossbrowser layout
SVG
Node.js