Как стать автором
Обновить
0
0

Пользователь

Отправить сообщение

Как (быстро) сделать русский локальный ChatGPT

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров41K

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

Читать далее
Всего голосов 70: ↑69 и ↓1+88
Комментарии54

Infinityformer: новый подход к обработке длинных последовательностей большими языковыми моделями

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров2.2K

Трансформеры - это отличные нейросети для работы с текстом, речью, изображениями и другими типами данных, но они сталкиваются с проблемой ограниченной длины контекста, к которому они могут обращаться. Чем длиннее последовательность, тем больше вычислений требуется для того, чтобы трансформер мог учитывать все элементы. Это приводит к тому, что трансформеры не могут эффективно моделировать долгосрочные зависимости и запоминать важную информацию из прошлого. Infinityformer решает эту проблему, используя непрерывный механизм внимания, который позволяет обращаться к прошлому контексту как к непрерывному сигналу, а не как к дискретной последовательности.

В этой статье я максимально хардкорно расскажу о том, как работает Infinityformer.

Читать далее
Всего голосов 12: ↑10 и ↓2+12
Комментарии5

Современные технологии обхода блокировок: V2Ray, XRay, XTLS, Hysteria, Cloak и все-все-все

Время на прочтение20 мин
Количество просмотров372K

Три месяца назад здесь на Хабре была опубликована статья “Интернет-цензура и обход блокировок: не время расслабляться”, в которой простыми примерами показывалось, что практически все популярные у нас для обхода блокировок VPN- и прокси-протоколы, такие как Wireguard, L2TP/IPSec, и даже SoftEther VPN, SSTP и туннель-через-SSH, могут быть довольно легко детектированы цензорами и заблокированы при должном желании. На фоне слухов о том, что Роскомнадзор активно обменивается опытом блокировок с коллегами из Китая и блокировках популярных VPN-сервисов, у многих людей стали возникать вопросы, что же делать и какие технологии использовать для получения надежного нефильтрованного доступа в глобальный интернет.

Мировым лидером в области интернет-цензуры является Китай, поэтому имеет смысл обратить на технологии, которые разработали энтузиасты из Китая и других стран для борьбы с GFW (“великим китайским файрволом”). Правда, для неподготовленного пользователя это может оказаться нетривиальной задачей: существует огромное количество программ и протоколов с похожими названиями и с разными не всегда совместимыми между собой версиями, огромное количество опций, плагинов, серверов и клиентов для них, хоть какая-то нормальная документация существует нередко только на китайском языке, на английском - куцая и устаревшая, а на русском ее нет вообще.

Поэтому сейчас мы попробуем разобраться, что же это все такое и как это использовать и не сойти с ума.

Читать далее
Всего голосов 126: ↑124 и ↓2+153
Комментарии136

NudeCrawler: Голый ползун по женщинам на телеграфе

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров89K

Nudecrawler - паук для поиска голых женщин.

Читать далее
Всего голосов 144: ↑134 и ↓10+167
Комментарии135

Chrome Headless против cloudflare JS challenge

Уровень сложностиСредний
Время на прочтение41 мин
Количество просмотров23K

Автоматизация сбора информации с различных ресурсов - обычная задача для людей разных сфер деятельности. Жаль, что не всегда бывает достаточно сделать простой GET запрос и разобрать полученный html. Веб-сайты, с которых собираются данные, принимают защитные меры для предотвращения автоматизированных запросов. Одной из таких мер является использование cloudflare. Сегодня мы посмотрим, как cloudflare выявляет ботов через javascript и коснёмся темы деобфускации скриптов.

Читать далее
Всего голосов 82: ↑82 и ↓0+82
Комментарии6

Возможен ли двигатель — без двигателя?

Время на прочтение7 мин
Количество просмотров29K

Жизнь человечества невозможно представить без двигателей, которые сопровождают нас и применяются во множестве областей человеческой деятельности. Однако зададимся вопросом: а бывает ли «двигатель без двигателя»?

Согласно Теории Решения Изобретательских Задач (ТРИЗ) — «самый лучший механизм, это тот, который отсутствует, но, тем не менее, его функция выполняется».

Если бы подобный двигатель существовал, то он был бы идеальным устройством в своём классе! Как ни странно, подобный двигатель существует и называется «магнитогидродинамическим двигателем» (МГД), и именно об этом мы и поговорим в нашей статье.

Читать дальше →
Всего голосов 67: ↑63 и ↓4+82
Комментарии73

Как создать своего бота: 4 способа для новичков и профи

Время на прочтение18 мин
Количество просмотров89K

Чем выше спрос на разговорные интерфейсы, тем больше решений на рынке для разработки ботов. Но не всегда понятно, какое выбрать — речь даже не про конкретный продукт или вендора, а про сам инструмент. Например, можно купить уже готового бота, заказать разработку, сделать все своими силами в конструкторе, с помощью фреймворка или диалоговой платформы. Мы подготовили подробнейший гайд по основным способам создания бота.

Читать далее
Всего голосов 8: ↑7 и ↓1+6
Комментарии7

Скликали рекламу на 23 100 рублей за 8 дней. Как это происходит в реальности?

Время на прочтение9 мин
Количество просмотров15K

Хочу показать максимально подробно как боты ловко скликивают рекламу в Яндекс.Директ. Кто скликивает? В поиске обычно это ваши конкуренты (не сами, разумеется), а в РСЯ - веб.мастера. Чаще всего это проделки именно конкурентов, особенно в "перегретых" нишах, где важно быть в ТОПе по запросам.

Читать далее
Всего голосов 20: ↑12 и ↓8+10
Комментарии38

Мы так и не попали в аптечку МКС, зато начали продавать свой быстрый регенератор тканей

Время на прочтение7 мин
Количество просмотров51K
image

Мы хотели сжечь девушку и намазать её кефиром, декспантеноловой пенкой и регенератором, чтобы показать разницу, но у неё оказалась гиперреакция на УФ, поэтому пока так. Обещаю, что позже мы сожжём ещё кого-нибудь во славу науке. Ссылка на исследование

Пару лет назад я светилась тут от гордости за нашу новую разработку — регенератор тканей, который нам разрешили наносить даже на открытую раневую поверхность. На тот момент (и сейчас) это самое быстрое средство снять ожог, залечить царапину или более серьёзное повреждение кожи вроде трофической язвы. В случае трофической язвы в определённой стадии — ещё и почти единственное рабочее, что вообще даст эффект.

Продажи были около нуля, но это ожидаемо. Мы были молоды, наивны и хотели показать лучший эффект, стабилизировав в формуле сразу много действующих веществ, которые дополняли друг друга по эффекту. Цена флакона 100 мл к моменту выхода альфа-тестирования на полке получалась около 2 929 рублей, позже за счёт каких-никаких серий удалось снизить до 1 947.

Естественно, ни одна аптека никогда бы такое не взяла продавать без огромной рекламной кампании. Бюджета на рекламу нового средства у нас нет. Есть на Блефарогель-1, потому что его мы делаем тоннами. А Интенсив-регенерации сделали всего два реактора. И не самых больших.

К текущему моменту средство показывает нормальные продажи. Потому что мир поменялся, потому что нам повезло, и потому что оно работает. Но по дороге были сюрпризы с наукой, чуть не закончившиеся снятием продукта с производства и отзывом партии из аптек.
Читать дальше →
Всего голосов 137: ↑126 и ↓11+156
Комментарии172

«Клинит» кисть и стреляет в руку у программистов — почему? Что с этим делать?

Время на прочтение7 мин
Количество просмотров18K

Кратко и по делу разберем основные принципы, чтобы помочь себе. А, исходя из них, вместе изучим реальную пользу методик и способов облегчения ситуации.

Как мы изучали вопрос и что делали?
Всего голосов 27: ↑23 и ↓4+28
Комментарии23

Рекомендательный движок за 2 строчки кода

Время на прочтение5 мин
Количество просмотров5.2K

Эта статья про то, как можно сделать рекомендации на сайт, если один из ключевых критериев — скорость. Нужно это, например, тогда, когда существующая система к набору молотков рекомендует заготовку для выпиливания лобзиком (как это было у нас) или когда её вообще нет.

Алгоритм можно описать всего в одном предложении: берём историю продаж и обучаем на ней гугловый Word2Veс, фильтруем результат.

Забегая вперёд, могу сказать, что простенькая, внедрённая буквально за пару недель система рекомендаций выиграла по всем параметрам у прошлой системы, генерирующей похожие товары, но проиграла рекомендациям сопутствующих товаров, составленных вручную. Тем не менее даже частичное внедрение системы принесло существенный профит компании.

Читать далее
Всего голосов 23: ↑23 и ↓0+23
Комментарии7

Как без усилий сократить объем входящего в дата-центр трафика на 70%

Время на прочтение6 мин
Количество просмотров31K

Хочу рассказать о том, как довольно простым лайфхаком мы радикально сократили объем входящего в дата-центр трафика, одновременно сделав жизнь пользователей нашего мобильного приложения чуть лучше и даже уменьшив расход заряда их батареи.

Единственное, о чем мы пожалели — что не применили это решение раньше.

Читать далее
Всего голосов 105: ↑104 и ↓1+135
Комментарии53

Компания Skylo обеспечивает подключение к спутниковой сети за $10 в месяц

Время на прочтение3 мин
Количество просмотров15K

Стартап Skylo, запущенный выпускниками MIT, занимается разработкой антенны и протокола связи, которые дают возможность обмениваться данными с уже находящимися на орбите геостационарными спутниками. Новая технология обещает быть на 95% дешевле существующей на рынке. На данный момент стартап видит себя полезным для фермеров, рыболовов, дальнобойщиков — работников, которые нуждаются в дешевой спутниковой связи.
Читать дальше →
Всего голосов 28: ↑28 и ↓0+28
Комментарии33

Как мы сделали оплату по QR

Время на прочтение3 мин
Количество просмотров46K

Всем привет! Сегодня с вами Владислав Козуля, тимлид команды Розница, и я расскажу, как начать платить по QR и ни в чём себе не отказывать. Моя команда делает продукт Касса МойСклад, которым часто пользуются наши клиенты, у которых есть точки продаж. Речь пойдёт о том, как разработка инструментов для повседневной работы выглядит изнутри.

Узнать больше про QR-коды
Всего голосов 8: ↑7 и ↓1+9
Комментарии57

Как самому разработать систему обнаружения компьютерных атак на основе машинного обучения

Время на прочтение17 мин
Количество просмотров19K

На фото – Arthur Lee Samuel, пионер машинного обучения, демонстрирует возможности искусственного интеллекта и играет в шашки с собственной программой Checkers-Playing, одной из первых самообучающихся программ в мире. 1962 год.

Спустя почти 60 лет, я решил познакомиться с машинным обучением и научить свою собственную программу – систему обнаружения компьютерных атак – находить вредоносный трафик в сети.

Как разработчик средств защиты информации я в общих чертах представлял архитектуру такой системы. Но как ML инженер, который должен был научить ее, я мало что знал.

В этом длинном посте я расскажу о своем опыте разработки модели машинного обучения, по шагам: от поиска хороших данных и сокращения признакового пространства до настройки и апробации модели на реальном трафике. С примерами, графиками, открытым кодом.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии4

Неужели нельзя обойтись без кафок и рэббитов, когда принимаешь 10 000 ивентов в секунду

Время на прочтение7 мин
Количество просмотров29K

Однажды я вел вебинар про то, как принимать 10 000 ивентов в секунду. Показал картинку, зрители увидели сиреневый слой, и началось: «Ребят, а зачем нам все эти кафки и рэббиты, неужели без них не обойтись»? Мы и ответили: «Зачем-зачем, чтобы пройти собес!»

Очень смешно, но давайте я все-таки объясню.

 

Читать далее
Всего голосов 37: ↑30 и ↓7+36
Комментарии44

Я единственный из 1400, или самый крутой рекрутинг, что я проходил

Время на прочтение9 мин
Количество просмотров127K

Я уже лет 10 пишу код на питоне, и последние 2.5 года стабильно работал на американскую компанию. Наверно, многим знакома история, когда ты кодишь-кодишь, вроде всё неплохо, и внезапно ты - самый знающий и опытный в команде и добро пожаловать в тим лиды. Астрологи объявили неделю менеджмента, количество кода снизилось на 100%.

Попробовав себя менеджером, я понял, что я дебил (как менеджер), и начал искать другую работу. Ребятушки, я офигел от того, насколько разный подход у компаний к найму. И мне кажется, я нашёл кое-что интересное, а если точнее - самый логичный и организованный процесс найма, что я видел.

Да что же там?
Всего голосов 136: ↑90 и ↓46+75
Комментарии316

Scaled YOLO v4 самая лучшая нейронная сеть для обнаружения объектов на датасете MS COCO

Время на прочтение6 мин
Количество просмотров21K

Scaled YOLO v4 является самой лучшей нейронной сетью для обнаружения объектов — самой точной нейронной сетью (55.8% AP) на датасете Microsoft COCO среди всех опубликованных нейронных сетей на данный момент. А также является лучшей с точки зрения соотношения скорости к точности во всем диапазоне точности и скорости от 15 FPS до 1774 FPS. На данный момент это Top1 нейронная сеть для обнаружения объектов.

Scaled YOLO v4 обгоняет по точности нейронные сети:

  • Google EfficientDet D7x / DetectoRS or SpineNet-190 (self-trained on extra-data)
  • Amazon Cascade-RCNN ResNest200
  • Microsoft RepPoints v2
  • Facebook RetinaNet SpineNet-190


Мы показываем, что подходы YOLO и Cross-Stage-Partial (CSP) Network являются лучшими с точки зрения, как абсолютной точности, так и соотношения точности к скорости.

График Точности (вертикальная ось) и Задержки (горизонтальная ось) на GPU Tesla V100 (Volta) при batch=1 без использования TensorRT:

Читать дальше →
Всего голосов 25: ↑25 и ↓0+25
Комментарии9

Как посмотреть плоские фильмы в 3D

Время на прочтение7 мин
Количество просмотров8.2K

Это сильно расширенная версия моей публикации на Medium

Недавно я сидел в баре с другом зашел разговор о том, в каких задачах в принципе может быть эффективен нейросетевой подход, а где они совершенно излишни. Один класс примеров, где нейросети часто наголову превосходят классические алгоритмы - обработка изображений. Точность решения задачи распознования объектов на изображении может даже превосходить человеческое восприятие. Кроме того, интересны и задачи переноса стиля, генерации реалистичных изображений, superresolution итд. Нейросети могут быть очень эффективны также в задачах типа pixtopix, когда происходит генерация одного изображения из другого. Тогда у меня и возникла идея попробовать применить данные алгоритмы для преобразования 2d фильмов в 3d.

Читать далее
Всего голосов 18: ↑18 и ↓0+18
Комментарии20

Windows: достучаться до железа

Время на прочтение11 мин
Количество просмотров55K

Меня всегда интересовало низкоуровневое программирование – общаться напрямую с оборудованием, жонглировать регистрами, детально разбираться как что устроено... Увы, современные операционные системы максимально изолируют железо от пользователя, и просто так в физическую память или регистры устройств что-то записать нельзя. Точнее я так думал, а на самом деле оказалось, что чуть ли не каждый производитель железа так делает!

Читать далее
Всего голосов 132: ↑131 и ↓1+173
Комментарии90
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург и область, Россия
Дата рождения
Зарегистрирован
Активность