Статьи / Закладки / Профиль rPman / Хабр

@rPman

Пользователь

ПрофильСтатьи14Посты1НовостиКомментарии7K

@Skyuzi 21 фев 2022 в 17:39

Как мы TLS Fingerprint обходили…

6 мин

45K

Информационная безопасность * Open source * .NET * C# * Go *

В один день одна из крупных досок объявлений начала возвращать фейковые характеристики объявлений, когда понимала, что мы - бот.

Видимо сайт добавил наш прокси в blacklist, но в нашем пуле около 100к проксей, все прокси попали в blacklist?

Попробовав запустить парсер на другом сервере, HTTP запросы возвращали корректные данные. Спустя неделю, ситуация повторилась.

Мы также попробовали отправить запрос на локальной машине с "забанненым" прокси, на удивление, данные пришли корректные, но отправив запрос с этим же прокси на сервере, получили фейковые. Отсюда вытекает вопрос: как сайт определяет, что запросы посылаются с одной машины, если используются прокси?

Прошарив весь гугл, мы узнали об интересной технологии под названием TLS Fingerprint и теперь хотим поделиться что это такое и как обойти.

+32

@555www555 24 окт 2023 в 08:31

Гирокарт «Тачанка» дешевле 1000р

Простой

3 мин

10K

DIY или Сделай сам

Кейс

Предлагается простейшая конструкция, превращающая гироскутер в некоторое подобие карта (гирокарт). А карт - это безопасно, так как ребенок сидит, центр тяжести низкий. В чем проблема гироскутера? Он травмоопасен. Падать со стоячего положения больно и опасно. Именно поэтому на avito, например, полно исправных гироскутеров по низкой цене 2-3тр. Люди, купили, попробовали покататься, упали, вот и продают.

+29

@rvishnevsky 23 сен 2023 в 19:00

Helena.4.0 – новый алгоритм для подбора гиперпараметров

Средний

6 мин

9.7K

Блог компании РосбанкАлгоритмы * Машинное обучение * Математика *

Аналитика

С целью автоматизации процесса подбора гиперпараметров автором данной статьи разработан алгоритм Helena.4.0. Конечной целью является создание автоматической системы построения моделей (auto-ML), которая бы подбирала гиперпараметры за минимальное время.

С помощью алгоритма Helena.4.0 можно подбирать гиперпараметры для моделей градиентного бустинга, нейросетей, и более того – для генетических алгоритмов. Автор считает, что алгоритмы Helena могут заменить в генетических алгоритмах генеративную часть – т.е. уйти от биологических аналогий, заменив псевдобиологическую генерацию признаков путем процедур «скрещивания» и «мутаций» на генерацию с помощью указанных алгоритмов.

Для поиска максимума функции алгоритм Helena.4.0 использует только ее значения, и не используют первые и последующие производные. Таким образом, этот алгоритм не требуют ни дифференцируемости, ни непрерывности максимизируемой функции.

Сравнение алгоритма Helena.4.0 с наиболее популярными конкурентами (Optuna, HyperOpt, RandomSearch) показывает его высокую конкурентоспособность.

В отличие от других алгоритмов, не использующих градиент для максимизации функции, алгоритмов Helena.4.0 способен успешно противостоять комбинаторному взрыву. Т.е. алгоритм Helena.4.0 достаточно стабильно работает, несмотря на увеличение размерности пространства. Время, необходимое алгоритму Helena.4.0 для поиска максимума функции, оценивается как квадратичная функция от размерности пространства.

Ниже в статье приведено подробное описание алгоритма Helena.4.0 и результаты сравнительных тестов с алгоритмами-конкурентами.

+11

@Civil 20 сен 2023 в 15:00

25 Гбит/с дома, часть 1

Средний

16 мин

54K

Настройка Linux * Компьютерное железоСетевое оборудованиеDIY или Сделай сам

Кейс

Перевод

Я живу в маленьком сельском городке в Швейцарии и довольно давно являюсь клиентом init7 (местный провайдер). Этот провайдер хорошо известен тем, что в данный момент только они начали пару лет назад рекламировать доступное для частных лиц 25 Гбит/с подключение. Впрочем, им требуется время, чтобы обновить оборудование в точке присутствия, а, в моем случае, им нужно было открыть где-нибудь поблизости новую точку присутствия (до этого у них был договор с другим провайдером об аренде части оборудования и места в стойке, что по прежнему давало мне оптику в квартиру, она по прежнему была не GPON'ом, но скорость была ограничена гигабитом). Но в 2023 году они наконец анонсировали скорое открытие POPа и перевод всех пользователей на их основной продукт (fibre7). То что это новый POP для меня означает, что там сразу будет доступен 25 Гбит/с тариф.

+103

265

@PatientZero 16 сен 2023 в 10:16

Почему мой любимый API — это файл zip на сайте Европейского центрального банка

Простой

7 мин

31K

Интерфейсы * Проектирование API * Открытые данные * Визуализация данных *

Обзор

Перевод

Когда был максимальный курс доллара к евро?

Вот небольшая программа, вычисляющая это:

curl -s https://www.ecb.europa.eu/stats/eurofxref/eurofxref-hist.zip \ | gunzip \ | sqlite3 -csv ':memory:' '.import /dev/stdin stdin' \ "select Date from stdin order by USD asc limit 1;"

Результат: 2000-10-26. (Можете попробовать запустить её самостоятельно.)

+72

@mr-pickles 12 сен 2023 в 12:50

Реверс-инжиниринг промптов for fun and (no) profit

Простой

15 мин

4.6K

Блог компании Wunder FundИскусственный интеллектЛайфхаки для гиковОтладка *

Перевод

Этот материал посвящён взлому промптов Notion AI, семи методикам реверс‑инжиниринга промптов и рассказу о том, почему все ошибаются в своих мнениях о промпт‑инъекциях (prompt injection).

Вчера я получил доступ к публичной альфа‑версии Notion AI. У меня ушло 2 часа на то, чтобы, пользуясь промпт‑инъекциями, раздобыть полные тексты внутренних промптов, применяемых для реализации каждой из возможностей Notion AI.

Сегодня я публикую тексты этих промптов, но делаю это не потому, что я — человек безответственный; я отстаиваю точку зрения, в соответствии с которой в этом нет ничего страшного. И я воздаю должное команде Notion, которая так хорошо интегрировала возможности искусственного интеллекта в свой продукт.

Мне, кроме того, пришлось разработать и использовать кое‑какие новые техники приблизительного определения исходных текстов промптов. Я подумал, что было бы интересно представить их вам — моим замечательным читателям.

+19

@Sivchenko_translate 2 авг 2023 в 14:53

Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте

17 мин

15K

GPGPU * Машинное обучение * Искусственный интеллектПроцессорыNatural Language Processing *

Перевод

От переводчика: выражаю огромную искреннюю благодарность Дмитрию Малову @malovdmitrijза консультации по ходу этого перевода, помощь в подборе формулировок, пояснение рисунков и незаменимую человеческую поддержку.

tldr; в статье рассмотрены приёмы, позволяющие ускорить обучение больших языковых моделей (LLM) и нарастить в них логический вывод. Для этого нужно использовать большое контекстное окно, в котором умещается до 100K входных токенов. Вот эти приёмы: ALiBi с подмешиванием в вектор позиции слова в последовательности (positional embedding), разреженное внимание (Sparse Attention), мгновенное внимание (Flash Attention), многозапросное внимание, условные вычисления и GPU A100 на 80 ГБ.

+18

@Shannon 1 авг 2023 в 04:06

Linux для игр, Windows для работы. С чего начать, как установить и настроить

Простой

12 мин

139K

Настройка Linux * Игры и игровые консоли

Туториал

Пора попробовать новый взгляд, когда Windows для работы, а Linux для отдыха. Ведь Linux очень удобен как раз для игр или экспериментов с софтом, чтобы ничего не отвлекало, не было соблазна ещё немного поработать, что возможно только в Windows.

И если вы не знаете с чего начать, но хотели или задумывались о том, чтобы попробовать линукс, но абсолютно не понимаете как его установить, настроить. Или просто хотите посмотреть как запускать игры, то эта статья поможет найти ответы на эти вопросы.

+75

197

@Dmytro_Kikot 28 июл 2023 в 07:07

ROSE: крепкая, но нежная хватка

11 мин

Блог компании ua-hosting.companyНаучно-популярноеФизикаБудущее здесьРобототехника

Роботы уже довольно давно перестали быть исключительно плодом воображения писателей-фантастов. В наши дни те или иные виды роботов используются на заводах, фермах, складах и даже в барах, и ресторанах. Но это не совсем те роботы, которых мы себе представляем. Их тело лишено ног, торса или головы. По сути, их тело это только рука, необходимая для захвата и переноски объектов. Более точное название таких устройств — роботизированные манипуляторы. Дабы эффективно выполнять свою работу, они должны обладать достаточно крепкой хваткой, чтобы не уронить переносимый объект. Однако должна быть и некая степень осторожности, если этот объект хрупкий. Инженеры-робототехники по разному подходят к решению этой задачи, создавая, к примеру, мягкие манипуляторы с датчиками давления. Но все они так или иначе напоминают либо кисть человека, либо клешню краба. А что если вдохновением для внешнего вида такого робота будет нечто, лишенное конечностей как таковых? Ученые из Японского института передовых наук и технологий разработали новый тип роботизированного манипулятора, чей внешний вид и соответствующий функционал напоминают распускающийся цветок розы. Из чего сделан робот, как именно он работает, и насколько он лучше классических манипуляторов? Ответы на эти вопросы мы найдем в докладе ученых.

Читать дальше →

+17

@t3chnowolf 3 июл 2023 в 09:49

Плагины ChatGPT, которые помогут в работе — и не только программистам

4 мин

15K

Блог компании МТСИскусственный интеллектОблачные сервисы *

О нейросетях не писал только ленивый, причём тон статей меняется от откровенно пренебрежительного до восхищения возможностями нейронок. Мы же решили сделать практичный пост и показать инструменты, которые помогут в работе, как и говорилось в заголовке, не только программистам. Речь идёт о плагинах ChatGPT, которые могут пригодиться многим. Подробности — под катом.

+12

@ipatiev 8 июн 2023 в 20:19

Использование ICU Message Format в PHP

Простой

6 мин

4.4K

PHP * Symfony * Yii *

Туториал

Из песочницы

Недавно я узнал про довольно интересный инструмент, встроенный в РНР. Оказывается, в языке нативно поддерживается универсальный формат шаблонов для сообщений, ICU Message Format. В частности, он используется в Symfony Translation Component и в системе интернационализации фреймворка Yii 2. Однако этот функционал доступен и сам по себе, в чистом РНР. И может использоваться не только для создания многоязычных сайтов, но и в качестве простенького шаблонизатора, например для email-рассылок.

Я решил разобраться с ним поподробнее

+16

@TyVik 2 июн 2023 в 07:15

Что делает ChatGPT… и почему это работает?

Средний

75 мин

186K

Алгоритмы * Машинное обучение * Искусственный интеллектNatural Language Processing *

Перевод

То, что ChatGPT может автоматически генерировать что-то, что хотя бы на первый взгляд похоже на написанный человеком текст, удивительно и неожиданно. Но как он это делает? И почему это работает? Цель этой статьи - дать приблизительное описание того, что происходит внутри ChatGPT, а затем исследовать, почему он может так хорошо справляться с созданием более-менее осмысленного текста. С самого начала я должен сказать, что собираюсь сосредоточиться на общей картине происходящего, и хотя я упомяну некоторые инженерные детали, но не буду глубоко в них вникать. (Примеры в статье применимы как к другим современным "большим языковым моделям" (LLM), так и к ChatGPT).

+245

124

@olegbunin 30 мая 2023 в 09:01

Построение HPC/GPU кластеров для машинного обучения

12 мин

14K

Блог компании Конференции Олега Бунина (Онтико)Искусственный интеллектРаспределённые системы * Машинное обучение *

За последние несколько лет машинное обучение сильно изменилось. В обиход вошли так называемые Fundation model. Вы обучаете одну огромную общую модель, которая умеет делать почти всё одинаково. Это как вырастить огромное дерево. Однако для небольшой такой модели из 3 млрд параметров вам потребуется 400 GPU и обучение в течение 5 дней. Поэтому необходимо переходить на Machine Learning-кластера.

Дальнейшее повествование пойдет от имени Дмитрия Монахова, он занимался разработкой ядра Linux в Яндексе. Мне посчастливилось стать участником революции в Machine Learning, которая произошла за последние несколько лет. А именно модели выросли до такого размера, что они уже не влезают ни в один сервер, ни в несколько серверов, ни даже в одну стойку. Стали строить что-то огромное, но вдруг вспомнили, что был какой-то чудак, который имел опыт работы с распределёнными файловыми системами, а машинное обучение — это и есть использование распределённых алгоритмов.

+13

@einhorn 27 мая 2023 в 16:40

Сравнение нейросетей для перевода

Средний

13 мин

72K

Python * Машинное обучение * Искусственный интеллектИзучение языковNatural Language Processing *

Обзор

С помощью GPT-4 можно решать самые разнообразные задачи по преобразованию текста, включая перевод на разные языки.

Мне стало интересно, кто переводит лучше: GPT-4 или специализированные нейронки для перевода, такие как Google Translate и DeepL?

Сегодня мы сравним качество перевода от различных нейросетей на 24 языковых парах.

+69

@averkij 24 апр 2023 в 09:02

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

Средний

14 мин

129K

Блог компании СберБлог компании SberDevicesМашинное обучение * Искусственный интеллектNatural Language Processing *

Хайп вокруг нейросетей, выровненных при помощи инструкций и человеческой оценки (известных в народе под единым брендом «ChatGPT»), трудно не заметить. Люди разных профессий и возрастов дивятся примерами нейросетевых генераций, используют ChatGPT для создания контента и рассуждают на темы сознания, а также повсеместного отнимания нейросетями рабочих мест. Отдадим должное качеству продукта от OpenAI — так и подмывает использовать эту технологию по любому поводу — «напиши статью», «исправь код», «дай совет по общению с девушками».

Но как достичь или хотя бы приблизиться к подобному качеству? Что играет ключевую роль при обучении — данные, архитектура, ёмкость модели или что-то ещё? Создатели ChatGPT, к сожалению, не раскрывают деталей своих экспериментов, поэтому многочисленные исследователи нащупывают свой путь и опираются на результаты друг друга.

Мы с радостью хотим поделиться с сообществом своим опытом по созданию подобной модели, включая технические детали, а также дать возможность попробовать её, в том числе через API. Итак, «Салют, GigaChat! Как приручить дракона?»

+221

233

@fruitourist 23 апр 2023 в 13:09

FaceNet: Универсальный эмбеддинг для распознавания и кластеризации лиц

Средний

21 мин

15K

Машинное обучение * Искусственный интеллект

Аналитика

Перевод

Несмотря на значительные достижения в области распознавания лиц, эффективная реализация проверки и распознавания лиц в масштабе представляет серьезные трудности для существующих подходов. В данной работе представляется система под названием FaceNet, которая непосредственно обучается отображению изображений лиц в компактное евклидово пространство, где расстояния напрямую соответствуют мере сходства лиц.

@artyomsoft 20 мар 2023 в 09:00

Как создать аппаратный эмулятор CD-ROM без паяльника

Средний

19 мин

21K

Блог компании RUVDS.comDIY или Сделай самRaspberry Pi * Linux * Системное администрирование *

Несмотря на то, что постепенно оптические диски уходят в прошлое, использование ISO-образов этих дисков остаётся актуальным. Многие операционные системы поставляются в виде ISO-образов, а администраторам необходимо поддерживать разношёрстный парк старых персональных компьютеров.

Существует множество решений, как можно установить операционную систему с ISO-образа без записи его на оптический носитель. Я уже затрагивал тему ISO-образов в моих статьях: «Раскрываем секреты загрузочных ISO-образов» и «Что вам нужно знать о внешних загрузочных дисках».

В этой статье я хочу рассказать о ещё одном способе, который, как оказывается, вшит в ядро Linux. Если ваш одноплатный компьютер имеет USB OTG-разъём, и на него возможна установка Linux, то вы c большой долей вероятности можете сделать из одноплатника аппаратный эмулятор привода оптических дисков.

Меня этот способ заинтересовал. Я проверил его сам и, получив положительный результат у себя, решил поделиться с вами.

Я сам узнал много интересного, систематизировал свои знания, поэтому надеюсь, что чтение будет познавательно и интересно для вас.

Читать дальше →

+94

@AlekDikarev 6 дек 2017 в 04:10

Сеанс передачи видео звуком через воду с разоблачением

11 мин

34K

ГаджетыВидеотехникаDIY или Сделай самЗвук

«Господь всемогущий! Кажется я только что убил мистера Мэя!… Но как бы то ни было, продолжим» (С) Дж. Кларксон

В этой статье я расскажу, как передать видео (ну, почти видео) при помощи звука через воду, используя обычный ноутбук, кусок провода, два джека 3.5 мм и две пьезо пищалки. А так же объясню почему и как это работает, расскажу забавную историю про то, как мы это придумали. А в качестве вишенки на торт, к статье прилагается проект на C# с исходниками, чтобы все, кому интересно, сами могли попробовать, ведь научное знание проверяемо, не так ли?

Читать дальше →

+59

121

@franky_d_zoro 30 янв 2023 в 11:17

SEO Выводы из утечки кода поисковика Яндекс

6 мин

108K

Поисковые технологии * Веб-аналитика * Повышение конверсии * Поисковая оптимизация *

Мнение

Я был в восторге, когда узнал об утечке проприетарного исходного кода Яндекса. И после анализа данных я должен сказать, что выводы оказались весьма интересными! Итак, без лишних слов, давайте окунемся в основные выводы, которые я сделал.

+176

130

@Firemoon 24 янв 2023 в 13:10

SD – это Linux, а Midjourney – Mac: краткое полное руководство по Stable Diffusion

13 мин

97K

Блог компании SelectelIT-инфраструктура * IT-компанииИскусственный интеллектМашинное обучение *

Туториал

Вот таких тирекс-тянок выдает нейросеть

Текст про Midjourney привлек внимание, и в комментариях наметилась дискуссия про Stable Diffusion. Аргументы убедили меня попробовать SD самостоятельно, но вскоре я понял, что это не самая простая задача. Сообщество любителей Stable Diffusion произвело на свет множество удобных инструментов, которые своим количеством и сложностью могут отпугнуть новичков.

Всю неделю, что я экспериментировал с нейросетью, я боролся с желанием SD добавлять вторичные гендерные признаки по моим запросам и грустил, смотря на результаты генерации котиков. О своих страданиях частично писал в личном Telegram-канале — подписывайтесь! В этом же тексте — собрал основные советы по работе со Stable Diffusion и подвел итог, сравнив эту нейросеть с Midjourney.

Читать дальше →

+101

1 2 3

5 6 ...

26 27