Статьи / Закладки / Профиль darkcorp / Хабр

Альберт @darkcorp

Пользователь

Профиль Публикации Комментарии 10Закладки 74

akibkalo 25 авг в 09:14

ByeDPI для Android, SpoofDPI для Mac и Linux – чиним YouTube и не работающие в России сайты на Андроид, Линукс и Мак

Простой

2 мин

214K

Информационная безопасность*Сетевые технологии*СофтЛайфхаки для гиков

Туториал

Вчера писал о графической оболочке Launcher for GoodbyeDPI, позволяющей интуитивно-понятно воспользоваться решением GoodbyeDPI от ValdikSS для решения проблемы замедления YouTube и недоступности в России ряда сайтов. Все хорошо, но это были решения лишь под Windows. В комментариях основные вопросы были о том, как быть с Android, Linux и Mac, и почему не в исходниках. Увы, репрессии РКН заставляют администрацию Хабра цензурировать статьи, во вчерашнюю статью внесение изменений мне запрещено, и сама ссылка доступна лишь вне России, потому объясняю про Андроид, Линукс и Мак здесь, со ссылками на исходники.

Итак, для Android есть масса проектов, мне подошел Release ByeDPI 1.0.0 · dovecoteescapee/ByeDPIAndroid · GitHub. Для Mac и Linux я бы ставил https://github.com/xvzc/SpoofDPI/releases. Все в исходных кодах.

ByeDPI for Android, это приложение, которое запускает локальный VPN-сервис для обхода DPI (Deep Packet Inspection) и цензуры. На вашем устройстве локально запускается SOCKS5-прокси ByeDPI и весь трафик перенаправляется через него.

Снятие блокировок на Android/Mac/Linux

+91

alizar 1 апр в 12:00

Раздача файлов на смартфоны без интернета. Опенсорсные альтернативы AirDrop

Средний

7 мин

14K

Блог компании RUVDS.comOpen source*Беспроводные технологии*Децентрализованные сети*Софт

Обзор

Формулировка задачи. У нас есть настольный компьютер и мобильные устройства под Android. Задача простая — как быстро перебросить файлы с компьютера на телефоны и планшеты. Например, скачанные подкасты и HD-фильмы 1080p, файлы apk для установки, рабочие файлы с персоналки, бэкапы. Хранилище телефона можно использовать как резервный внешний диск или как «беспроводную» флешку, которая работает по Wi-Fi.

Конечно, можно это сделать через веб-сервисы Wormhole/PairDrop/FilePizza, через телеграм/вайбер или инструменты синхронизации ПК и смартфона, такие как syncthing. Да, это удобно и привычно. Но процесс можно 1) ускорить; 2) избавиться от подключения к интернету. То есть файлы будут передаваться напрямую между устройствами, как Apple AirDrop, только лучше.

Читать дальше →

+57

fivelife 20 июн 2019 в 16:32

Армия троллей

3 мин

9.1K

Веб-аналитика*Twitter API*Data Mining*

Есть тролли обыкновенные. Они развлекаются в комментариях к новостям и статьям, развлекают народ и обогащают эмоциями дискуссии, чаще милые и безобидные. Они сами по себе и действуют в своих интересах. А есть другие, которые выступают под флагами неведомых сил, их влечет блеск золота, они беспощадны и готовы крушить все на своем пути. Их целое полчище… стихия, управляемая чужими интересами.

Платный троллинг (вики)

Платный троллинг — действия организованных групп интернет-пользователей, за денежное вознаграждение занимающихся формированием общественного мнения в определённом направлении и манипуляциями общественным мнением в Интернете. Используются обычно в политических целях, зачастую правительствами, и имеют разные названия в зависимости от страны или организации, которую представляют

Далее речь пойдет о троллях, действующих в чужих интересах, и чаще всего в интересах государств. Их цель — пустить пыль в глаза и сформировать ложное общественное мнение на острые события. Такой троллинг развивается во многих странах. В статье Bloomberg Россию называют мастером спорта в этом деле, ключевым экспортером данной тактики и родиной троллинга.

Под катом особенности российских троллей и их цифровой след на платформе Twitter

Читать дальше →

113

VolkoIvan 9 дек 2022 в 21:22

Как получить доступ к chatGPT в России

4 мин

1.5M

Веб-разработка*Разработка мобильных приложений*Разработка игр*Дизайн игр*Искусственный интеллект

Туториал

✏️ Технотекст 2023

Всем привет! Перед началом статьи сразу скажу:

САМЫЙ ВАЖНЫЙ ДИСКЛЕЙМЕР: естественно, покупая смс на чужой номер вы полностью компрометируете безопасность своего аккаунта. Мало ли кто его потом еще купит для получения доступа. Поэтому, помните, что представленный в данной статье способ получения доступа - это только на "поиграться". Не стоит вводить туда свои реальные почты и использовать это в работе, так как полученный доступ может быть в любой момент взломан/прикрыт.

Но да ладно, приступим. Здесь без всякого объяснения того что такое ChatGPT - кому надо тот знает. В этой статье я хочу поделиться путем который вас за 30Р может к этому боту привести. Вдаваться в детали бота я не хочу, это чисто статья для ребят которые хотят без лишних запар пройти путь человека который доступ к боту уже получил :)

Как и многих вокруг, меня удивила новая технология от Open AI. Попытался зайти и зарегистрироваться через гугл, но...

+67

268

allnightlong 22 мая 2023 в 11:10

Пишем Telegram-бота для скачивания видео из VK на Spring Boot и деплоим в Kubernetes

Сложный

10 мин

16K

Программирование*Java*Kotlin*Kubernetes*

В последнее время на Хабре несколько раз всплывала тема загрузки видео из VK для дальнейшего просмотра оффлайн. Я решил подойти к этому вопросу немного с другой стороны, и решить вопрос с помощью телеграм-бота.

Таким образом, убиваем сразу нескольких зайцев:

• не нужно ставить никаких дополнительный приложений или плагинов: скорее всего Telegram и так уже установлен на телефоне и/или на компе;

• автоматическая синхронизация видео между устройствами - поставили на закачку на компе, пошли на улицу, а тот же файл - в телефоне;

• Telegram позволяет загружать файлы для последующего просмотра/прослушивания оффлайн, и это работает с выключенным экраном из коробки (привет, премиум подписки vk/youtube).

+10

cotique 28 фев 2017 в 12:45

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Простой

15 мин

Блог компании Open Data ScienceData Mining*Python*Визуализация данных*Машинное обучение*

Туториал

Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →

+42

alexander_kovalevich 18 июл 2021 в 20:11

Почему стоит научиться «парсить» сайты, или как написать свой первый парсер на Python

3 мин

192K

Python*

Из песочницы

В этой статье я постараюсь понятно рассказать о парсинге данных и его нюансах.

Для начала давайте разберемся, что же действительно означает на первый взгляд непонятное слово — парсинг. Прежде всего это процесс сбора данных с последующей их обработкой и анализом. К этому способу прибегают, когда предстоит обработать большой массив информации, с которым сложно справиться вручную. Понятно, что программу, которая занимается парсингом, называют — парсер. С этим вроде бы разобрались.

Перейдем к этапам парсинга.

Поиск данных
Извлечение информации
Сохранение данных

И так, рассмотрим первый этап парсинга — Поиск данных.

Так как нужно парсить что-то полезное и интересное давайте попробуем спарсить информацию с сайта work.ua.
Для начала работы, установим 3 библиотеки Python.

pip install beautifulsoup4

Без цифры 4 вы ставите старый BS3, который работает только под Python(2.х).

pip install requests

pip install pandas

Теперь с помощью этих трех библиотек Python, можно проанализировать нашу веб-страницу.

Второй этап парсинга — Извлечение информации.

Попробуем получить структуру html-кода нашего сайта.
Давайте подключим наши новые библиотеки.

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd

И сделаем наш первый get-запрос.

URL_TEMPLATE = "https://www.work.ua/ru/jobs-odesa/?page=2"
r = requests.get(URL_TEMPLATE)
print(r.status_code)

Статус 200 состояния HTTP — означает, что мы получили положительный ответ от сервера. Прекрасно, теперь получим код странички.

print(r.text)

Получилось очень много, правда? Давайте попробуем получить названия вакансий на этой страничке. Для этого посмотрим в каком элементе html-кода хранится эта информация.

<h2 class="add-bottom-sm"><a href="/ru/jobs/3682040/" title="Комірник, вакансия от 5 ноября 2019">Комірник</a></h2>

У нас есть тег h2 с классом «add-bottom-sm», внутри которого содержится тег a. Отлично, теперь получим title элемента a.

Читать дальше →

-11

dimanosov007 26 янв 2023 в 17:14

Введение в диффузионные модели для генерации изображений – полное руководство

22 мин

32K

Data Engineering*Искусственный интеллектМашинное обучение*Data Mining*Python*

Обзор

Перевод

Диффузионные модели могут значительно расширить мир творческой работы и создания контента в целом. За последние несколько месяцев они уже доказали свою эффективность. Количество диффузионных моделей растет с каждым днем, а старые версии быстро устаревают

+28

stalkermustang 26 янв 2023 в 11:55

ChatGPT как инструмент для поиска: решаем основную проблему

40 мин

118K

Блог компании Open Data SciencePython*Машинное обучение*Natural Language Processing*

Обзор

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →

+96

Reshin 16 янв 2023 в 12:14

Как машинное обучение помогает проекту «ЗабастКом» анализировать новости и освещать трудовые конфликты

Средний

16 мин

6.5K

Блог компании Open Data ScienceDIY или Сделай самIT-компанииАлгоритмы*Искусственный интеллект

Кейс

В посте расскажу о моем успешном взаимодействии с некоммерческим проектом ЗабастКом, который поддерживает наемных работников в отстаивании своих трудовых прав и интересов. Моя цель была реализовать что-то похожее на ML4SG проект, где волонтеры-специалисты по анализу данных направляют свою энергию на пользу обществу. Например, применяют алгоритмы искусственного интеллекта для спасения потерявшихся людей, для мониторинга качества воздуха или для анализа новостного потока.

Для Забасткома получилось улучшить систему автоматической обработки новостей с помощью алгоритмов машинного обучения. Это привело к увеличению охвата важных событий и уменьшению ручного труда редакторов. Добавлю, что работа с ребятами была похожа на мечту любого DS специалиста: "заказчик" легко шел на контакт; присутствовала заинтересованность и неплохое понимание ML алгоритмов; некоторая продакшн-система уже функционировала; данные для обучения алгоритмов легко собирались. А под катом — поделюсь подробностями и кодом.

Читать дальше →

+54

skillfactory_school 30 ноя 2020 в 15:58

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

16 мин

44K

Блог компании SkillfactoryData Engineering*Python*Алгоритмы*Машинное обучение*

Туториал

Перевод

В преддверии старта нового потока курса «Машинное обучение» представляем вашему вниманию материал о Light Gradient Boosted Machine (далее — LightGBM), библиотеке с открытым исходным кодом, которая предоставляет эффективную и действенную реализацию алгоритма градиентного бустинга.

LightGBM расширяет алгоритм градиентного бустинга, добавляя тип автоматического выбора объектов, а также фокусируясь на примерах бустинга с большими градиентами. Это может привести к резкому ускорению обучения и улучшению прогнозных показателей. Таким образом, LightGBM стала де-факто алгоритмом для соревнований по машинному обучению при работе с табличными данными для задач регрессионного и классификационного прогностического моделирования. В этом туториале вы узнаете, как разрабатывать ансамбли машин Light Gradient Boosted для классификации и регрессии. После завершения этого урока вы будете знать:

Light Gradient Boosted Machine (LightGBM) — эффективную реализацию ансамбля стохастического градиентного бустинга с открытым исходным кодом.
Как разрабатывать ансамбли LightGBM для классификации и регрессии с помощью API scikit-learn.
Как исследовать влияние гиперпараметров модели LightGBM на её производительность.

Давайте начнём

+16

ANazarov 26 окт 2022 в 11:29

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

51 мин

11K

Python*Data Mining*Математика*Учебный процесс в ITСтатистика в IT

Туториал

Обзор построения и анализа линейной регрессионной модели с использованием преобразования Бокса-Кокса

UtrobinMV 22 сен 2022 в 12:21

Как создать переводчик, который переводит лучше, чем Google Translate

8 мин

30K

Data Engineering*Natural Language Processing*Искусственный интеллектМашинное обучение*Data Mining*

Туториал

Cезон Data Mining

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В этот раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

+61

cointegrated 9 окт 2022 в 13:00

Первый нейросетевой переводчик для эрзянского языка

10 мин

13K

Семантика*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Cезон Data Mining

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

+68

pxeno 1 июл 2020 в 11:38

Полный список вопросов с собеседований по Python для дата-сайентистов и инженеров

14 мин

102K

Блог компании VKPython*Карьера в IT-индустрииПрограммирование*

Перевод

Snake and flowers 2 by pikaole

Бывает, что компания ищет дата-сайентиста, а на самом деле ей нужен Python-разработчик. Поэтому при подготовке к собеседованию есть смысл освежить в памяти информацию по Python, а не только штудировать алгоритмы.

Команда Mail.ru Cloud Solutions перевела статью разработчика, который не раз попадал в такую ситуацию и на основе своего опыта составил список из 53 вопросов и ответов для подготовки к собеседованию. Большинство исследователей данных пишут много кода, поэтому такой список пригодится и дата-сайентистам, и инженерам. Он будет полезен и для соискателей, и для тех, кто проводит собеседования, и для тех, кто просто изучает Python.

Вопросы идут в случайном порядке. Поехали.

Читать дальше →

+31

andreycheptsov 18 окт 2022 в 13:04

Запуск ML скриптов в облаке с помощью dstack. Бонус – про запуск open-source проектов

6 мин

2.2K

Блог компании Open Data ScienceOpen source*Машинное обучение*

Привет! На прошлой неделе мы выложили на GitHub утилиту для запуска ML скриптов в AWS.

В этом посте я бы хотел рассказать, об этой утилите, а также с какими трудностями мы столкнулись при ее разработке. Во второй части статьи, я бы хотел поделиться нашим опытом запуска open-source проекта, и чему этот опыт научил.

Статья может быть интересна тем, кто имеет отношение к машинному обучению, тем кто разрабатывает собственные утилиты для разработчиков, и, наконец, тем, кто занимается разработкой open-source проектов.

+24

NewTechAudit 14 окт 2022 в 18:16

Как создать и исследовать лог процесса выполнения программы

3 мин

Data Mining*Анализ и проектирование систем*Python*

Привет, Хабр!

Анализ исходного кода - давно зарекомендовавшая себя практика для выявления отклонений до выхода приложения на рынок. Проверка на уязвимости, program understanding, поиск логических ошибок в использовании библиотек, code review и многие другие методы статического, динамического и ручного анализа кода широко применяются во многих компаниях занимающихся разработкой программ.

Robastik 18 окт 2022 в 07:43

Как сделать карту цен в Excel без макросов и VBA

10 мин

13K

Визуализация данных*Maps API*Data Mining*

Туториал

Cезон Data Mining

Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel.

Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.

Если вы владеете специальными инструментами для работы с данными, то будет интересно узнать ваше мнение о решениях без "рокет сайнс" (как о явлении в целом, так и о данном кейсе).

+23

evpak 21 сен 2022 в 15:01

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

17 мин

21K

Блог компании Ozon TechВысокая производительность*Анализ и проектирование систем*Тестирование веб-сервисов*Управление продуктом*

Победитель Технотекст 2022

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием — измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не ~~облажаться~~ уронить прод, я расскажу в этой статье.

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon.

+106

AlexeyNadezhin 18 мар 2021 в 14:06

Делаем вечную лампочку

3 мин

299K

Блог компании LampTestГаджеты

На упаковках светодиодных ламп указывают срок службы 30, 40 или 50 тысяч часов, но многие лампочки не живут и года.

Сегодня я расскажу, как за пять минут без каких либо инструментов модифицировать лампочку так, чтобы её срок службы значительно увеличился.

Читать дальше →

+233

361

2 3 4