Articles / Bookmarks / Profile of FriLiHaGo / Habr

@FriLiHaGo

User

ProfileArticlesPostsNewsComments1

Durham Jun 30 2021 at 21:14

30 миллиардов параметров: реально ли обучить русский GPT-3 в «домашних» условиях?

17 min

33K

Natural Language Processing*The future is hereArtificial IntelligenceMachine learning*Algorithms*

Technotext 2021

Не так давно Сбер, а затем и Яндекс объявили о создании сверхбольших русских языковых моделей, похожих на GPT-3. Они не только генерируют правдоподобный текст (статьи, песни, блоги и т. п.), но и решают много разнообразных задач, причем эти задачи зачастую можно ставить на русском языке без программирования и дополнительного обучения — нечто очень близкое к «универсальному» искусственному интеллекту. Но, как пишут авторы Сбера у себя в блоге, «подобные эксперименты доступны только компаниям, обладающим значительными вычислительными ресурсами». Обучение моделей с миллиардами параметров обходится в несколько десятков, а то сотен миллионов рублей. Получается, что индивидуальные разработчики и маленькие компании теперь исключены из процесса и могут теперь только использовать обученные кем-то модели. В статье я попробую оспорить этот тезис, рассказав о результатах попытки обучить модель с 30 миллиардами параметров на двух картах RTX 2080Ti.

+40

Dirac Jan 26 2021 at 10:15

Нейронная Сеть CLIP от OpenAI: Классификатор, который не нужно обучать. Да здравствует Обучение без Обучения

18 min

57K

Machine learning*Algorithms*Programming*Python*Artificial Intelligence

Tutorial

Можете представить себе классификатор изображений, решающий практически любую задачу, и который вообще не нужно обучать? Это новая нейросеть CLIP от OpenAI. Разбор CLIP из рубрики: Разбираем и Собираем Нейронные Сети на примере Звездных Войн!

Нет данных, нет разметки, но нужен классификатор изображений для конкретной задачи? Нет времени возиться с обучением нейронной сети, но нужно получить классификацию высокой точности? Все это стало возможным. Вам нужно обучение без обучения!

Готов и туториал: Собираем нейросети. Классификатор животных из мультфильмов. Без данных и за 5 минут. CLIP: Обучение без Обучения + код

Подробно и доступно разбираем что такое "обучение без обучения" и саму нейросеть CLIP от OpenAI. Стираем границы между Текстом и Изображением. Внимание: статья подходит под любой уровень: от нулевого до профи. Приятного прочтения!

Поехали!

+28

epeshk Dec 15 2022 at 17:50

Быстрый консольный ввод на .NET

9 min

17K

.NET*C#*

Во времена, когда .NET был закрытой технологией только для Windows, за ним и языком C# закрепилась репутация платформы, которая отлично подходит для решения бизнес-задач, но непригодна для соревновательного программирования и написания высокопроизводительного кода.

Часто приходится слышать, что "шарпы медленные", особенно в контексте алгоритмических задач, например с timus.online и codeforces.com. И, увы, не только слышать, но и сталкиваться с реальными проблемами, связанными с особенностями платформы, получая Wrong Answer, Runtime Error, Memory Limit, Time Limit при корректном алгоритме.

Большинство этих проблем кроется в особенностях консольного ввода и вывода. Да и часто куда проще написать cin >> nили sc.nextInt(), чем int.Parse(Console.ReadLine()) или Console.ReadLine().Split().Select(int.Parse).ToArray(), из-за чего выбор падает на другой язык.

Далее я расскажу о распространённых проблемах с консольным вводом-выводом в .NET, и о том, как сделать ввод быстрым и удобным.

Читать дальше →

+39

3Dvideo Dec 14 2022 at 10:31

К вопросу о математических способностях студентов или как учить переполненный мозг

23 min

241K

The future is herePopular scienceMathematics*Algorithms*Programming*

Я люблю давать простые задачки студентам на лекции. Во-первых, понятно, скольких мы потеряли, во-вторых, это переключение из режима потребления информации в режим выдачи результатов, в третьих — возможность проявить себя для шустрых. Сплошные плюсы!

Одна из простых задач звучит так: «При переводе картинки из цветового пространства RGB в YUV мы выполняем прореживание, то есть выкидываем каждый четный столбец и каждую четную строку в компонентах U и V (все компоненты пикселя по 1 байту). Вопрос: во сколько раз меньше данных у нас стало?» Эта операция называется chroma subsampling и широко используется при сжатии видео, например.

Забавно, что когда-то давно, когда винчестеры были меньше, а дискеты больше, студенты реально отвечали на этот вопрос быстро. А в последние годы регулярно народ в ступор впадает. Приходится разбирать по частям: «Если выкинуть каждую четную строку и каждый четный столбец, во сколько раз меньше данных будет у компоненты?» Почти хором: «В четыре». Начинаю подкалывать: «Отлично! У нас было 3 яблока, первое осталось как есть, а от второго и третьего осталось по четвертинке. Во сколько раз меньше яблок у нас стало?» Народ ржет, но, наконец-то, дает правильный ответ (заметим, не все).

Это было бы смешно, если бы от способности быстро в уме прикинуть результат не зависела способность быстрее создавать сложные алгоритмы.

И хорошо видно, как эта способность в широких массах студентов заметно плавно падает. Причем не только в нашей стране. Придуман даже специальный термин: «цифровое слабоумие» ("digital dementia") — снижение когнитивных способностей, достаточно серьезное, чтобы повлиять на повседневную деятельность человека.

Кому интересно ~~как теряют мозг студенты~~ масштабы бедствия и что с этим делать — добро пожаловать под кат!

+372

801

Eltar007 Mar 26 2022 at 12:43

Как создать telegram бот на C# быстро?

6 min

163K

C#*.NET*

Tutorial

From sandbox

Как создать telegram bot на C# быстро?

В этой статье мы рассмотрим заготовку для создания telegram бота на C#. В связи с последними обновлениями TelegramBotAPI, большая часть удачных с моей точки зрения публикаций на эту тему несколько устарело. Потому предлагаю разобраться в этой теме.

+16

Bright_Translate Oct 29 2021 at 09:19

Апгрейд системы для облачного гейминга: теперь с Nvidia и Moonlight

5 min

12K

RUVDS.com corporate blog*nix*Video cardsGames and game consolesComputer hardware

Translation

Третья, заключительная часть серии, посвященной пробросу видеокарт в виртуальную машину и организации облачной игровой системы для удаленного подключения по локальной сети с различных устройств.

Читать дальше →

+29

ohld Sep 22 2021 at 10:40

Как спарсить любой сайт?

6 min

227K

JavaScript*Data Mining*Big Data*Open data*Web services testing*

Tutorial

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.

Узнать как

+60

shurik2533 Sep 22 2021 at 21:26

Моя клубничная чудо-коробка

17 min

62K

Python*Development for Raspberry Pi*GadgetsDIYBiology

Я собрал умную коробку для круглогодичного выращивания клубники у себя на балконе. Расскажу как сделал управление освещением, поливом, отоплением, какие датчики использовал, с какими проблемами столкнулся и покажу результат.

+170

106

romas1982 Sep 15 2021 at 07:38

Процессный подход, или В чем проблема выгорания на самом деле?

15 min

12K

Конференции Олега Бунина (Онтико) corporate blogPersonnel Management*ConferencesBrainHealth

Кто лучше всех знает, как справляться с проблемами? От кого ждут, что он закроет своим хрупким тельцем все бреши в продукте? Тимлиды иногда напоминают собой зонтик, под которым прячется команда. Команда видит — можно особо и не стараться, потому что если что, Вася вытянет. Вася тянет всё больше, и всё начинает ехать на энергии Васи. Энергия заканчивается, и бизнес людей заменяет.

Если все едет на вашей энергии, то… энергия закончится.

Вы не будете двигаться дальше.

Вас никому не будет жалко.

Александр Орлов, бизнес-коуч и сооснователь школы менеджеров и тимлидов «Стратоплан» поделился на конференции TeamLead 2021 своими наблюдениями, что происходит с энергией, почему она уходит и почему приходит. Показал, какие инструменты есть для решения проблемы выгорания. Сегодняшняя статья именно об этом. Если вы предпочитаете разговорный формат — для вас видео выступления.

+22

marshinov Sep 13 2021 at 14:11

Асинхронные потоки от Стивена Клири

18 min

23K

JUG Ru Group corporate blog.NET*C#*ConferencesProgramming*

Про Стивена Клири можно сказать «он всерьез занялся многопоточным программированием еще до того, как это стало мейнстримом». Клири стал палочкой-выручалочкой для тысяч разработчиков, терпеливо объясняя на StackOverflow, почему программы не работают и как их исправить.

Еще в 2019-м на нашей конференции DotNext Стивен рассказал об асинхронных потоках: чем они могут быть полезны, чем отличаются от существующих библиотек вроде System.Reactive и RxJS, а также как задействовать их в проектах.

Спустя пару лет этот доклад остается полезным — поэтому теперь, в преддверии нового DotNext, мы решили сделать для Хабра текстовый перевод доклада Стивена. Видео тоже есть под катом. Далее повествование будет от лица спикера.

Читать дальше →

+24

PsyHaSTe Aug 10 2021 at 07:11

Почему не все тестовые задания одинаково полезны: разбор одного фееричного провала

27 min

46K

Perfect code*Programming*IT careerC#*.NET*

Всем привет, это PsyHaSTe и сегодня я хотел бы рассказать о том, куда меня занесла нелегкая в процессе оптимизации и рефакторинга кода решения тестового задания из статьи товарища novar (кто пропустил — рекомендую ознакомиться). Какие проблемы были у этого решения? Почему все-таки человеку отказали в работе? Что можно с этим сделать? Ответы на эти и многие другие вопросы оказались слишком длинными для комментария и вылились в статью с подробным разбором, примерами и альтернативной реализацией задания.

Если вам интересно кто в здравом уме мог для выполнения поставленной задачи написать код сочетающий монады с goto, а также одновременно сократил объем кода и увеличил его производительность, то добро пожаловать под кат. И, конечно же, самое вкусное, связанное с оптимизациями на базе работы JIT — в конце. Итоговую версию решения тестового можно посмотреть на гитхабе по ссылке.

Читать дальше →

+115

114

xlebanet Aug 5 2021 at 19:11

КиберВойны ближайшего будущего и почему снова актуален тренд на теорию заговора

16 min

8.7K

The future is hereCyberpunkReading roomInformation Security*

Июль 2021 года. Пандемия COVID-19. Сколько еще времени нужно для того, чтобы этот вирус оставил нас в покое? 196 млн зараженных, 4 млн летальных исходов, пролитые слезы, пот, пострадавшая экономика и так далее. Можно перечислять бесконечно, какой урон нанесла эта зараза для всего мира. Сегодня хотелось бы заострить внимание на одной из них, а именно – на киберпреступлениях, которые в будущем, вероятно, могут перерасти в настоящие кибервойны.

Но мы начнем издалека. С приходом пандемии многое в наших жизнях поменялось. Особенно часто стали произносить слово «самоизоляция», означающее кардинальное изменение привычного каждому формата существования. Теперь мы проводим бизнес-встречи в тимсе и зуме, а для работы с корпоративными файлами используем VPN. Объемы информации, попадающие в сеть, увеличиваются каждую секунду. Это удобно, это классно, как бы мы вообще пережили такие времена, если бы не наши технические возможности? Как бы в целом функционировала вся экономическая цепочка, формировавшаяся столь долгое время? Вероятно, это была бы трагедия масштабов, которые наш мир, возможно, еще и не видел. Но нет. Компьютеры есть, кабели в океане проложены; заварил себе чаек, посиживая в майке и шортах, и обмениваешься информацией с нужными людьми.

А теперь немного статистики: в 1 квартале 2020 года количество киберпреступлений в России увеличилось на 83,9%, а удельный вес таких деяний достиг 19,9% от общего числа[1].

Furriest Jul 10 2021 at 15:50

Бесплатный персональный OpenVPN-сервер на базе Oracle Cloud

6 min

102K

Network technologies*

Tutorial

На этот раз статья будет короткой и во многом самоочевидной. Потому что большинство потенциальных пользователей просто не знают о такой возможности, а сама настройка проста, как апельсин.

Oracle, придя на рынок облачных сервисов, активно привлекает новых клиентов. И одним из инструментов такого привлечения являются Always Free сервисы - зарегистрировавшийся клиент может пользоваться каким-то достаточно ограниченным набором ресурсов, как это следует из названия, бесплатно и неограниченно во времени. В список этих ресурсов входит два compute инстанса (каждый 2 ядра, 1GB RAM, 45GB HDD), которые можно использовать подо что угодно, но в нашем случае мы можем построить на них полностью бесплатный OpenVPN-сервер, буквально не умея практически ничего, кроме тыкания в кнопку Next. Чем мы и займемся.

+35

123

15432 Jun 29 2021 at 13:03

Необычный дуалбут: ноутбук с «двойным дном»

15 min

86K

RUVDS.com corporate blogUEFI*Information Security*Computer hardwareReverse engineering*

Tutorial

Technotext 2021

Не так давно на Habr Q&A я наткнулся на интересный вопрос — как сделать, чтобы два жестких диска не видели друг друга? Чтобы вирус, попав на одну систему, никоим образом не мог заразить другую. В ответах предлагали достаточно стандартные способы — использовать полнодисковое шифрование, отключить диск в диспетчере устройств и даже поставить переключатель на питание. Но что если взглянуть на задачу совершенно с другого угла и сделать всё средствами самого HDD? Да-да, сегодня мы снова погружаемся в пучины модификации прошивок и реверс-инжиниринга!

Узнать подробности

+349

122

honyaki Jun 29 2021 at 15:18

Наглядно о том, как работает свёрточная нейронная сеть

6 min

64K

Skillfactory corporate blogArtificial IntelligencePopular scienceReading roomImage processing*

Translation

К старту курса о машинном и глубоком обучении мы решили поделиться переводом статьи с наглядным объяснением того, как работают CNN — сети, основанные на принципах работы визуальной коры человеческого мозга. Ненавязчиво, как бы между строк, автор наталкивает на размышления о причинах эффективности CNN и на простых примерах разъясняет происходящие внутри этих нейронных сетей преобразования.

+10

alizar Jun 14 2021 at 07:45

Wireshark для всех. Лайфхаки на каждый день

7 min

116K

VDSina.ru corporate blogInformation Security*Cryptography*Software

Пакет с сертификатами от Хабра

Wireshark — очень известная программа для захвата и анализа сетевого трафика, незаменимый инструмент хакера, сетевого инженера, программиста, специалиста по безопасности. Да вообще любого любознательного человека, который хочет детально изучить трафик со своего или чужого мобильного телефона, фитнес-браслета, телевизора.

Читать дальше →

+52

MG88 May 18 2021 at 07:02

Как из одной базы данных сделать 10 разных, храня только инкременты: обзор решения

3 min

7.2K

КРОК corporate blogDatabase Administration*System Analysis and Design*Data storage*

История очень простая: есть большая продуктовая база данных. Она нужна пяти-шести командам разработки, тестировщикам и другим командам. Можно сделать штук 10 разных инстансов + БД, но обычно это дорого и долго. Гораздо лучше взять одну мастер-базу и хранить её инкременты для тех команд, которые с ней работают. Для этого есть специальные утилиты. Если лет пять назад они только начинали распространяться в России, то теперь их использование — абсолютно нормальная практика.

Давайте посмотрим, как это работает, на примере Actifio:

Слева — Shapshots, на их основе можно создавать виртуальные БД (VDB).

Итак, берём продуктовую базу и начинаем её клонировать. Нужно это для того, чтобы, в частности, получать тестовую базу за 15 минут, а не за две недели (а бывает и дольше), как обычно в крупных компаниях.

Читать дальше →

+51

brahew Dec 6 2016 at 07:05

«Пьяная» база данных: как на 1 базе мы сделали 7 тестовых площадок, причём у каждой — свой собственный инкремент и дифф

6 min

17K

КРОК corporate blogDatabase Administration*IT Infrastructure*System administration*Data storage*

Представьте себе страховую компанию с продуктивной базой 30 Тб. Она лежит на большой такой железной хранилке, её обслуживает очень-очень тяжёлый сервер. Всё красиво. Теперь представьте, что вы написали фичу или кусок функционала, и вам нужно протестировать её на боевой базе. Кусочек базы отщипнуть нельзя по ряду причин.

Что вы сделаете? Ну, традиционный путь — взять ещё одну хранилку на 30–35 Тб (но подешевле раз в пять, помедленнее, попроще, без резервирования) и отреплицировать базу на неё. А затем работать с копией. Хороший план?

Нет. Дело в том, что когда у вас несколько команд разработки (а в нашем случае их количество выросло от 4 до 10), нужно, соответственно, от 4 до 10 тестовых площадок. Или даже больше. Покупать такое железом просто нереально, поэтому нужно решение, которое позволит один раз реплицировать боевую базу, а затем «показывать» её каждому серверу как отдельную тестовую, но храня все изменения тестовой площадки. Вот так:

Расскажу, как на одном узле с физической базой мы развернули 7 тестовых площадок, изолированных друг от друга.

Читать дальше →

+23

marshinov Apr 19 2021 at 07:27

Сила композиции

20 min

19K

JUG Ru Group corporate blogFunctional Programming*Designing and refactoring*C#*.NET*

Функциональное программирование может отпугивать сложностью и непрактичностью: «Я далек от всех этих монад, пишу на обычном C#, в докладе про функциональщину ничего не пойму. А если даже напрягусь и пойму, где мне потом это применять?»

Но когда объясняет Скотт Влашин, все совершенно не так: его доклад о композиции с конференции DotNext 2019 Moscow — пример того, как можно доносить функциональные идеи простыми словами. Он за час перешел от бананов к монадам так, что второе кажется немногим сложнее первого. А в конце объяснил, почему осмыслить композицию полезно даже тем, кто не собирается покидать мир ООП. Примеры кода в докладе как на F#, так и на C#.

Уже завтра начнется новый DotNext, где я помогу Скотту выступить с другим докладом, а пока что публикую перевод его выступления про композицию. Далее повествование будет от лица Скотта.

Читать дальше →

+29

tmat Feb 24 2021 at 15:08

Всё, о чём должен знать разработчик Телеграм-ботов

15 min

706K

Instant Messaging*API*

Вы вряд ли найдете в интернете что-то про разработку ботов, кроме документаций к библиотекам, историй "как я создал такого-то бота" и туториалов вроде "как создать бота, который будет говорить hello world". При этом многие неочевидные моменты просто нигде не описаны.

Как вообще устроены боты? Как они взаимодействуют с пользователями? Что с их помощью можно реализовать, а что нельзя?

Подробный гайд о том, как работать с ботами — под катом.

+127

3 4