Статьи / Закладки / Профиль Nezaam / Хабр

@Nezaam

Пользователь

Профиль Публикации Комментарии 10Закладки 179

sergepetrenko 19 фев в 12:34

Во что обойдется линеаризуемость в распределенной системе

Средний

12 мин

6.1K

Высокая производительность*Блог компании VKАдминистрирование баз данных*Распределённые системы*Tarantool*

Всем привет, меня зовут Сергей Петренко, я программист в Tarantool. Сегодня мы посмотрим, с какими трудностями сталкивается клиент, когда вместо того чтобы общаться с системой, расположенной на одном инстансе, начинает общаться с распределенной системой. И разумеется, поговорим о том, как эти трудности преодолеть. Я расскажу, что такое линеаризуемость, как мы ее реализуем в Tarantool и как это делают другие СУБД. В завершение мы поговорим о накладных расходах от линеаризуемости.

Читать дальше →

+59

uzumeti 13 фев в 20:38

Как цеттелькастен помогает в научной работе и почему заметки точно нужны каждому?

Средний

5 мин

14K

Управление проектами*Научно-популярное

Кейс

Наверное многие читатели уже слышали про цеттелькастен. Рассказываю, как я применил методику случайно, когда работал в НИИ и даже не знал таких слов. При этом логика мне сильно помогла и хочется донести информацию о своём успешном опыте. Заметка про цеттелькастен в научной работе и повышение собственной эффективности.

+10

Razant 1 апр в 16:38

Как устроено пространство, в котором думают языковые модели?

Сложный

5 мин

17K

Алгоритмы*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании AIRI

Кейс

С момента выхода первой статьи «Attention is All You Need» я с жадностью и любопытством, присущими любому исследователю, пытаюсь углубиться во все особенности и свойства моделей на базе архитектуры трансформер. Но, если честно, я до сих пор не понимаю, как они работают и почему так хорошо обучаются. Очень хочу разобраться, в чём же причина такой эффективности этих моделей, и есть ли предел их возможностей?

Такому изучению трансформеров «под микроскопом» и посвящена наша научная работа, только что представленная на конференции EACL 2024, которая проходила на Мальте — «The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models». В этой работе мы сфокусировались на наблюдении за пространством эмбеддингов (активаций) на промежуточных слоях по мере обучения больших и маленьких языковых моделей (LM).

+55

Bearatol 18 янв в 08:21

RPC на примере gRPC. Когда применять и как работает

Средний

7 мин

12K

Анализ и проектирование систем*Go*Распределённые системы*

Из песочницы

Recovery Mode

Доброго времени суток, коллеги. Я go разработчик, по-этому примеры будут преимущественно на нём. Хочу порассуждать о методах взаимодействия сервисов. Тема очень обширна. Зачастую мы пользуемся реализациями, которые не всегда подходят, т.к. не знаем куда применить ту или иную технологию. Я хочу попытаться начать закрывать этот пробел как у себя, так и у людей. Любые комментарии и конструктивные исправления приветствуются.

В данной статье хочу разобрать как работает gRPC, что он может, а так же когда и зачем его использовать.

Узнать ->

aleksejs1 18 янв в 08:13

Как содержать пароли. Мой сетап

Средний

7 мин

52K

Информационная безопасность*Криптография*Хранение данных*Облачные сервисы*Лайфхаки для гиков

Кейс

Я долго собирал информацию о том, как организовать свои аккаунты. Как сделать доступ к ним достаточно надёжным и стойким к утере девайсов.

Меня интересовало, как я могу залогиниться туда, где многофакторная авторизация через телефон, в случае потери телефона.

Или, как обезопасить себя от забывания мастер пароля от менеджера паролей? На моей практике я несколько раз забывал пин-код от банковской карты, состоящий из 4-ёх цифр, после ежедневного использования на протяжении многих месяцев. Мозг - странная штука.

В итоге, спустя месяцы изучения темы, я пришёл к следующему сетапу, который решил описать в виде мануала.

+69

184

evaclick 19 янв в 14:36

Machine Learning инженер: что/где/как изучать, чтобы въехать

12 мин

29K

Машинное обучение*Карьера в IT-индустрии

Привет, хаброчеловек!

В этой статье мы обсудим путь среднестатистического обывателя в Machine Learning, а именно — как стать ML-инженером. Поговорим о специфике области, какие требуются знания и скиллы, что нужно делать и с чего начать.

+11

Serine 11 апр в 10:31

Как мы делаем опенсорс курсы для программистов от программистов

Простой

8 мин

34K

Python*Rust*Изучение языков

Обзор

Мы разочаровались в курсах по программированию и поэтому сделали свои собственные. Не для вайтишников, а для типичных разрабов. В процессе нас хакнул инфлюенсер и забанил сервер телеграма.

Покоцанные, но не сломленные, мы представляем проект, над которым работали полтора года по ночам. Курсы по программированию с задачами в online IDE и прагматичной теорией. Никаких сертификатов и гарантий трудоустройства. Сплошной хардкор и опенсорс!

Читать дальше →

+137

jirfag 12 мар 2019 в 11:52

Стажёр Вася и его истории об идемпотентности API

11 мин

224K

Веб-разработка*Блог компании ЯндексРазработка мобильных приложений*Интерфейсы*API*

Идемпотентность — звучит сложно, говорят о ней редко, но это касается всех приложений, использующих API в своей работе.

Меня зовут Денис Исаев, и я руковожу одной из бэкенд групп в Яндекс.Такси. Сегодня я поделюсь с читателями Хабра описанием проблем, которые могут возникнуть, если не учитывать идемпотентность распределенных систем в своем проекте. Для этого я выбрал формат вымышленных историй о стажёре Васе, который только-только учится работать с API. Так будет нагляднее и полезнее. Поехали.

Читать дальше →

+213

163

varagian 22 янв в 10:25

Это один из лучших подходов к изучению английского, что я видел за последние годы — коллокации

7 мин

118K

Учебный процесс в ITЛайфхаки для гиковИзучение языков

Туториал

Значение слова – это его использование в языкеЛюдвиг Витгенштейн (сурс)

Что это вообще за магия такая? Коллокация – это просто пара или группа слов, которые часто возникают вместе. Такие комбинации звучат естественно для носителей языка, однако, тем, у кого язык не родной, бывает сложно догадаться до этой естественной комбинации.

А что если я скажу, что они улучшают сразу и вашу способность органично говорить, и канонично писать, и что совсем удивительно воспринимать английский от носителей языка на слух? И главный вопрос, который меня мучает – почему я узнал об этой технике изучения языка только полгода назад? (Рассказ об этой подготовке здесь.)

Внимательно посмотрите на пример с картинки. Как только собеседник начал(а) произносить “pitch d…” ваш мозг, зная нужные коллокации, подскажет, что там должно быть “dark”. Даже если вы плохо расслышали эту часть. Это один из механизмов, через который коллокации позволяют лучше воспринимать язык на слух.

Подробнее о том, как их учить и использовать и будет эта статья.

Disclaimer: если у вас филологическое образование, то вам наверное будет смешно, что кто-то открыл для себя коллокации и их использование для изучения иностранного языка в 202N году, а вот если вы, как и я, когда-то читали “randomize” как “рандомизе”, то возможно эта статья будет вам полезной.

Добро пожаловать под кат

+95

116

vasilevafb 10 апр в 15:15

Более 250 бесплатных курсов и ресурсов по аналитике

Простой

11 мин

12K

Big Data*

Роадмэп

Большая подборка для аналитиков данных, продуктовых аналитиков, веб аналитиков, маркетинговых аналитиков и особенно тех, кто хочет ими стать. От автора Telegram-канала «Аналитика и Growth mind-set».

Но прежде несколько важных моментов:

+14

UranusExplorer 15 мар в 00:03

Надежный обход блокировок в 2024: протоколы, клиенты и настройка сервера от простого к сложному

Средний

45 мин

143K

Настройка Linux*Информационная безопасность*Системное администрирование*Сетевые технологии*

Туториал

Поскольку блокировки интернета в РФ в последние недели и месяцы многократно активизировались, а маразм все крепчает и крепчает, стоит еще раз поднять тему обхода этих самых блокировок (и делаем ставки, через сколько дней на эту статью доброжелатели напишут донос в РКН чтобы ограничить к ней доступ на территории страны).

Вы, наверняка, помните отличный цикл статей на Хабре в прошлом году от пользователя MiraclePtr, который рассказывал о разных методах блокировок, о разных методах обхода блокировок, о разных клиентах и серверах для обходов блокировок, и о разных способах их настройки (раз, два, три, четыре, пять, шесть, семь, восемь, десять, десять, и вроде были еще другие), и можете спросить, а зачем еще одна? Есть две основные причины для этого.

+490

351

axelmaker 13 фев в 17:29

Как работает сеть в контейнерах: Docker Bridge с нуля

Средний

21 мин

34K

Настройка Linux*Сетевые технологии*DevOps*

Туториал

Перевод

В этой статье мы собираемся разобраться со следующими вопросами:

* Как виртуализировать сетевые ресурсы, чтобы контейнеры думали, что у них есть отдельные сетевые среды?

* Как превратить контейнеры в дружелюбных соседей и научить общаться друг с другом?

* Как выйти во внешний мир (например, в Интернет) изнутри контейнера?

* Как связаться с контейнерами, работающими на хосте Linux, из внешнего мира?

* Как реализовать публикацию портов, подобную Docker?

+71

Bright_Translate 1 дек 2023 в 16:00

Создаём собственную систему поиска фильмов на основе проекта Андрея Карпати

Средний

8 мин

8.6K

Python*Программирование*Блог компании RUVDS.comИскусственный интеллект

Туториал

Перевод

В апреле 2023 года Андрей Карпати, один из основателей OpenAI и бывший директор по ИИ в Tesla, поделился своим занятным проектом выходного дня – системой поиска и рекомендации кино.

Её пользовательский интерфейс откровенно прост и предлагает две основных функции: блок поиска, в котором можно искать кино по названию, и вывод списка из 40 похожих фильмов при клике по интересующему.

Несмотря на популярность этого проекта, Карпати, к сожалению, пока не поделился с публикой его исходным кодом.

И вот почему

Источник

Chaturvedi: «Может, откроете исходный код проекта?»

Andrej Karpathy: «Даже не знаю. Он такой страшный, что мне стыдно».

Так что запасайтесь попкорном и будем воссоздавать его сами на основе OpenAI и векторной базы данных!

Читать дальше →

+55

QdMiracle 27 сен 2023 в 12:30

SpyWare своими руками. Часть 2: Функционал

Средний

15 мин

2.2K

Информационная безопасность*Python*

Туториал

Всем привет, в этой части мы добавим функционала нашему SpyWare, чтоб было поинтереснее отслеживать что творится с нашим компом, пока нас нет рядом. Давайте начинать =)
...
Пару минут чтения спустя, вы узнаете как отследить вашего пушистого хацкера ну или кого-то друго-го не менее любопытного)
...
Данный метод мне предоставляет больше удовольствия чем игры с revers shell (но он тут тоже будет), только представьте, получаете сообщение от бота, что кто-то запустил ваш ПК. Вы делаете снимок с веб-камеры а там ...
Ваш пушистый друг, играет в дотку с вашего компа, пока вы на работе, но это все в лучшем случае) На этой позитивной ноте мы готовы переходить к следующему модулю, хоть он и мал, но открывает безграничные возможности.

Заинтересовало? Тогда нажимай.

tech_priestess 18 ноя 2023 в 18:06

Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить

Простой

26 мин

171K

Машинное обучение*Учебный процесс в ITКарьера в IT-индустрииИскусственный интеллект

Туториал

Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы, и, наконец, выполняю свое обещание. Надеюсь, этот гайд станет подсказкой, которая поможет найти правильное направление новичкам, которые хотят погрузиться в нашу область.

+155

DenisBerezutskiy 14 ноя 2023 в 03:37

Улучшаем пунктуатор на стенограммах

Средний

29 мин

1.9K

Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Из песочницы

Привет, Хабр! Сегодня я расскажу о том, как натренировать качественный русскоязычный пунктуатор и капитализатор для стенограмм (то есть, модель, превращающую только что распознанный Speech-to-Text’ом “привет хабр” в литературный “Привет, Хабр!”). Задача эта давно известная и в последние годы кое-как решаемая с помощью нейросетей-трансформеров, например, BERT. Ключевое слово здесь – “кое-как”. Мы пробовали множество открытых доступных моделей (подробности ниже), но результат сильно не дотягивал до нужного нам уровня. Пришлось доделывать модель самим.

Некоторые энтузиасты LLM сразу спросят: а зачем отдельно тренировать пунктуатор в 2023-м, когда есть универсальный ChatGPT? Одна из проблем в том, что ChatGPT работает только на зарубежных серверах, и как они там собирают данные – никому не известно. И это не говоря ещё о риске перевирания текста и высокой стоимости.

Если к вам обращаются заказчики за автономной системой протоколирования митингов, то ни о каком ChatGPT не может идти и речи. Что касается других LLM (Llama 2, T5 и т.д.), то они постоянно страдают галлюцинациями, потребляют в разы больше памяти и работают в десятки, а то и сотни раз медленнее, чем стандартный пунктуатор на BERT. Подробнее об экспериментах с использованием генеративных LLM – в разделе ниже.

В отличие от генеративных сетей, архитектура BERT в принципе хорошо подходит для расстановки знаков и заглавных букв: гарантия от галлюцинаций и быстрая работа, даже на CPU. Однако результат очень сильно зависит от того, на каких данных их обучали. Например, как мы выяснили на собственном опыте, пунктуаторы, натренированные на типичных больших русскоязычных корпусах (новости, энциклопедии, литература, рандомный кроулинг) очень редко ставят точки. Причём, как показали дальнейшие эксперименты, та же по строению модель справлялась намного лучше, если учить её на правильно подобранном датасете.

+13

MaFrance351 7 ноя 2023 в 11:01

Как заставить работать пейджер

Средний

24 мин

11K

Блог компании Timeweb CloudРазработка систем связи*Стандарты связи*Схемотехника*Старое железо

Туториал

Приветствую всех!

Знаю, тема пейджинговой связи поднималась тут далеко не раз. И, казалось бы, уже всё, что можно сказать, уже было сказано.

Но, как это часто бывает, не всё оказывается так просто, как говорится в подобных статьях. И вот я, вдохновившись подобными материалами, сам решил попробовать сделать нечто подобное, испытал всю ту боль от взаимодействия с подобными железками, так что самое время рассказать, что с этим делать, что было упущено в предыдущих статьях, как же всё это запустить и как окунуться в эпоху «Подключайся к самым-самым!».

Итак, в сегодняшней статье поговорим о пейджерах и передаче сообщений на них. Разберёмся, как это вообще делается и какие сложности могут встретиться на нашем пути. Традиционно будет много интересного.

Читать дальше →

+73

titanium007 26 окт 2023 в 18:41

Global Talent visa для IT-ника. Путь с нуля

Простой

11 мин

IT-эмиграцияКарьера в IT-индустрииУдалённая работа

Туториал

Недавно я завершил свой длинный путь и получил Global Talent visa в Великобританию. О первых выводах я поделился в канале, а сейчас хотелось бы разложить все по полочками и подготовить гайд, который поможет практически любому стать обладателем этой визы.

В этой статье я постараюсь описать весь свой опыт, рассказать о том, кому и почему эта виза может быть полезна и самое главное, как ее получить если вы не ощущаете себя "талантом".

ha7y 20 окт 2023 в 22:07

История одного домашнего дата-центра

Средний

9 мин

35K

IT-инфраструктура*DIY или Сделай самИнженерные системы*

Ретроспектива

История о создании домашнего дата-центра от 0 серверов (только посадочная) до сотни (ещё нет) за 1.5 года. Через интернет в новостройке, перепрошивку UPS и собственные стойки для десктопного железа к балансу отказоустойчивости с ценой и планам на будущее.

Вся история

+108

headscode 6 сен 2023 в 17:41

Как я получил Remote Work ВНЖ в Дубае по гайду в интернете

Простой

6 мин

14K

IT-эмиграция

Из песочницы

Привет всем! Меня зовут Максим, я технический продакт-менеджер в американском стартапе. В мае я получил резидентскую визу и Emirates ID в ОАЭ как Digital Nomad по инструкции в интернете. Рассказываю, чем реальность отличается от гайдов в интернете, с конкретными датами и суммами.

+26

2 3 ...

8 9