Articles / Bookmarks / Profile of artur33 / Habr

Artur @artur33^{read⁠-⁠only}

Software Developer

Profile Bookmarks 818

divolko3 Feb 22 at 00:00

Backblaze: надёжность жёстких дисков падает год от года. Это актуально для HDD большинства производителей

3 min

20K

Research and forecasts in IT*МТС corporate blogStatistics in ITComputer hardwareData storaging

Компания Backblaze, провайдер облачных сервисов, регулярно публикует отчёты о выходе из строя жёстких дисков, находящихся у неё в эксплуатации. HDD — сотни тысяч, поэтому статистика получается интересной. Правда, обычно такие отчёты выглядят более-менее одинаково: какие-то модели дисков выходят из строя чаще, какие-то реже.

А вот сейчас ситуация иная: согласно данным провайдера за 2023 г., надёжность жёстких дисков разных моделей от любых производителей снизилась. Есть и исключения, но в целом это так. Подробности — под катом.

+67

130

karinakvanchiani Feb 13 at 16:02

Распознавание и перевод жестовых языков: обзор подходов

Medium

11 min

1.8K

Machine learning*Artificial IntelligenceSberDevices corporate blog

Review

Всем привет! В статье «Slovo и русский жестовый язык» мы рассказывали, как решаем задачу распознавания изолированных жестов, в статье «Русский жестовый язык: первое место в американском бенчмарке» делились результатами решения, а в статье «GigaChat и русский жестовый язык» речь шла о реализации прототипа общения с генеративной языковой моделью GigaChat. В этой статье речь пойдет о распознавании и переводе жестового языка и передовых подходах для их решениях.

+25

Civil Sep 20 2023 at 18:00

25 Гбит/с дома, часть 1

Medium

16 min

45K

Configuring Linux*Computer hardwareNetwork hardwareDIY

Case

Translation

Я живу в маленьком сельском городке в Швейцарии и довольно давно являюсь клиентом init7 (местный провайдер). Этот провайдер хорошо известен тем, что в данный момент только они начали пару лет назад рекламировать доступное для частных лиц 25 Гбит/с подключение. Впрочем, им требуется время, чтобы обновить оборудование в точке присутствия, а, в моем случае, им нужно было открыть где-нибудь поблизости новую точку присутствия (до этого у них был договор с другим провайдером об аренде части оборудования и места в стойке, что по прежнему давало мне оптику в квартиру, она по прежнему была не GPON'ом, но скорость была ограничена гигабитом). Но в 2023 году они наконец анонсировали скорое открытие POPа и перевод всех пользователей на их основной продукт (fibre7). То что это новый POP для меня означает, что там сразу будет доступен 25 Гбит/с тариф.

+106

265

TyVik Jun 2 2023 at 10:15

Что делает ChatGPT… и почему это работает?

Medium

75 min

146K

Algorithms*Machine learning*Artificial IntelligenceNatural Language Processing*

Translation

То, что ChatGPT может автоматически генерировать что-то, что хотя бы на первый взгляд похоже на написанный человеком текст, удивительно и неожиданно. Но как он это делает? И почему это работает? Цель этой статьи - дать приблизительное описание того, что происходит внутри ChatGPT, а затем исследовать, почему он может так хорошо справляться с созданием более-менее осмысленного текста. С самого начала я должен сказать, что собираюсь сосредоточиться на общей картине происходящего, и хотя я упомяну некоторые инженерные детали, но не буду глубоко в них вникать. (Примеры в статье применимы как к другим современным "большим языковым моделям" (LLM), так и к ChatGPT).

+248

121

Tell997 Feb 8 2023 at 08:38

Воспитай свой второй мозг. Увеличь продуктивность

9 min

71K

Emacs*Lifehacks for geeks

Наш мозг — крайне загруженная вещь. Наш мозг обрабатывает всю эту ежедневную суматоху: навестить бабушку, купить 100 500 продуктов в магазине, уповать о падении рубля и так далее. В этом урагане информации мы забываем по истине важные для нас вещи.

Хотели бы вы иметь второй мозг? Мозг, способный запомнить всё. Мозг, в котором содержится вся полезная информация из книг, статей, видео, полученная вами?

Звучит прекрасно, не так ли? Может, когда‑то и казалось сказками, однако не сейчас.

Хочу всё знать!

+56

111

MichaelEk Jun 23 2022 at 10:59

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

10 min

116K

Open source*Яндекс corporate blogAlgorithms*Machine learning*Natural Language Processing*

Technotext 2022

^{Больше примеров — в конце поста}

В последние годы большие языковые модели на архитектуре трансформеров стали вершиной развития нейросетей в задачах NLP. С каждым месяцем они становятся всё больше и сложнее. Чтобы обучить подобные модели, уже сейчас требуются миллионы долларов, лучшие специалисты и годы разработки. В результате доступ к современным технологиям остался лишь у крупнейших IT-компаний. При этом у исследователей и разработчиков со всего мира есть потребность в доступе к таким решениям. Без новых исследований развитие технологий неизбежно снизит темпы. Единственный способ избежать этого — делиться с сообществом своими наработками.

Год назад мы впервые рассказали Хабру о семействе языковых моделей YaLM и их применении в Алисе и Поиске. Сегодня мы выложили в свободный доступ нашу самую большую модель YaLM на 100 млрд параметров. Она обучалась 65 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100. Модель и дополнительные материалы опубликованы на Гитхабе под лицензией Apache 2.0, которая допускает применение как в исследовательских, так и в коммерческих проектах. Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков.

В этой статье мы поделимся не только моделью, но и нашим опытом её обучения. Может показаться, что если у вас уже есть суперкомпьютер, то с обучением больших моделей никаких проблем не возникнет. К сожалению, это заблуждение. Под катом мы расскажем о том, как смогли обучить языковую модель такого размера. Вы узнаете, как удалось добиться стабильности обучения и при этом ускорить его в два раза. Кстати, многое из того, что будет описано ниже, может быть полезно при обучении нейросетей любого размера.

Читать дальше →

+164

139

Inginer_ASU Dec 26 2022 at 13:43

Немного про ПИД-регуляторы или «велосипед автоматизации». Часть 3

10 min

10K

System Analysis and Design*Industrial Programming*SCADA*

Часть 3. Реализация регулятора – вот теперь регулятор.

продолжение практической реализации ПИД-регулятора

yrepear Dec 16 2022 at 10:48

Семь прогнозов: что ждет data-инжиниринг в 2023 году

7 min

4.8K

VK corporate blogBig Data*Machine learning*

Команда VK Cloud перевела статью о том, что ждет дата-инжиниринг в новом 2023 году. Предсказания на грядущий год редко претендуют на серьезность, но и у них есть своя цель. Они помогают нам отвлечься от повседневности и задуматься о том, на что стоит ставить в долгосрочной перспективе.

Читать дальше →

+15

valeriyk Feb 18 2014 at 21:57

MMU в картинках (часть 1)

11 min

73K

System Programming*

Хочу поговорить об устройстве управления памятью (Memory Management Unit, MMU). Как вы, разумеется, знаете, основной функцией MMU является аппаратная поддержка виртуальной памяти. Словарь по кибернетике под редакцией академика Глушкова говорит нам, что виртуальная память — это воображаемая память, выделяемая операционной системой для размещения пользовательской программы, ее рабочих полей и информационных массивов.

У систем с виртуальной памятью четыре основных свойства:

Пользовательские процессы изолированы друг от друга и, умирая, не тянут за собой всю систему
Пользовательские процессы изолированы от физической памяти, то есть знать не знают, сколько у вас на самом деле оперативки и по каким адресам она находится.
Операционная система гораздо сложнее, чем в системах без виртуальной памяти
Никогда нельзя знать заранее, сколько времени займет выполнение следующей команды процессора

Выгода от всех вышеперечисленных пунктов очевидна: миллионы ~~криворуких~~ прикладных программистов, тысячи разработчиков операционных систем и несчетное число эмбеддеров благодарны виртуальной памяти за то, что все они до сих пор при деле.

К сожалению, по какой-то причине все вышеперечисленные товарищи недостаточно почтительно относятся к MMU, а их знакомство с виртуальной памятью обычно начинается и заканчивается изучением страничной организации памяти и буфера ассоциативной трансляции (Translation Lookaside Buffer, TLB). Самое интересное при этом остается за кадром.

Читать дальше →

+64

honyaki Nov 16 2022 at 22:55

Как реализовать символьную языковую рекуррентную нейронную сеть

12 min

4.3K

Python*Programming*Mathematics*Skillfactory corporate blogArtificial Intelligence

Translation

В одном своём гисте Андрей Карпаты сделал кое-что впечатляющее. Чуть больше чем в 100 строках кода на Python — без тяжеловесных фреймворков для машинного обучения — он прописал довольно полную реализацию языковой модели для обучения символьно-ориентированных рекуррентных нейросетей (РНС). Гист включает полное обучение методом обратного распространения с оптимизацией Adagrad. Подробности — к старту флагманского курса по Data Science.

Читать дальше →

yukhodyrev Oct 26 2022 at 15:34

Как мы автоматизировали работу с Kafka: через тернии к Cruise Control

33 min

10K

High performance*System Analysis and Design*IT Infrastructure*DevOps*Ozon Tech corporate blog

Technotext 2022

В 2022 году искушённого хабрачитателя уже не удивить очередной статьёй о том, как готовить Kafka. На эту тему уже есть куча полезных материалов. Например: тут, тут, тут и тут. А вот информации об инструментах, входящих в экосистему Kafka, ещё не так много.

Когда у вас тысячи топиков и десятки брокеров в нескольких дата-центрах, то вручную балансировать реплики партиций ещё возможно. Но где-то на этом этапе работа по переносу реплик с одного брокера на другой становится рутиной. А при увеличении объёмов без автоматизации уже не обойтись. Поэтому мы задумались о том, какие инструменты могут в этом помочь.

Сегодня я поделюсь нашей историей запуска инструмента Kafka Cruise Control от LinkedIn. Наш путь по запуску на наших объёмах был тернист, и получился интересным, почти детективным рассказом. А если вы думаете, как автоматизировать рутинные операции по администрированию Kafka-кластеров, то, уверен, почерпнёте для себя что-то полезное.

+60

akomiagin Oct 4 2022 at 12:19

Как выжить под нагрузкой, имея 100 ТБ в нешардированной MongoDB

8 min

4.9K

High performance*MongoDB*Distributed systems*STM Labs corporate blog

Сегодня у нас — экшен, основанный на реальных событиях. Будем переобуваться в воздухе и на лету менять архитектуру высоконагруженной системы.

Действие разворачивается на базе очень большой track & trace системы класса big data. В ней давно откладывали переход на шардированную архитектуру хранилища. Поэтому главному герою предстоит справиться справиться со злом, пробудившимся в системе под нагрузкой: деградацией производительности, полкой по блокировкам и алертами о перегрузке.

В конце — как обычно, хэппи-энд. Наш герой бесстрашно меняет архитектуру решения на лету без downtime (DT) и обеспечивает штатную работу системы. Зло повержено, а отважный инженер купается в овациях!

Статья написана по мотивам доклада на конференции Saint Highload++ 2022. Если не хотите читать — можно посмотреть видео-версию выступления.

+15

LKamrad Jan 17 2022 at 09:40

Разумная слизь? Тварь, способная решать сложные задачи, что не под силу даже существам, обладающим развитым мозгом

7 min

67K

Автор Лысый Камрад (@LKamrad)

При этом у нее нет не то чтобы мозга, а хотя бы намека на самую примитивную нервную систему. Разрезанная на части, она снова сольется в единый организм, а если части разнести друг от друга, они будут функционировать как отдельные вполне полноценные особи. Такое невозможно, воскликните вы, и... будете неправы – мать-природа круче любой фантастики.

Знакомьтесь, Physarum polycephalum – не животное, не растение и даже не гриб...

Примечание: данную публикацию можно использовать для начала ознакомления учащихся с принципами динамического программирования.

+164

dlinyj Jan 31 2022 at 12:00

Что с памятью моею стало

14 min

44K

Data storage*RUVDS.com corporate blogManufacture and development of electronics*Old hardwareDIY

Tutorial

Запомним на века: Повесть о работе с ПЗУ

Помню, ещё в детстве, когда у меня появился первый компьютер, там на материнской плате была магическая микросхема с окошком, сквозь которое было видно кристалл. “Мудрые” взрослые меня пугали, что если посветить солнечным светом на неё, то она быстро сотрётся.

С тех пор у меня было большое желание разобраться, что же это за мистические микросхемы ПЗУ (постоянное запоминающее устройство), как же они работают, как их программировать и стирать. И всё как-то не было повода, да и возможностей аппаратных. А тут, благодаря "Волшебному чемодану" появилась реальная задача, когда необходимо было прочитать прошивку, написать свою и прошить ПЗУ, а также научится стирать микросхемы. И тут я познал как глубока кроличья нора, что есть куча типов ПЗУ с УФ стиранием, что у них разные напряжения работы, разные режимы стирания микросхемы и многое-многое другое. Вопрос, какой программатор выбрать, как стереть микросхему, как её записать, какие сложности при этом.

Несмотря на то, что микросхемы давным-давно в ходу, информация ровным слоем размазана по интернету и головам, приходилось собирать всё в кучу, проходя хоть местами очевидный, но тернистый путь.

Читать дальше →

+123

Olga_Mokshina Jan 28 2022 at 11:59

Как работать с Minikube: рекомендации и полезные советы

5 min

22K

System administration*VK corporate blogDevOps*Kubernetes*

Translation

Kube Earth by Anarki3000

Minikube — популярное решение для запуска локального кластера Kubernetes на macOS, Linux и Windows. Несмотря на большой набор функций и кроссплатформенную поддержку, Minikube всё же отличается от полнофункционального кластера Kubernetes.

Часто это сбивает с толку разработчиков и новых пользователей Kubernetes, которым нужно протестировать приложение в локальной среде. Команда Kubernetes aaS VK Cloud Solutions перевела статью о том, как наладить беспроблемную работу с Minikube.

Читать дальше →

+31

AImbidexter Jan 28 2022 at 15:35

Краткий обзор результатов взаимодействия между нейронауками и индустрией искусственного интеллекта. Перевод статьи

29 min

4.3K

Artificial IntelligenceBrain

From sandbox

Translation

Перевод статьи "Natural and Artificial Intelligence: A brief introduction to the interplay between AI and neuroscience research", опубликованной в сентябре 2021 года.

Оригинал статьи

Исходно перевод делался на скорую руку, для собственных прикладных задач и не для открытой публикации, поэтому материал вышел в черновом виде со множеством возможностей для коррекции и адаптации. Прикладные задачи здесь - нейропсихология, психиатрия, психология и решения в области ИИ.

В таком виде его и публикую. Надеюсь, что окажется полезен как для профессионалов, так и для всех интересующихся темой.

Краткий обзор результатов взаимодействия между нейронауками и индустрией искусственного интеллекта.

Igor_Le Jan 24 2022 at 18:19

Битвы на территории ZFS

6 min

20K

PostgreSQL*Postgres Professional corporate blog

Один из крупных клиентов нашей компании попал в грустную ситуацию: базы данных подросли, потребности тоже, купили мощные NUMA-сервера, установили любимую файловую систему ZFS (ZFS — для краткости: формально это OpenZFS), а производительность PostgreSQL стала хуже, чем до покупки.

Базы нешуточные: две базы, в каждой по 180ТБ. В них сливаются данные из многих других, непостгресовых баз. А этими, огромными, напрямую пользуются аналитики компании, и эта деятельность критически важная. ZFS сжала эти базы в два раза — теперь каждая занимает на диске по 90 ТБ, железу бы вздохнуть с облегчением. А стало только хуже. Пригласили наших сотрудников из поддержи, они провели аудит. Случай нам показался интересным, и мы решили о нём рассказать. Заодно напомнив о средствах диагностики.

Читать дальше →

+85

103

Hedgehog_art Jan 21 2022 at 19:49

Микросервисы, Apache Kafka и Domain-Driven Design

10 min

25K

System administration*Programming*Apache*Слёрм corporate blog

Translation

Почему Apache Kafka стала стандартом и основой архитектуры микросервисов. Как Kafka не только заменяет другое промежуточное ПО, но и позволяет создавать сами микросервисы с помощью DDD и нативных API Kafka: Kafka Streams, ksqlDB и Kafka Connect.

+17

samsergey Jan 19 2022 at 04:55

Знакомство с p-адическими числами. Часть 1

19 min

17K

Mathematics*Popular science

Иллюстрация сложения в p-адической топологии (E. Harriss and R. Nelson)
Изображение с сайта Mathematical Art Galleries

В этой серии из двух статей я приглашаю вас заглянуть в один любопытный и не самый популярный уголок математики, в котором обитают необычные создания — p-адические числа, а попутно хочу рассказать о написанной мной Haskell-библиотеке для работы с ними, а также о двух классных инструментах: о типах-литералах (type literals) и семействах типов (type families), приближающих нас к заветным зависимым типам.

Я люблю язык Haskell и, начиная с какого-то времени, мне стало комфортно думать на нём, особенно, на математические темы. Когда понадобилось освоить новый инструмент, — p-адические числа, оказалось, что в репозитории hackage, основном для Haskell-сообщества, нет инструментов для работы с ними, даже в таких серьёзных теоретико-числовых библиотеках, как arithmetic, arithmoi или factory. В конце концов, я написал и опубликовал свой модуль padic, и во второй части этой серии расскажу о некоторых деталях его реализации. А сейчас речь пойдёт о самих p-адических числах.

Читать дальше →

+38

boygenius Jan 13 2022 at 15:34

Интерпретация моделей и диагностика сдвига данных: LIME, SHAP и Shapley Flow

38 min

29K

Algorithms*Machine learning*Open Data Science corporate blogStatistics in ITArtificial Intelligence

В этом обзоре мы рассмотрим, как методы LIME и SHAP позволяют объяснять предсказания моделей машинного обучения, выявлять проблемы сдвига и утечки данных, осуществлять мониторинг работы модели в production и искать группы примеров, предсказания на которых объясняются схожим образом.

Также поговорим о проблемах метода SHAP и его дальнейшем развитии в виде метода Shapley Flow, объединяющего интерпретацию модели и многообразия данных.

+34

2 3 ...

40 41