Articles / Bookmarks / Profile of avdosev / Habr

Авдосев Никита @avdosev

ML-разработчик

Profile Publications 5Comments 206Bookmarks 455

TSjB Apr 7 at 17:47

Алгоритм расчёта расстояния между строками

Medium

3 min

6.9K

Search engines*Algorithms*R*

Case

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

+16

Technorion May 3 at 19:16

Отопление майнингом. Как я грею дом бесплатно

Medium

3 min

26K

Smart HouseSystems engineering*

Review

From sandbox

Как известно, майнинговое оборудование выделяет большое количество тепла. В среднем это 3500 Ватт у асиков. Утилизация этого тепла - такая же проблема как и шум работы асика. Все, кто имеют опыт в майнинге понимают, что максимальная рентабельность достигается за счёт полезного использования тепла. Именно по этой причине сейчас так популярно отопление майнингом. Вместо затрат на отопление, майнер зарабатывает на обогреве своего помещения, то есть асики работают на бесплатной розетке в отопительный период.

В моём случае майнинговое отопление максимально выгодно: объект коммерческий, с розеткой 7 р/кВт, отопление электрическое, газа нет вообще, на объекте постоянно люди.

+51

ZonD80 May 3 at 13:15

Как Apple на самом деле следит за вами

Easy

12 min

37K

Information Security*Data Mining*

From sandbox

✏️ Technotext 2023

По счастливой случайности я оказался резидентом Евросоюза, а значит, на меня также распространяется GDPR. Он позволяет мне запросить копию информации, которая хранится обо мне у всяких разных компаний. Я решил сделать это у Apple, и был неприятно удивлен.

Apple старается собирать как можно меньше данных.

+142

152

AKlimenkov May 1 at 20:44

Странная история о вездесущих тараканах. Сбой в матрице или когнитивный феномен?

5 min

10K

Internet marketing*Contextual advertising*Reading roomBrain

Opinion

Расскажу вам об одном странном случае. Вспоминали далёкое прошлое и старую ленинградскую коммунальную квартиру на Васильевском острове: общую кухню, в которой водились полчища тараканов. Посмеялись мы тогда, обсудили разные гипотезы. Поговорили о тараканах и забыли.

Через некоторое время одно из мобильных приложений выдало мне рекламу... тараканов. Предлагалось приобрести жирненьких мадагаскарских тараканчиков по необременительной цене. В этом не было бы ничего странного — мало ли что сейчас рекламируют в сети — если бы не загадочное обстоятельство: во время той самой беседы о тараканах рядом не было ни одного электронного девайса...

+32

PatientZero Apr 30 at 12:42

Почему я отказался от разработки игр на Rust, часть 1

Medium

19 min

28K

Programming*Game development*Rust*Development Management*

Opinion

Translation

Предисловие: этот пост представляет собой очень длинный перечень мыслей и проблем, возникавших у меня за годы работы; также в нём рассматриваются некоторые из аргументов, которые мне часто говорили. В посте выражено моё мнение, сформировавшееся у меня в процессе разработки игр на Rust в течение многих тысяч часов на протяжении многих лет и после множества завершённых игр. Это не хвастовство и не показатель успеха, я просто хочу сказать, что вложил достаточно много усилий в Rust; здесь не получится сказать «когда наберёшься опыта, тебе всё станет понятно».

Пост не будет ни научной оценкой, ни A/B-исследованием. Это моё личное мнение после разработки игр на Rust маленькой инди-командой (два человека) в попытках заработать достаточно денег, чтобы финансировать процесс. Мы не одни из тех разработчиков с бесконечными финансами от инвестора и многолетним запасом времени. Если вы находитесь в этой категории и получаете удовольствие от многолетней разработки систем, то всё написанное ниже к вам не относится. Я рассматриваю всё с такой точки зрения: «Мне хочется создать игру максимум за 3-12 месяцев, чтобы люди могли сыграть в неё, а я — немного заработать». Статья не написана с точки зрения «Я хочу изучить Rust, а разработка игр — это весело», хотя это и вполне нормальная цель; просто она никак не согласуется с тем, чего хотим мы — заниматься разработкой игр коммерчески успешным и самодостаточным образом.

Мы выпустили несколько игр на Rust, Godot, Unity и Unreal Engine, и многие люди сыграли в них в Steam. Мы создали с нуля собственный игровой 2D-движок с простым рендерером, а также в течение нескольких лет использовали Bevy и Macroquad во многих проектах, некоторые из которых были очень нетривиальными. Кроме того, я бэкенд-разработчик на полную ставку и пишу код на Rust. Этот пост — не какое-то поверхностное мнение после изучения нескольких туториалов или разработки небольшой игры для геймджема. За три с лишним года мы написали сильно больше ста тысяч строк кода на Rust.

Задача этого поста — развеять популярные и часто повторяемые аргументы. Но это всё-таки субъективное мнение; по большей части я написал пост, чтобы не объяснять снова и снова одно и то же. Пусть это будет справочный материал о том, почему мы, скорее всего, откажемся от Rust как от инструмента для разработки игр. Мы ни в коем случае не планируем прекращать создавать игры, просто не будем делать это на Rust.

+81

carbon2409 Apr 27 at 16:51

Похоже, я придумал свой алгоритм поиска кратчайшего пути (upd: меня опередили...)

Medium

17 min

36K

Python*Algorithms*Search engine optimization*

Review

From sandbox

Всем привет! Я реализовал, похоже, собственный алгоритм поиска кратчайшего пути с отрицательными ребрами графа.

Почему собственный? Я искал подобное решение, но не нашел, возможно, оно уже было реализовано, просто плохо поискал. Жду Нобелевскую премию =)

Додумался я до него путем модификации классического Дейкстры. Прошу адекватно отнестись к содержимому, ибо это моя первая статья, и, возможно, я ничего не придумывал и, вообще, этот алгоритм не работает вовсе (но по многочисленным тестам он работает правильно).

+102

111

ru_vds Apr 8 at 16:00

Проблема: Wi-Fi работает только во время дождя

Easy

6 min

48K

Network technologies*Wireless technologies*RUVDS.com corporate blogPopular scienceNetwork hardware

Translation

Вот что ответил отец на мой вопрос о проблеме с домашним подключением к интернету: «Wi-Fi работает, только когда идёт дождь».

Давайте сделаем шаг назад, чтобы осознать смехотворность этой ситуации.

В то время я был студентом колледжа (это произошло больше десяти лет назад). Перед началом осеннего семестра я на пару недель приехал к своим родителям. Я не был дома почти целый год, потому что колледж находился на другом континенте.

Мой отец — инженер, он работал с сетевым оборудованием, ещё когда я не родился. В основанной им компании он проектировал и внедрял множество сложных сетевых систем в организациях по всей стране: от гигабитного Ethernet для офисного здания до междугородных соединений при помощи микроволновых линий связи прямой области видимости.

Он последний, кто мог бы сказать нечто столь абсурдное.

«Что?», — удивлённо произнёс я. «Wi-Fi работает, только когда идёт дождь. Это началось пару недель назад, у меня пока не было времени с этим разобраться», — повторил он терпеливо.

Читать дальше →

+143

142

Rubcov Apr 4 at 13:42

Размышления о высококачественных данных, собранных людьми

Hard

19 min

4.3K

Machine learning*Natural Language Processing*Data Engineering*Magnus Tech corporate blog

Translation

Высококачественные данные — это «топливо» для современных моделей глубокого обучения. Большая часть данных, размеченных под конкретные задачи, создается живыми людьми — аннотаторами, которые занимаются классификацией или проводят RLHF-разметку для LLM alignment. Многие из представленных в этой публикации методов машинного обучения могут помочь улучшить качество данных, но главным остается внимание к деталям и скрупулёзность.

Сообщество разработчиков машинного обучения осознает ценность высококачественных данных, но почему-то складывается впечатление, что «все хотят работать над моделями, а не над данными» (Sambasivan et al. 2021).

Рисунок 1. Два направления обеспечения высокого качества данных.

Читать дальше →

+27

NewTechAudit Dec 27 2023 at 10:16

В поисках аномалии: одноклассовая классификация текстов с помощью расхождения Кульбака—Лейблера

Medium

9 min

2.5K

Information Security*Сбер corporate blogMachine learning*

Case

✏️ Technotext 2023

Привет, Хабр! На связи участница профессионального сообщества NTA Корсакова Елена.

Поиск аномалий в корпусе текстов является нетривиальной задачей, особенно если размечен набор данных только с аномальными текстами. При этом различия могут не бросаются в глаза — все тексты написаны на одном языке, да и стиль текстов схож: например, заявки, ошибочно попавшие не в ту очередь, нетипичные события в логах или письма от мошенников. В посте расскажу о решении данной задачи — одноклассовой классификация текстов, с помощью расхождения Кульбака—Лейблера.

+25

Hanamime Jan 16 at 16:10

Почему не любят продакт-менеджеров и как стать одним из них, если вы к этому готовы

Easy

5 min

8.7K

Сбер corporate blogDevelopment Management*Product Management*

Opinion

В IT-индустрии сложилось настороженное отношение к продакт-менеджерам. Бывает, что руководители проекта до последнего оттягивают найм своего первого продакта. Или команды мечтают, чтобы у них вообще его не было. Давайте разберём причины такого отношения, ключевые цели продакт-менеджера, расскажем о важности клиентов в его работе и завершим мини-планом по развитию в профессии.

nin-jin Apr 1 at 18:08

$mol — лучший мемогенератор во фронтенде

Easy

2 min

5.5K

Website development*ReactJS*$mol*

Retrospective

Recovery Mode

Здравствуйте, меня зовут Дмитрий Карловский и я... ради лулзов создал самый мемный фреймворк в индустрии.

Где мои доказательства?

-24

vasilisa_b Mar 28 at 10:46

Как при помощи нейросети восстанавливали обугленные свитки из Помпеи (угадайте, с каким контентом внутри)

13 min

21K

Результат одной из попыток физически развернуть обугленный свиток

С этими свитками из библиотеки в Геркулануме пошло не так абсолютно всё. Они на папирусе, который состоит из нескольких слоёв расплющенных и спрессованных тростниковых стеблей. Высушенный тростник легко воспламеняется. Температура пирокластических потоков, извергнутых Везувием, достигала 700 ᵒС, поэтому вот что вы видите на фото выше. Впрочем, манускриптам из Геркуланума ещё повезло: из-за высокой скорости движения и температуры газово-пепловых туч воздух из помещений, где они хранились, быстро вытеснился, и папирусы не сгорели, а обуглились.

Сверху у них — грязь селя. Дальше — выпавший из эруптивной колонны вулканический пепел. Получилась довольно прочная оболочка — это «запечатало» помещения, не дав воздуху и влаге окончательно добить бесценные рукописи, буквально законсервировав их почти на 2 000 лет.

Сами свитки очень хрупкие, и это затрудняет их изучение. Одно неловкое движение — и вместо папируса получится горстка пепла. Частично прочесть удалось только наиболее сохранившиеся, а это малая часть всей библиотеки.

Но сейчас удаётся восстановить часть контента с этих древних свитков. Кажется, нам достался самый популярный греческий контент — предметные инструкции, как радоваться жизни. Довольно прикладные.

Читать дальше →

+77

sawabear_a Mar 27 at 14:02

Управление цветами в Seaborn: как визуализировать данные красиво

Medium

20 min

9.3K

Python*Data visualization*PresentationsLamoda Tech corporate blog

Tutorial

Привет, Хабр. В этой статье я расскажу про своё видение работы с цветом при визуализации графиков. Буду показывать все на примерах — уверен, они вам понравятся.

Я покажу не только картинки было-стало, но и приведу примеры кода, а также объясню логику принятия решений: как использовать ту или иную палитру в конкретной задаче. И что самое главное, дам пошаговые советы, как сделать график логичнее и понятнее для заказчиков.

Меня зовут Саша, сейчас я работаю в Lamoda Tech старшим бизнес/дата-аналитиком. До этого я несколько лет был специалистом по данным в другой компании и регулярно представлял совету директоров анализ и прогноз физических и бизнес-показателей. Умение донести результаты исследования до заказчика, особенно если он не погружен в работу с данными — это важный аспект моей профессии. Надеюсь, моя статья с этим немного поможет.

+25

re9ulus Mar 19 at 10:00

Quantization Deep Dive, или Введение в современную квантизацию

Medium

16 min

18K

Programming*Яндекс corporate blogAlgorithms*Machine learning*Artificial Intelligence

✏️ Technotext 2023

Привет! Меня зовут Василий Землянов, я занимаюсь разработкой ML-инфраструктуры. Несколько лет я проработал в команде, которая делает споттер — специальную маленькую нейросетевую модельку, которая живёт в умных колонках Яндекса и ждёт от пользователя слова «Алиса». Одной из моих задач в этой команде была квантизация моделей. На пользовательских устройствах мало ресурсов, и мы решили, что за счёт квантизации сможем их сэкономить — так в итоге и вышло.

Потом я перешёл в команду YandexGPT. Вместо маленьких моделей я стал работать с очень крупными. Мне стало интересно, как устроена квантизация больших языковых моделей (LLM). Ещё меня очень впечатляли истории, где люди берут гигантские нейросети, квантизируют в 4 бита и умудряются запускать их на ноутбуках. Я решил разобраться, как это делается, и собрал материал на доклад для коллег и друзей. А потом пришла мысль поделиться знаниями с более широкой аудиторией, оформив их в статью. Так я и оказался на Хабре :)

Надеюсь, погружение в тему квантизации будет интересно как специалистам, так и энтузиастам в сфере обучения нейросетей. Я постарался написать статью, которую хотел бы прочитать сам, когда только начинал изучать, как заставить модели работать эффективнее. В ней мы подробно разберём, зачем нужна квантизация и в какой момент лучше всего квантизовать модель, а ещё рассмотрим разные типы данных и современные методы квантизации.

+81

SergioShpadi Mar 13 at 22:06

Смысл жизни с точки зрения программиста-буддиста

Easy

24 min

13K

Reading roomPopular science

Несколько лет тому назад я опубликовал на Хабре статью под названием "Буддизм с точки зрения программиста". Этот пост имел огромную популярность, читатели приняли его с большой теплотой. До сих пор я часто получаю от людей сообщения с благодарными отзывами на него и рассказами о том, как после прочтения этого текста поменялись их взгляды на жизнь.

С тех пор многое в моей жизни изменилось. В чём-то я поменял свой взгляд на мир, в чём-то напротив убедился ещё сильнее, в чём-то просто углубил своё понимание. Данный текст - это результат пройденного с момента публикации предыдущего поста пути духовных поисков, последовавших за некоторыми тяжелыми и отчасти трагическими событиями моей жизни. Хотя во многом тема текущего поста перекликается с темой предыдущего, его основная мысль отнюдь не в рассмотрении буддизма, а в поиске смысла жизни с точки зрения рационального ума программиста.

+51

130

slava_rumin Mar 11 at 18:00

Как я склеил картон и продал на маркетплейсах на 50 млн в год

Easy

8 min

292K

Start-up developmentBusiness Models*Lifehacks for geeks

Interview

В 2020-м мой работодатель начал прижимать меня по условиям, я забрал команду, снял склад и запустил свое производство когтеточек. Казалось бы, ничего сложного: закупаешь клей, картон, и находишь людей, которые 5 000 раз в день готовы повторять одни и ту же операцию. Но есть нюансы.

+243

295

boramorka Mar 11 at 11:31

Я написал бесплатную книгу для профессионалов в области AI (и не только)

Hard

2 min

17K

Machine learning*

From sandbox

Привет, Хабр! Меня зовут Никита Горячев, работаю в позиции AI/ML Engineer в Сбере. В мой скоуп входит работа с SOTA (state-of-the-art) алгоритмами в областях NLP и RecSys.

Книга написана в форме Guide Book с теоретическими и практическими заданиями. Ниже написал анонс в виде Q&A, чтобы вы на первых двух пунктах смогли понять, интересно ли вам.

Ссылка на книгу

+10

vgubaydulin99 Mar 7 at 18:30

Как за один pet-проект получить два диплома

Medium

12 min

23K

Python*Artificial IntelligenceDIY

From sandbox

✏️ Technotext 2023

Все же знают серию компьютерных футбольных симуляторов FIFA? Раньше я много играл в эту игру. Кто-то скажет, что это бесполезная трата времени, но я с этим не согласен. Эта игра вдохновила меня на разработку pet-проекта, который стал моим бакалаврским дипломом.

Во время игры в FIFA пользователь видит небольшую карту с местоположением игроков и мяча на поле, данный элемент интерфейса является очень полезной фичей, без которой невозможно представить полноценный игровой процесс. Мне показалось, что данную карту было бы неплохо перенести в реальный мир, используя видеозапись матча и нейросеть.

+61

mr-pickles Mar 4 at 12:37

Азы больших языковых моделей и трансформеров: декодер

Hard

14 min

7.3K

Python*Algorithms*Machine learning*Wunder Fund corporate blogArtificial Intelligence

Translation

В этом материале мы поговорим об устройстве компонента‑декодера в системах машинного обучения, построенных по архитектуре «трансформер», уделив особое внимание отличию декодера от энкодера. Уникальной особенностью декодеров является то, что они похожи на циклы. Они, по своей природе, итеративны, что контрастирует с линейными принципами обработки данных, на которых основаны энкодеры. В центре декодера находятся две модифицированные формы механизма внимания: механизм множественного внимания с маскировкой (masked multi‑head attention) и механизм множественного внимания энкодера‑декодера (encoder‑decoder multi‑head attention).

Слой множественного внимания с маскировкой в декодере обеспечивает последовательную обработку токенов. Благодаря такому подходу предотвращается воздействие последующих токенов на сгенерированные токены. Маскировка важна для поддержки порядка следования и согласованности сгенерированных данных. Взаимодействие между выходом декодера (из слоя множественного внимания с маскировкой) и выходом энкодера организовано с помощью механизма множественного внимания энкодера‑декодера. Этот последний шаг даёт декодеру доступ к входным данным.

Мы, кроме того, продемонстрируем реализацию этих концепций с использованием Python и NumPy. Мы создали простой пример перевода предложения с английского языка на португальский. Практическая демонстрация обсуждаемых здесь идей поможет проиллюстрировать работу внутренних механизмов декодера в трансформерах и позволит лучше понять роль декодеров в больших языковых моделях (Large Language Model, LLM).

+25

olegbunin Mar 1 at 12:00

Самый шерстяной волчара: тимлид с технической ролью и без

Medium

16 min

12K

Конференции Олега Бунина (Онтико) corporate blogDevelopment Management*Community management*Yandex Cloud & Yandex Infrastructure corporate blog

Tutorial

Извечный вопрос: должен ли тимлид обладать самой крутой технической экспертизой в команде? Споры будут идти ещё много тысячелетий, но где, как не в крупной компании, лучше в этом разобраться?

Сегодня поговорим о техническом лидерстве, где оно может лежать в команде разработки, обязательно ли это тимлид или всё-таки не обязательно. А поможет нам в этом Анастасия Абрашитова, руководитель службы инструментов репозитория в Yandex Infrastructure.

+35

3 4 ...

21 22