Articles / Bookmarks / Profile of eltardowut / Habr

Octocat Internetov @eltardowut^{read⁠-⁠only}

Python, backend, DS, ML

ProfileComments95Bookmarks16

Lakedemon Apr 6 at 07:15

Метод Монте-Карло в алгоритме обратного распространения ошибок с параллельными вычислениями

Medium

5 min

7.6K

Concurrent computing * Assembler * C++ *

From sandbox

Был проведён эксперимент для проверки, можно ли существенно уменьшить объём вычислений в алгоритме обратного распространения ошибок с параллельными вычислениями за счёт использования на каждом шаге обучения только части обучающих образцов, выбранных случайным образом, а также определение того, какой выигрыш по времени даст использование языка Ассемблера в самых внутренних циклах (в программе, написанной на языке C++).

За основу был взят классический персептрон и алгоритм обратного распространения ошибок, основанный на методе градиента, который объяснялся на курсе Mashine Learning Стэнфордского университета. Он был доработан, чтобы можно было использовать параллельные вычисления. Была написана программа на языке C++ для Linux, её функции (создание, обучение нейронной сети, распознавание данных, закачка больших файлов на сервер и т. п.) вызываются из программ, написанных на любых языках программирования, по протоколу Socket.

Для параллельных вычислений создаётся ntheads объектов нейронной сети, где ntheads — количество потоков (процессоров), в которые записываются части большого массива обучающих образцов, и на каждом шаге алгоритма обратного распространения ошибок совершается прямое и обратное распространение для каждого образца, имеющегося у объекта нейронной сети. Вычисления для каждого объекта производятся в отдельном потоке. Результатом этих вычислений являются суммарные градиенты слоёв сети каждого объекта, они суммируются друг с другом, и полученные градиенты используются для модификации матриц весов нейронной сети, которые затем прописываются во все слои сети объектов нейронной сети.

Mark_K Dec 3 2023 at 14:01

Оцениваем RAG-пайплайны

4 min

10K

Machine learning *

RAG (Retrieval Augmented Generation) - это популярный подход, объединяющий извлечение данных из баз и генерацию текста, позволяя моделям AI давать ответы на вопросы, основанные на информации, которую они не видели в процессе обучения. Важным этапом в развитии RAG является его эффективная оценка, и именно здесь на сцену выходит RAGAS (Retrieval Augmented Generation Automated Scoring) - метод автоматизированной оценки, который позволяет не только оценить качество ответов, но и анализировать процесс генерации в деталях.

Mark_K May 4 2023 at 08:30

LangChain для бывалых: память и агенты. часть 1

Medium

5 min

17K

API * Machine learning * Artificial Intelligence

Tutorial

В своей предыдущей статье я написал о многообещающем фреймворке LangChain. Туториал был достаточно коротким; удалось охватить только самые базовые концепции проекта (и то не все). В этой части предстоит более глубокое погружение. Разберемся, как можно добавить память в диалоги с LLM, а также задействуем мощь агентов.

Mark_K May 10 2023 at 09:21

LangChain для бывалых — память и агенты. часть 2

Medium

9 min

9.9K

API * Machine learning * Artificial Intelligence

Tutorial

Добро пожаловать во вторую часть статьи о фреймворке LangChain.

В этой части мы перейдем к более продвинутым возможностям агентов и узнаем, как использовать их для работы с собственной базой данных и моделирования.

Mark_K May 18 2023 at 06:08

LangChain для бывалых: создаем свои инструменты

Medium

5 min

11K

Machine learning * Artificial Intelligence

Tutorial

Сегодня попробуем разобраться в инструментах(Tool). Инструменты являются исполнительной частью агента, которая как раз и добавляет языковой модели дополнительную функциональность. Например, LLM может наврать в базовых арифметических операциях, и лучше доверить вычисления калькулятору. В этот момент и приходит на помощь tool. В самом фреймворке уже есть готовые реализации для популярных задач, но они, естественно, не могут покрыть весь спектр потребностей, поэтому разработчики предусмотрели создание пользовательских типов.

Keithla Dec 30 2022 at 11:46

Пишем FastAPI с нуля на python

19 min

114K

Python * API *

Tutorial

FastAPI — это современная, быстрая (высокопроизводительная) веб-инфраструктура для создания API-интерфейсов с Python 3.7+ на основе стандартных подсказок типов Python.

В этой статье мы рассмотрим как написать его с нуля.

+11

Extremesarova Feb 21 2024 at 13:33

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Medium

14 min

34K

МегаФон corporate blogPython * SQL * Algorithms * Big Data *

Roadmap

✏️ Technotext 7

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Deleted-user Mar 14 2024 at 21:03

Надежный обход блокировок в 2024: протоколы, клиенты и настройка сервера от простого к сложному

Medium

46 min

358K

Configuring Linux * Information Security * System administration * Network technologies *

Tutorial

Поскольку блокировки интернета в РФ в последние недели и месяцы многократно активизировались, а маразм все крепчает и крепчает, стоит еще раз поднять тему обхода этих самых блокировок (и делаем ставки, через сколько дней на эту статью доброжелатели напишут донос в РКН чтобы ограничить к ней доступ на территории страны).

Вы, наверняка, помните отличный цикл статей на Хабре в прошлом году от пользователя MiraclePtr, который рассказывал о разных методах блокировок, о разных методах обхода блокировок, о разных клиентах и серверах для обходов блокировок, и о разных способах их настройки (раз, два, три, четыре, пять, шесть, семь, восемь, десять, десять, и вроде были еще другие), и можете спросить, а зачем еще одна? Есть две основные причины для этого.

+489

379

egaoharu_kensei Mar 8 2024 at 19:01

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Hard

34 min

55K

Python * Data Mining * Algorithms * Machine learning * Artificial Intelligence

Tutorial

✏️ Technotext 2023

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

+36

SofiaSazonova Jan 29 2024 at 16:33

Python Multiprocessing. Обмен данными между процессами. Передача объектов пользовательских классов

Hard

15 min

36K

Python * Concurrent computing *

Tutorial

Параллельное программирование — сложный, но очень полезный навык для программиста. Оно позволяет эффективно использовать мощности современных компьютеров с несколькими ядрами и процессорами. Это особенно важно при решении сложных задач, например, в инженерных расчетах, обработке мультимедийных данных, обучении нейросетей и многом другом.

Модуль Multiprocessing позволяет использовать так называемый истинный параллелизм, то есть создавать процессы, которые выполняются полностью независимо друг от друга.

В этом случае процессы не имеют общей памяти и не могут просто так читать и изменять одни и те же переменные. Конечно же, в модуле multiprocessing реализован нативный способ передавать данные между процессами, и даже не один. Однако как только мы отходим от встроенных типов данных, то готовые решения уже не работают.

О том, как с этим обходиться, я и расскажу в этой статье.

+19

Dross0 Dec 19 2023 at 07:59

Идемпотентность: больше, чем кажется

Easy

10 min

80K

Домклик corporate blogDesigning and refactoring * Website development * Java * API *

Tutorial

Друзья, всем привет! Идемпотентность в проектировании API — не просто формальность. Это свойство, часто рассматриваемое как способ получения одинакового ответа на повторяющийся запрос, на самом деле означает гораздо больше...

Читать дальше →

+32

CodeDroidX Sep 12 2023 at 13:00

Визуальное RPG с долговременной памятью, генерируемое из 3 нейросетей и LLamы

Easy

17 min

19K

RUVDS.com corporate blogNatural Language Processing * Python * Artificial IntelligenceMachine learning *

Tutorial

Языковые модели (NLP) сейчас активно развиваются и находят себе всё больше интересных применений. Начиналась же их эпоха с классики жанра — D&D. Это настольная игра, где несколько друзей или просто знакомых синхронно галлюцинируют, представляя себя командой героев в некоем вымышленном мире. Прав же во внутриигровых выборах тот, кто выкинул большее число на игральной кости. Судить сейчас об их мотивации у меня нет никакого желания, да и статья вообще-то не об этом.

Важно только понимать, что движущей силой сюжета в их сессиях является лишь один из игроков, называемый Dungeon Master. Когда только начали появляться первые GPT-модели, одной из первых хотелок гиков оказалось желание сварить из нейросетей автоматического Dungeon Masterа.

Так и появился AIDungeon — уникальная для своего времени (2019 год) вещь, которая не сильно потеряла в популярности и по сей день. Однако, если вы любите смотреть глубже, то играть в него вам быстро надоест. Я же в своей серии из нескольких статей (посвящённых GPT) стараюсь показать простому обывателю механизм безболезненного использования нейросетевых моделей в простых проектах при помощи Python и Hugging Face Transformers.

Приступим

+64

GolovinDS Sep 12 2023 at 14:22

Моделирование биологических явлений с помощью Python

Medium

15 min

9.4K

OTUS corporate blogPython * BiologyData visualization * Programming *

Opinion

Автор статьи: Артем Михайлов

Моделирование биологических явлений позволяет нам лучше понимать и прогнозировать поведение живых систем, начиная от популяционных динамик до молекулярных взаимодействий. Биологические явления нередко слишком сложны, чтобы быть полностью понятыми на интуитивном уровне, и моделирование предоставляет нам мощный инструмент для их анализа.

Моделирование биологических систем позволяет ученым исследовать разнообразные аспекты биологии, такие как динамику популяций, структуру генных сетей, взаимодействие молекул внутри клеток и многое другое. Это полезно не только в фундаментальных исследованиях, но и в практических областях, таких как медицина, сельское хозяйство и экология.

Читать дальше →

+12

koshkinoko Feb 1 2023 at 07:50

Как определить размер выборки для бутстрэпа старым дедовским способом

13 min

16K

Lamoda Tech corporate blogStatistics in ITProduct Management * Mobile App Analytics * Mathematics *

Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda. Как и во многих других продуктовых компаниях, решения о том, раскатывать ли новую фичу, принимаются в Lamoda на основе данных, в частности на основе результатов A/B-тестирования.

Бутстрэп — один из популярных методов обработки результатов тестов. В этой статье я расскажу о том, каким образом можно определить размер выборки при расчете результатов A/B-теста с помощью бутстрэпа.

+28

ligofff Apr 11 2023 at 09:29

Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом

Easy

6 min

243K

Machine learning * Artificial Intelligence

Tutorial

From sandbox

--- Обновление статьи 9 Августа 2023 ---

В течении последнего полугода в сфере текстовых нейронок всё кипит - после слитой в сеть модели Llama, aka "ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен, а хорошие по мощности нейронки можно запускать локально.

Основная проблема в том, что всё это требует глубоких технических знаний.

Но в этой статье я расскажу, как запустить добротную нейросеть на домашнем ПК с 16ГБ ОЗУ в несколько кликов. Буквально в несколько кликов - копаться в консоли не придётся.

+142

183

Monotirg Nov 30 2022 at 18:02

Почему умножение матриц такое

Easy

3 min

67K

Mathematics *

Наверное, каждый задавался вопросом, почему умножение матриц такое. В этой статье мы разберём из каких соображений оно вводится именно так.

+75

149