Articles / Bookmarks / Profile of resetme / Habr

@resetme^{read⁠-⁠only}

Скромный пастух нулей и единиц…

ProfileComments196Bookmarks884

Lithium_vn Oct 19 2023 at 09:00

Как Guidance выводит ИИ на новый уровень: инструмент для эффективного управления моделями

Medium

5 min

3.3K

BotHub corporate blogWebsite development*Python*Programming*Machine learning*

Review

В последнее время наблюдается стремительный прогресс в сфере обработки естественного языка. Появление мощных языковых моделей вроде GPT и Bard действительно открыло новые возможности для создания интеллектуальных приложений. Однако вместе с тем мы столкнулись с необходимостью более совершенных инструментов для эффективной интеграции и управления такими моделями.

И вот недавно компания Microsoft представила Guidance - язык управления, предназначенный для контроля над большими языковыми моделями. По нашему мнению, этот инструмент может существенно изменить процесс разработки приложений на основе возможностей AI.

В данной статье мы хотели бы поближе познакомиться с его особенностями и разобраться, что же это за "зверь". Надеемся, эта информация будет полезна для разработчиков, исследователей и организаций, которые активно работают над совершенствованием контроля поведения LLM.

Приглашаем к прочтению!

denis_afanasyev Oct 19 2023 at 14:25

Решение школьных задач по химии в Python

Easy

5 min

14K

Python*Chemistry

Tutorial

^{Изображение от rawpixel.com}^{на Freepik}

Я попробовал решить несколько простых школьных задач по химии в Python с помощью библиотек mendeleev, chemlib и chempy, в том числе несколько заданий из ОГЭ и ЕГЭ.

к задачам

+15

pestich Oct 20 2023 at 11:41

Классификация текстов в spaCy: пошаговая инструкция

Easy

5 min

6.3K

Python*Machine learning*

From sandbox

Вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку данных.

MaxRokatansky Oct 23 2023 at 14:55

Малоизвестные библиотеки Python для анализа данных, которые сделают вашу жизнь проще

Medium

14 min

31K

OTUS corporate blogPython*Data visualization*

Review

Привет Хабр! В этой статье мы рассмотрим некоторые полезные библиотеки Python для задач обработки данных, с которыми, возможно, вы еще не знакомы. Хотя для задач машинного обучения на ум приходят такие библиотеки, как pandas, numpy, scikit-learn, keras, tensorflow, matplotlib и т.д., но всегда полезно знать о других предложениях Python, особенно если это поможет улучшить ваши проекты.

+20

badcasedaily1 Oct 23 2023 at 15:46

Как применять метод PCA для уменьшения размерности данных

Medium

9 min

23K

OTUS corporate blogAlgorithms*Machine learning*Python*

Review

Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений. Сегодня мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

+15

janvarev Oct 18 2023 at 11:19

Сайга-Мистраль — третья русская нейросеть после YaGPT и GigaChat, публично доступная по API

5 min

30K

Self Promo

Я уже недавно писал на Хабре, что понемногу пилю свой сервис VseGPT с доступом по OpenAI API и чатом к различным нейросетям - ChatGPT, Claude, LLama и пр. (Коротко: потому что вендорлок - зло, разнообразие и опенсорс - добро)

Большая часть работы - это, конечно, роутинг запросов на разные сервера, которые осуществляют обработку нейросетевых моделей; свой у меня скорее общий универсальный интерфейс, который сглаживает разницу между моделями, ну и некоторые прикольные фишечки.

Но я давно задумывался развернуть что-то уникальное, собственное, чего нет у других - в особенности опенсорсную Сайгу.

TLDR: Сайга-Мистраль 7B сравнима с 70B моделью. Доступна на сайте, её можно использовать по API или через интерфейс чата.

+18

akocherovskiy Oct 16 2023 at 07:02

LLM как оптимизатор для задачи линейной регрессии

Medium

7 min

Programming*Mathematics*Artificial IntelligenceMachine learning*Natural Language Processing*

From sandbox

В сентябре 2023 года инженеры из гугла выпустили статью "Large Language Models as Optimizers" об использовании LLM в качестве оптимизаторов.

Ниже мы рассмотрим, как языковая модель Mistral-7B-Instruct на основании текстовых инструкций справится с задачей линейной регрессии.

+15

den4ik_084720 Oct 15 2023 at 13:54

Проблема омографов в ударениях и как я ее решал

Easy

8 min

18K

Open source*Machine learning*Natural Language Processing*

Меня зовут Денис (tg: @chckdskeasfsd), и это история о том почему в опенсурсе нет TTS с нормальными ударениями и как я пытался это исправить.

+64

guinmoon Oct 10 2023 at 18:30

LLaMA 2, RWKV, Santacoder и другие LLM на iOS

Medium

11 min

Artificial IntelligenceMachine learning*Development for MacOS*Development for iOS*

Однажды я решил изучить язык Swift и разработать свое первое приложение для iOS. Для этого я решил создать реальный проект, который заключался в оптимизации нашумевшего LLaMA.cpp под iOS. Я поставил перед собой задачу обеспечить запуск 3B и 7B моделей на iPhone 12 Pro с приемлемой скоростью. Под «приемлемой» скоростью я имею в виду такую, чтобы пользователь не успевал заскучать, читая предсказанный текст, пока генерируется новая часть. Что из этого получилось (и какие трудности были при реализации) читайте в статье.

+21

olegtsss Oct 10 2023 at 13:00

Как начать работать с IPv6 там, где его нет (часть 2)

Medium

8 min

13K

RUVDS.com corporate blogIPv6*IT Infrastructure*Network technologies*

Tutorial

В настоящее время основным подходом к внедрению IPv6 является dual-stack, когда устройство одновременно настроено на функционирование обоих IP-протоколов. Это и понятно, ведь основная часть интернета работает на версии IPv4. Механизм 6to4 позволяет подключить ваше устройство IPv4 к брокеру, создав туннель в IPv6.

В первой части цикла статей показана настройка облачного маршрутизатора на routeros. В текущем материале продолжим раскручивать полученное решение, а затем перенесём соединение с брокером на Linux. Но сначала отдельно поговорим о сетевой безопасности подключаемого к IPv6 оборудования. Для понимания происходящих процессов рекомендуется ознакомиться с предыдущей статьёй, так как с целью исключения болтологии вводный материал повторяться не будет.

Читать дальше →

+53

Tituch Oct 10 2023 at 08:00

О точности вычислений: как не потерять данные в цифровом шуме

7 min

Криптонит corporate blogProgramming*Big Data*Mathematics*GitHub*

Специалист отдела перспективных исследований компании «Криптонит» Игорь Нетай изучил процесс потери точности вычислений и написал библиотеку, доступную на GitHub, которая помогает разработчикам контролировать точность расчётов на каждом этапе вычислений. Данная библиотека особенно актуальна в сфере машинного обучения и анализа (больших) данных, где накопление ошибок может сильно искажать результат.

+20

YarIkGU Oct 8 2023 at 12:52

Поиск информации в интернете: Google и DuckDuckGo — часть 1

Easy

4 min

25K

Search engines*

Digest

Знанием как искать информацию в интернете владеют многие люди. Но не все знают как делать это более эффективно. В этой статье я расскажу о том, как эффективнее работать в Google и DuckDuckGo.

+16

efreelancer Oct 8 2023 at 17:40

Дообучение ruGPT-3.5 13B с LoRA

Medium

10 min

24K

Natural Language Processing*Artificial IntelligenceMachine learning*Programming*

Tutorial

Добрый день, уважаемые читатели и авторы Хабра!

Сегодня я рад представить вам подробное руководство по обучению модели ruGPT-3.5 13B с использованием датасетов модели Saiga-2/GigaSaiga, технологии Peft/LoRA и технологии GGML. Эта статья призвана стать полезным и практичным ресурсом для всех, кто интересуется машинным обучением, искусственным интеллектом и глубоким обучением, а также для тех, кто стремится глубже понять и освоить процесс обучения одной из самых мощных и перспективных русскоязычных моделей.

В данной публикации мы разберем каждый этап обучения модели, начиная от подготовки данных и заканчивая конвертацией в формат GGML. Буду рад, если мой опыт и знания помогут вам в вашем исследовании и экспериментах в этой захватывающей области!

+30

amsakhnov Sep 27 2023 at 13:10

Определяем оптимальный размер групп при множественном А/Б тестировании

3 min

13K

X5 Tech corporate blogStatistics in ITPython*Mathematics*

✏️ Technotext 2023

Привет, Хабр! В этой статье мы затронем один из аспектов множественного тестирования, а именно определение оптимальных размеров групп в случае общей контрольной группы. Докажем теоретически, что предлагаемый способ является оптимальным и сравним его с другими популярными подходами.

PashaPodolsky Oct 4 2023 at 06:25

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Medium

9 min

24K

IPFS*The future is hereDistributed systems*Reading roomSearch engines*

Review

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

Во-первых, это прекрасно

Во-вторых...

+54

ru_vds Oct 4 2023 at 13:00

Извлечение текста из файлов PDF при помощи Python

Medium

15 min

76K

RUVDS.com corporate blogData storage*Algorithms*Python*PDF

Tutorial

Translation

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.

Читать дальше →

+53

Atakum Oct 4 2023 at 13:40

Поиск внеземных цивилизаций с помощью спутниковой тарелки

Easy

4 min

6.1K

Development of communication systems*GadgetsWireless technologies*Astronomy

From sandbox

Спутниковые антенны с конвертерами Ку-диапазона совместно с приемниками RTL-SDR, иначе называемыми Dongle, можно использовать для различных занимательных экспериментов. В том числе приема на компьютер сигналов спутникового телевидения, маяков и параметрической информации со спутников Starlink и даже для поиска внеземных цивилизаций.

Для этого, кроме компьютера, тарелки, конвертера и приемника RTL-SDR, понадобится кабель, несколько F-разъемов, блок питания на 12 вольт и переходник для питания конвертера Bias-T. Последний можно сделать самому из дросселя и конденсатора. В дальнейшем можно будет добавить тональный генератор на 22 кгц для включения второго гетеродина верхней части поддиапазона и блок питания на два напряжения 12 и 18 вольт для приема сигналов с разной поляризацией.

+27

kmeans Sep 29 2023 at 07:00

Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации

6 min

12K

Яндекс corporate blogMachine learning*Open data*Algorithms*Open source*

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

+38

CyberexTech Sep 28 2023 at 09:06

Как я делал солнечную зарядку для своего моноколеса и вот что получилось

Easy

7 min

16K

Java*Development of mobile applications*Manufacture and development of electronics*Electronics for beginners

From sandbox

Получилось так, что с недавнего времени я обзавелся личным электротранспортом, который называется моноколесо. Долго я шел к этому, но все же решился и ни о чем не жалею, даже наоборот, испытываю полный восторг от поездок на этом сногсшибательном транспорте. А еще очень люблю поездки на природу, а езда на моноколесе умножают эту любовь на 100500. Но есть одно «НО», и об этом далее...

+99

gag_fenix Sep 22 2023 at 10:51

Произносим термины IT правильно

Medium

3 min

56K

VK corporate blogProgramming*IT TerminologyStudying in IT

Tutorial

Наша отрасль изобилует словами из английского языка. Но надо помнить, что после русификации произношение слова часто становится совершенно не похоже на оригинал.

Чтобы больше не ставить англоязычных коллег в тупик на зум-коллах, мы попросили нашего коллегу Адама Дэйли озвучить произношение терминов, в которых русскоговорящие специалисты часто делают ошибки.

+64

229

1 2 ...

16 17

19 20 ...

43 44