Articles / Bookmarks / Profile of ideological / Habr

@ideological

Интересуюсь природой вещей

ProfileArticlesPostsNewsComments340

veseluha Mar 12 2024 at 14:30

Пишем чат-бот для работы с PDF

7 min

9.9K

BotHub corporate blogPython*PDFMachine learning*Artificial Intelligence

Tutorial

Популярность языковых моделей, в частности ChatGPT, растет в геометрической прогрессии, но многие из нас все еще сталкивается с определенными ограничениями, такими как устаревшая информация, которые OpenAI пока что не смогла преодолеть.

Но задумывались вы над тем, чтобы задавать вопросы непосредственно из своих документов, хранящихся в облаке? Сохраните своё время, которое уходило бы на поиски и ручной мониторинг сайтов, и задействуйте автоматизацию при работе с PDF-документами. Если вас занимает такая перспектива, эта статья окажется для вас ценным ресурсом.

Мы можем избежать риска недостоверных данных в ChatGPT, внедрив работу модели через RAG. В нашем материале мы подробно объясним, как создать чат-бота для взаимодействия с документами из вашего хранилища с помощью LangChain.

Приступим (:

+13

Erwinmal Mar 9 2024 at 10:00

Первое пришествие айтишниц: почему в 50-х годах в программировании женщин было больше, чем в нулевые?

Easy

12 min

12K

RUVDS.com corporate blogBiography of geeksHistory of ITReading room

Retrospective

В наши дни середины 2020-х женщинами в IT трудного кого-то удивить. Шутки насчёт девушек-программисток рубежа нулевых и десятых годов уже стали анахронизмом — но ещё не так давно компьютерная среда считалась делом суровых ~~бородатых~~ мужиков-гиков, а любая тян глубоко в компьютерной теме воспринималась в качестве удивительной аномалии. Казалось бы, в ещё более старые времена всё в сфере IT было ещё более однозначно. Ан нет: на заре компьютерной эпохи, в США 60-х годов, многие вакансии в сфере цифровых технологий считались едва ли не типично женскими, на уровне машинисток или телеграфисток. Как это случилось, и почему затем компьютеры на несколько десятилетий превратились в мужское царство?

Читать дальше →

+52

andreika_big Mar 6 2024 at 13:30

Как концентрация на результате мешает вам жить

Easy

5 min

8.4K

Brain

From sandbox

Для многих не является открытием то, что процесс куда важнее, чем окончательный результат, хотя бы потому, что результат может не совпадать с вашими ожиданиями. Однако концентрироваться на процессе сложно в связи с заложенными в нас предустановками. В данной статье рассказывается о том, как можно бороться с данной проблемой, сводя к минимуму негативные последствия.

+11

dmitrybaltin Mar 5 2024 at 19:04

Почему художники не любят нейросети и как это решить

Easy

10 min

6.5K

Artificial IntelligenceGraphic design*Image processing*Working with 3D-graphics*

Opinion

Взрыв популярности нейросетей вызвал встречную волну хейта со стороны художников. И, вроде, уж прошло некоторое время, и теперь мы видим, что нейросети - это вовсе не волшебство, и вовсе не заменяют художников, а дополняют, и художники по прежнему востребованы. Мы видим, что эта волшебная кнопка не совсем волшебна - она рисует что-то необычное, иногда красивое, но создать при помощи нее образ из своей головы ох как не просто.

Однако неприязнь художников остается значительной, и неверно думать, что это всего лишь боязнь конкуренции, неолуддизм и нежелание развиваться.

В чем причина этой проблемы, надо ли ее решать и как решить. Об этом настоящая статья.

+15

gregyku Mar 6 2024 at 14:38

Страшный сон астматиков и экоактивистов: что происходит с бездымным бытовым топливом на основе угля

Medium

10 min

2.8K

Online patent corporate blogChemistryEcologyPatenting*

Review

Экологическая повестка все больше и больше давит на компании и различные организации по всему мира. Тем не менее, об отказе от угля пока что и речи не идет. В этом материале мы подробно рассмотрим бытовой уголь, которые частные домохозяйства по всему миру используют для обогрева. И не только они, вспомним те же вокзалы и обогреваемые пассажирские железнодорожные вагоны, оборудованные титанами.

GidraVydra Mar 3 2024 at 10:18

Теория химического строения. Ликбез. Часть 1

Easy

6 min

7.6K

Chemistry

Приветствую всех айтишников и технарей. Не беспокойтесь, серию про ЯМР я не бросил, и обязательно её закончу. Однако ~~пися пиша~~ готовя очередную статью, посвященную возможностям метода, я столкнулся с тем, что описать и объяснить эти самые возможности можно только человеку, который понимает как устроена молекула. Таких людей на Хабре (да и в целом по жизни) не так много, а мне хотелось бы адресовать свои посты относительно широкой аудитории. Ничего подобного, как ни странно, я на Хабре не нашел, поэтому деваться некуда, придется наваять про это отдельный пост.

+30

AzamatKomaev Feb 27 2024 at 17:06

Ansible + Grafana Loki: Настраиваем отправку уведомлений в чат после логина на сервер по SSH

Medium

19 min

15K

DevOps*Server Administration*IT Infrastructure*Information Security*

Tutorial

Не задумывались ли вы когда-нибудь над тем, чтобы знать о каждом входе на ваши сервера? Меня охватила такая же паранойя: а вдруг, когда я сплю, на мой сервер заходит домовой и творит там ужасы? Хотя логин на наши сервера и запрещен по паролю, а SSH-ключи есть только у меня, в любом случае это вызывает большие опасения.

В этой статье мы развёрнем через Terraform несколько серверов в Yandex.Cloud, а затем при помощи Ansible настроим необходимый софт на каждом сервере. У нас будет основной сервер c Loki (система агрегирования логов) и Grafana (инструмент для визуализации данных), на серверах, которые мы хотим отслеживать, будет установлен Promtail (агент для сбора и отправки логов). Мы разберёмся с тем, как отслеживать входы на сервер, а затем в удобном формате отправлять об этом уведомления в чат с помощью вышеуказанных сервисов.

+15

shepard_one Feb 22 2024 at 12:31

Как я опираюсь на инженерный подход в вопросе своего долголетия

Easy

6 min

24K

HealthLifehacks for geeks

From sandbox

Если вы не курите, не занимаетесь экстремальными видами спорта и не переписываетесь за рулём, то с 80% вероятностью вы умрёте от развития и последствий следующих четырёх (в порядке смертоносности) проблем. Или, как Питер Аттия в своей книге Outlive, красочно и устрашающе назвал их «Четырьмя всадниками смерти» (The Four Horsemen).

+57

ArtemEvstafev Feb 24 2024 at 16:59

Использование теории игр для повышения прозрачности моделей машинного обучения

Medium

7 min

6.1K

Mathematics*Machine learning*Artificial Intelligence

Интерпретация современных моделей машинного обучения может быть чрезвычайно сложным делом учитывая, что количество параметров и весовых коэффициентов может идти на тысячи и даже миллионы. Тем не менее это совершенно необходимо, для повышения качества, обеспечения стабильности и предсказуемости работы модели. В этом нам может помочь теория игр, математическая дисциплина позволяющая выделить из сложного взаимодействия факторов модели отдельный вклад каждого в конечное предсказание.

PatientZero Feb 12 2024 at 07:53

Как языковая модель предсказывает следующий токен (часть 1)

27 min

8.4K

Algorithms*Mathematics*Machine learning*Artificial Intelligence

Tutorial

Translation

Я обучил небольшой (порядка 10 миллионов параметров) трансформер по превосходному туториалу Let’s build GPT: from scratch, in code, spelled out Андрея Карпати. После того, как он заработал, я захотел максимально глубоко понять, как он устроен внутри и как создаёт свои результаты.

В исходной научной статье, как и во всех туториалах по трансформерам упор в основном делается на многоголовом самовнимании, — механизме, при помощи которого трансформеры обучаются множественным взаимосвязям между токенами, не используя рекурретности или свёртку. Ни в одной из этих статей или туториалов я не нашёл удовлетворительного объяснения того, что происходит после внимания: как конкретно результаты вычисления внимания превращаются в точные прогнозы следующего токена?

Я подумал, что могу пропустить несколько примеров промтов через обученный мной небольшой, но работающий трансформер, изучить внутренние состояния и разобраться в них. То, что казалось мне быстрым исследованием, оказалось полугодовым погружением, но дало результаты, которыми стоит поделиться. В частности, у меня появилась рабочая теория, объясняющая, как трансформер создаёт свои прогнозы, и эмпирические свидетельства того, что это объяснение, по крайней мере, правдоподобно.

Если вы знакомы с трансформерами и хотите сразу узнать вывод, то он таков: каждый блок трансформера (содержащий слой многоголового внимания и сеть с прямой связью) изучает веса, связывающие конкретный промт с классом строк, найденных в обучающем корпусе. Распределение токенов, соответствующее этим строкам в обучающем корпусе, и есть приблизительно то, что блок выводит как прогноз для следующего токена. Каждый блок может ассоциировать один и тот же промт со своим классом строк обучающего корпуса, что приводит к другому распределению следующих токенов, а значит, и к другим прогнозам. Окончательный результат работы трансформера — это линейное сочетание прогнозов каждого блока.

+27

kmoseenk Feb 12 2024 at 11:11

Когнитивные искажения, о которых стоит помнить

15 min

97K

OTUS corporate blogBrain

Translation

Из-за когнитивных искажений мы иногда принимаем иррациональные решения, а также выносим суждения на основе информации, которую мы обрабатываем. Фактически, когнитивные искажения — это запрограммированная ошибка в нашем мозге.

Также их можно представить как простые правила, которым следует мозг, чтобы обрабатывать поступающую информацию с минимальными затратами.

Когнитивных искажений существует большое множество, и о них полезно знать. В этой статье мы сделаем обзор 151 искажения, которые часто встречаются в повседневной жизни: как в личной, так и в профессиональной.

+80

OlegSivchenko Feb 12 2024 at 20:02

Минималистическая модель живой клетки в браузере

8 min

3.9K

BiologyChemistryPopular scienceAlgorithms*

Translation

Вы когда-нибудь задумывались, как действуют клетки — элементарные единицы живой материи? Я программист, но одновременно увлекаюсь клеточной биологией. Поэтому я решил смоделировать работу простейшей клетки на TypeScript. Вообще, клетки невероятно сложны; по оценкам учёных, человеческая клетка в среднем содержит 100 триллионов атомов. По-прежнему очень мало известно о том, как все эти биомолекулы взаимодействуют в клетке, поэтому в точности смоделировать работу клетки невозможно.

Размышляя на эту тему, я нашёл статью Fundamental behaviors emerge from simulations of a living minimal cell (Фундаментальные виды поведения возникают на основе моделирования простейшей живой клетки). Опираясь на кинетические параметры, авторы статьи создали модель взаимодействия молекул и химических реакций между ними в простейшей известной клетке. Затем эта симуляция запускается, и на её основе можно наблюдать такие процессы как репликация ДНК, метаболизм и синтез белков.

+13

Squirrelfm Jan 29 2024 at 04:59

Просто о Stable Diffusion: никакой магии

Easy

15 min

14K

Raft corporate blogMachine learning*Artificial Intelligence

Tutorial

Если вы не провели последние два года на ферме в Сибири, вы, вероятно, слышали о Stable Diffusion или пробовали генерировать изображения с помощью моделей, вроде Dall-e или Midjourney. Они становятся все лучше каждый день, и по качеству уже сравнимы с людьми, а во многих аспектах даже лучше (например, им не нужно платить).

Исследования в области создания видео уже идут полным ходом во многих лабораториях и компаниях, так что это лишь вопрос времени, когда генеративные модели сместят людей с очередного столпа на котором держится наше общества — порно. Я не вижу чтобы кто то поднимал тревогу об огромном количестве людей, которые потеряют работу из-за этого. Я не такой бессердечный, поэтому, прежде чем наступил этот печальный момент, я решил принять меры и создать базовое руководство, которое даже работник индустрии для взрослых сможет понять и использовать, чтобы оставаться в игре. Давайте посмотрим, что к чему.

+34

mr-pickles Oct 4 2021 at 11:24

Перплексия в языковых моделях

10 min

24K

Wunder Fund corporate blogProgramming*Algorithms*Mathematics*Natural Language Processing*

Translation

В этом материале я хочу сделать подробный обзор такого понятия, как «перплексия» («коэффициент неопределённости»), так как оно применяется в обработке текстов на естественном языке (Natural Language Processing, NLP). Я расскажу о двух подходах, которые обычно используются для определения этого понятия, и о тех идеях, которые лежат в основе этих подходов.

+27

timonin Jan 25 2024 at 15:43

InstantID: Создание персонализированных изображений по одному фото. И лучший бесплатный генератор нейро-аватарок

Easy

8 min

27K

DesignArtificial IntelligenceThe future is here

Review

Друзья, всем привет, вышла в свет новая удивительная технология, на гите она подписана как InstantID : Zero-shot Identity-Preserving Generation in Seconds. Но по факту это самый крутой генератор аватарок в мире, который по одной лишь вашей фотографии может создать персонализированное изображение с вашим лицом в любом стиле по текстовому запросу используя SDXL модели Stable Diffusion. Так что к концу этой статьи, у вас так же как и у меня будет десяток новых аватарок и совершенно бесплатно.

В статье много красивых и тяжелых картинок.

+44

Clickru Sep 24 2019 at 10:38

Работа с семантикой, ссылками и парсинг веб-страниц: 16 полезных формул Google Sheets для SEO-специалистов

9 min

25K

Click.ru corporate blogInternet marketing*Contextual advertising*Search engine optimization*

Работа с семантикой, ссылками и парсинг веб-страниц: 16 полезных формул Google Sheets для SEO-специалистов

SEO — это рутина. Иногда приходится делать совсем тоскливые операции вроде удаления «плюсиков» в ключевых словах. Иногда — что-то более продвинутое вроде парсинга мета-тегов или консолидации данных из разных таблиц. В любом случае все это съедает тонны времени.

Но мы не любим рутину. Предлагаем 16 полезных функций Google Sheets, которые упростят работу с данными и помогут вам высвободить несколько рабочих часов или даже дней. (Уверены, о существовании некоторых функций вы не догадывались).

muxeu Dec 28 2023 at 10:31

Многорукие бандиты в задаче ритейла

9 min

X5 Tech corporate blogMachine learning*Mathematics*Algorithms*

Review

В настоящее время набирают популярность модели Reinforcement Learning для решения прикладных задач бизнеса. В этой статье мы рассмотрим подмножество этих моделей, а именно многоруких бандитов (multi-armed bandits). Также мы:

- обсудим, какие задачи теоретически могут быть решены с помощью этих моделей;
- рассмотрим некоторые популярные реализации моделей многоруких бандитов;
- опишем симулятор ценообразования, применим эти алгоритмы в нём и сравним их эффективность.

Amareis Jan 3 2024 at 06:16

Маг молний

Easy

4 min

5.3K

Abnormal programming*Programming*Physics

Opinion

✏️ Technotext 7

Когда-нибудь задумывались над тем, чем, в сущности, является программирование?

Случилось так, что я показывал коллегам дуговую зажигалку и удивлялся что про них в принципе мало кто знает (с другой стороны я и сам о них не знал, пока не подарили). Ну и обронил при этом фразу "Вроде бы это даже моя сфера, но не знал", на что мне резонно заметили что как бы физика электричества от программирования далека. И в целом это так, но с другой стороны...

+13

finindie Dec 26 2023 at 15:28

Как я сделал табличку, которая является готовой инвестиционной стратегией

Easy

8 min

26K

Finance in ITReading room

В этом посте я расскажу, как я придумал себе инвестиционную стратегию, которая очень эффективно работает вот уже шестой год. Я также попытаюсь разобраться, с чем связан "феномен таблички": почему сделанный на коленке инструмент вдруг начали использовать тысячи человек, а я (как автор) вдруг стал популярным в узких кругах. Начнём по порядку...

+25

SoftBalance Apr 3 2018 at 12:52

ЕГАИС 3.0 или как не ответить за чужие ошибки

6 min

19K

Legislation in IT

From sandbox

Внедрение в нашей стране различных систем маркировки и учета делит всех участников рынка на две большие группы – тех, кто внедряет эти системы и старается жить по-честному, и тех, кто окончательно уходит в тень. Жить по-честному и так-то не очень легко, а если за тобой постоянно наблюдают и ловят тебя на ошибках, то и совсем сложно. Такие системы работают по принципу сети, размер ячейки в которой постоянно уменьшается. Вначале они ловят только «крупную рыбу» с серьезными нарушениями. Потом, когда крупная рыба заканчивается, переходят на среднюю, а затем уже и на мелкую, компенсируя ее размер огромным количеством.

Давайте на примере внедрения единой государственной автоматизированной информационной системы (ЕГАИС) учета алкоголя рассмотрим постепенное ужесточение правил ее работы и те возможности, которые она дает контролирующим органам. Потому что именно по такой схеме пойдет внедрение маркировки табака, лекарств, обуви и одежды. К чему готовиться?

Читать дальше →

+19

1 2 ...

10 11

13 14 ...

28 29