Articles / Bookmarks / Profile of de

Евгений @de_evjeny

ml'щик

Profile Publications 4Comments 3Bookmarks 316

OsipovRoman Apr 29 2015 at 18:03

Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica)

8 min

53K

Programming*Algorithms*Wolfram Research corporate blogData visualization*

Скачать пост в виде документа Mathematica, который содержит весь код использованный в статье, вместе с дополнительными файлами, можно здесь.

Анализ социальных сетей и всевозможных медиа-ресурсов является сейчас довольно популярным направлением и тем удивительнее для меня было обнаружить, что на Хабрахабре, по сути, нет статей, которые содержали бы анализ большого количества информации (постов, ключевых слов, комментариев и пр.), накопленного на нем за довольно большой период работы.

Надеюсь, что этот пост сможет заинтересовать многих участников Хабрахабра. Я буду рад предложениям и идеям возможных дальнейших направлений развития этого поста, а также любым замечаниям и рекомендациям.

В посте будут рассматриваться статьи, относящиеся к хабам, всего в анализе участвовало 62000 статей из 264 хабов. Статьи, написанные только для корпоративных блогов компаний в посте не рассматривались, а также не рассматривались посты, не попавшие в группу «интересные».

Ввиду того, что база данных, построенная в посте, формировалась за некоторое время до публикации, а именно 26 апреля 2015 г., посты, опубликованные на Хабрахабре после этой даты (а также, возможно, новые хабы) в данном посте не рассматривались.

Читать дальше →

+142

Shannon Nov 28 2023 at 12:14

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

8 min

79K

Machine learning*Artificial Intelligence

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD.

+103

luruluru Nov 26 2023 at 23:39

OpenAPI/Swagger для начинающих

Easy

7 min

47K

System Analysis and Design*API*

From sandbox

Эта статья в основном для аналитиков, которые впервые сталкиваются с необходимостью описания запросов в Swagger, но может быть полезна всем, кто хочет разобраться или ищет подсказку.

+19

timonin Nov 19 2023 at 12:23

Fooocus v2 — бесплатный Midjourney у вас на компьютере. Подробная инструкция по установке и использованию нейросети

Easy

10 min

209K

Graphic design*Artificial IntelligenceThe future is here

Tutorial

Друзья, всем привет! Сегодня я хочу рассказать вам про самую простую и доступную для понимания нейросеть, которая создает изображения по вашему текстовому описанию. Она называется Fooocus и основана на знаменитой Stable Diffusion XL. Это идеальное решение в качестве вашей первой нейросети, и необходимый инструмент для любого дизайнера или контент мейкера.

Внутри много тяжелых изображений.

+114

216

andyputch Nov 17 2023 at 16:16

Прохожу собеседование у бота на английском для подготовки к реальному

Easy

4 min

13K

IT career

Review

Привет, Хабр! Недавно я вышел на рынок вакансий и решил рассказать о том, что происходит на собеседованиях и как к ним готовиться.

+18

murat_apishev Nov 13 2023 at 10:56

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

Hard

12 min

7.3K

Machine learning*Artificial IntelligenceNatural Language Processing*

Review

Разносторонний системный рассказ о том, какими способами можно научить модель работать с длинными последовательностями. Для специалистов, занимающихся обучением LLM, и всех, кто хочет разобраться в теме.

+30

dalerank Nov 4 2023 at 03:12

Не Unity единым…

Easy

15 min

36K

Open source*Programming*C++*Game development*Games and game consoles

Игры бывают разные, большие и маленькие, триA и супер инди, в компаниях с сотнями разработчиков и что создаются самородками-одиночками. Редко их делают с нуля и пишут код только игры, чаще пишут игровые тулы, редактор и параллельно пишут саму игру. За всей этой многомиллиардной индустрией стоит код, много кода, очень много кода. Игровые движки и фреймворки – мощные инструменты, которые помогают разработчику творить его идеи и создавать увлекательные игровые миры. Это каркас, на котором строятся все игровые вселенные, они включают в себя сотни инструментов, библиотек и ресурсов, позволяя разработчикам превратить строчки кода в театр для одного зрителя.

Существует более сотни игровых движков, каждый из них содержит как минимум одну фичу которой нет ни в каком другом. Всех возможностей вместе нет ни в одном, и это прекрасно - иначе бы такой движок монополизировал рынок. Хм, Unreal5 ты ли это? Иногда полезно пробежать по release notes движка, чтобы оставаться в курсе последних новостей. Возможно вы разрабатываете свое решение и эта статья натолкнет вас на новые идеи. Готовы узнать что ваша любимая игры была сделана не на Unity, а на православном SDL?

+95

anton-artemenko Oct 24 2023 at 10:01

Как работает врачебная тайна

11 min

12K

Всё, что становится известно о пациенте с того момента, как он переступил порог клиники, и до того, как он её покинул, — это врачебная тайна.

Тайна раскрывается при определённых условиях. Например, после перестрелки некоторые предпочитают лечиться у ветеринара, потому что врач (человеческий), видя пулевое ранение, обязан сообщить в МВД. Если пациент просто семь раз упал с лестницы, то врач уже ориентируется на своё усмотрение, считать это насилием или нет: он не судмедэксперт.

Раскрытие данных может происходить в случае недееспособности пациента или особо тяжёлого состояния (например, если пациент в коме или умер), если он заранее не установил «чёрный список», кому ничего нельзя говорить ни при каких обстоятельствах. Ещё если пациент не может определиться, кто он, также нужно раскрытие для установления его личности.

Но, как вы, возможно, догадываетесь, в разных клиниках тайна защищается по-разному. В маленьких городах ваш диагноз очень быстро может стать известен всем жителям, поэтому давайте поговорим и про теорию, и про практику.

Нарушение врачебной тайны может закончиться потерей пациентов, большими штрафами, отзывом лицензии, уголовным преследованием ответственных.

Но что это значит для клиники на практике? Что бывает врачу, который допустил раскрытие данных?

Давайте разбираться.

Читать дальше →

+54

Tutelka Oct 18 2023 at 10:30

Прививка от ошибки выбора: что спросить работодателя «на берегу»

Easy

13 min

23K

Personnel Management*IT careerYandex Cloud & Yandex Infrastructure corporate blog

Меня зовут Настя, я руководитель службы инструментов репозитория в Yandex Infrastructure. Больше 15 лет я проработала в IT-индустрии: сначала как разработчик, потом тимлид, техлид, менеджер проектов и руководитель службы. За это время несколько сотен человек рассказали мне о своём карьерном пути: кто-то собеседовался со мной как с нанимающим менеджером, кто-то приходил ко мне на менторинг, кто-то расширял свой нетворк, как теперь модно говорить. Из этих разговоров можно выделить причины недовольства работой, которые я вижу у людей чаще остальных. Одна из главных причин — ошибка выбора вакансии.

В этом посте я собрала исчерпывающий список вопросов к нанимающему менеджеру, которые помогут кандидатам избежать ошибок выбора. И заодно не испортить себе резюме, карьеру и нервную систему.

+44

atomlib Oct 19 2023 at 16:35

Гауссов сплэтинг: как это выглядит

Easy

11 min

13K

Working with 3D-graphics*Image processing*Mathematics*Computer Animation*CGI*

Review

Пример работы гауссова сплэтинга. Этот ролик — не видеосъёмка реального мира, а рендер в реальном времени на настольном компьютере

Всплеск внимания к технике сплэтинга связан с представленной в августе этого года статьей 3D Gaussian Splatting for Real-Time Radiance Field Rendering [Трёхмерный гауссов сплэтинг для рендера radiance field в реальном времени]. До этого, в июле, эта научная работа исследователей Университета Лазурного берега, Института информатики Общества Макса Планка и французского Национального института исследований в информатике и автоматике вошла в пятёрку лучших работ SIGGRAPH 2023.

В следующие два месяца новостные сайты, блоги и тематические форумы начали рекомендовать гауссов сплэтинг как будущее компьютерной графики. Новая техника позволит быстро отсканировать существующую сцену и после короткого обучения отрендерить её с высокой точностью, обещают восторженные голоса.

Сейчас исследователи бьются над поиском практического применения технологии и сканированием движения. В оригинальной работе речь идёт о воссоздании в первую очередь статичных сцен.

Читать дальше →

+65

JulliaShulga Oct 10 2023 at 19:03

Хакни своё следующее интервью с помощью Generative AI

Medium

6 min

Artificial IntelligenceInterview

Translation

А Вы когда‑то задумывались о том, как классно было бы хакнуть собеседование? Создать себе цифрового помощника, который ответит на все вопросы интервьюера.

Вот и я задумался. В этой статье предлагаю создать небольшое приложение на основе Whisper для распознавания речи и ChatGPT для генерации текста. Также добавим простой пользовательский интерфейс, чтобы облегчить себе наше «списывание».

+23

InfluxOW Oct 2 2023 at 19:44

Stable Diffusion: text-to-person

Easy

35 min

26K

Image processing*Machine learning*Artificial Intelligence

Tutorial

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

+30

ru_vds Oct 4 2023 at 16:00

Извлечение текста из файлов PDF при помощи Python

Medium

15 min

30K

Python*Algorithms*PDFData storage*RUVDS.com corporate blog

Tutorial

Translation

▍ Введение

В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.

Читать дальше →

+53

PashaPodolsky Oct 4 2023 at 09:25

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Medium

9 min

21K

Search engines*Reading roomDistributed systems*The future is hereIPFS*

Review

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

Во-первых, это прекрасно

Во-вторых...

+54

enjoykaz Oct 4 2023 at 09:50

Чат GPT-4V, который видит — что он умеет

4 min

52K

Image processing*Machine learning*Орбита corporate blog

Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.

Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:

Собственно, важное:

Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
Читает текст, ориентируется на местности, опознаёт конкретных людей
Умеет в абстракции и обратно
Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
Плохо считает.

Давайте к деталям.

Читать дальше →

+78

NickSenin Sep 29 2023 at 16:13

Как хакнуть себе голову? Эффективно переключаем состояния на примере IT-специалистов

Medium

23 min

48K

GTD*Lifehacks for geeks

Tutorial

Разработчик Вася не смог включиться в работу утром. Потом еще был эмоциональный митинг с заказчиком, после которого снова активировалась прокрастинация. В итоге вместо восьми запланированных часов работы — три. Вася понимает, что дома придется доделывать рабочие задачи, и потому он снова забьет на свое (постоянно откладываемое) обучение.

Тут появляются авторы статьи, которую вы читаете, и предлагают попробовать пару интересных штук для эффективного включения. Мы пробуем замедлиться в два раза и еще пощелкать с десяток примеров устного счета. После митинга – вынести всю рефлексию на бумагу и «шлифануть» это активной прогулкой. Простые решения, которые в совокупности позволяют не терять время на «тупняк в монитор».

Как мы подобрали эти решения и почему именно они? В целом, подобных приемов есть около четырех десятков, а конкретных техник – и того больше. Чтобы выйти на конкретные действия, которые нужны именно вам, мы создали простой инструмент, описанный далее в статье.

coffefairy Sep 20 2022 at 15:25

«Стать лучшей версией себя и полюбить». Что не так с этой идеей?

9 min

10K

BrainHealth

From sandbox

"Не пытайтесь себя полюбить!", - вот с такой парадоксальной мысли я начну сегодняшнюю статью. Меня зовут Евгения Мисюченко, я практикующий психолог, гештальт-терапевт, и ко мне на консультации часто приходят люди с запросом на “полюбить себя”.

Но в разговоре мы часто выясняем, что они не хотят любить себя такими, какими пришли ко мне в кабинет, а хотят стать лучшей версией себя и вот тогда вся их сдерживаемая годами любовь к себе выльется бурным потоком.

Когда я беседую с ними, я слышу примерно одну и ту же парадоксальную идею “я хочу стать лучше, увереннее, смелее, интереснее и полюбить себя”. То есть вот таким, как есть, я себя не люблю, но давайте мы меня исправим (а если ещё честнее, то вы меня исправите), и вот нового себя я полюблю.

Звучит как план, но это на самом деле не работает. Почему?

+13

yanorm Sep 23 2023 at 12:00

«Быть в ресурсе»: трактуем ванильный термин по-взрослому. Где найти силы, когда очень устал?

7 min

5.3K

На работе всё неплохо и дома всё хорошо. Организм тоже держится, здоровье пока не подводит. И даже выгорания в его строго научном смысле нет: работа интересна, идеи и перспективы есть. А вы сидите за компом, листаете каналы в телеге, даже не запоминая содержания, и не знаете, как заставить себя заставить себя… Это обычная усталость, которая влечёт за собой и выгорание, и депрессию. Пока она не отняла все силы, с ней нужно бороться. Осенью этот вопрос особенно актуален, поэтому мы решили разобраться в основах того, как «быть в ресурсе». Когда, если не в выходные ;)

-2

qnok May 25 2019 at 00:18

Что интересного я извлёк из книги «Theory of Fun for Game Design» от Рафа Костера

7 min

16K

Game development*Reading roomGame design*Games and game consoles

В этой статье я тезисно перечислю наиболее интересные для меня выводы и чеклисты, которые я нашёл в книге Рафа Костера «Theory of Fun for Game Design».

Читать дальше →

+18

digitalsibur Sep 29 2023 at 12:01

Когда стоит заменить A/B-тестирование сэмплированием Томпсона

Medium

7 min

2.5K

Python*Algorithms*Machine learning*Цифровой СИБУР corporate blog

Tutorial

Translation

Какую рекламу показать пользователю, красную или синюю?

Представьте, что вам нужно выбрать один из двух баннеров: красный или синий. Разумеется, вам бы хотелось показывать пользователю рекламу с наибольшим откликом.

Но как узнать, какой из баннеров имеет наибольший уровень кликабельности?

Чаще всего для ответа на этот вопрос используется A/B-тестирование. Группа пользователей разделяется пополам, и первой части показывают один баннер, а второй — другой. После этого можно вычислить уровень кликабельности и выбрать лучший из вариантов.

Предположим, что в конце A/B-тестирования у вас получились следующие результаты:

+10

2 3 ...

13 14