Pull to refresh
8
0
Евгений @de_evjeny

ml'щик

Send message

Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica)

Reading time8 min
Views53K

Скачать пост в виде документа Mathematica, который содержит весь код использованный в статье, вместе с дополнительными файлами, можно здесь.

Анализ социальных сетей и всевозможных медиа-ресурсов является сейчас довольно популярным направлением и тем удивительнее для меня было обнаружить, что на Хабрахабре, по сути, нет статей, которые содержали бы анализ большого количества информации (постов, ключевых слов, комментариев и пр.), накопленного на нем за довольно большой период работы.

Надеюсь, что этот пост сможет заинтересовать многих участников Хабрахабра. Я буду рад предложениям и идеям возможных дальнейших направлений развития этого поста, а также любым замечаниям и рекомендациям.

В посте будут рассматриваться статьи, относящиеся к хабам, всего в анализе участвовало 62000 статей из 264 хабов. Статьи, написанные только для корпоративных блогов компаний в посте не рассматривались, а также не рассматривались посты, не попавшие в группу «интересные».

Ввиду того, что база данных, построенная в посте, формировалась за некоторое время до публикации, а именно 26 апреля 2015 г., посты, опубликованные на Хабрахабре после этой даты (а также, возможно, новые хабы) в данном посте не рассматривались.
Читать дальше →
Total votes 158: ↑150 and ↓8+142
Comments61

Локальные нейросети. Аналог ChatGPT-3.5 на домашнем ПК: OpenChat 7B превосходящая 70B, DeepSeek для кода уровня ChatGPT

Reading time8 min
Views79K

Есть много локальных аналогов ChatGPT, но им не хватает качества, даже 65B модели не могут конкурировать хотя бы с ChatGPT-3.5. И здесь я хочу рассказать про 2 открытые модели, которые всё-таки могут составить такую конкуренцию.

Речь пойдет о OpenChat 7B и DeepSeek Coder. Обе модели за счет размера быстры, можно запускать на CPU, можно запускать локально, можно частично ускорять на GPU (перенося часть слоев на GPU, на сколько хватит видеопамяти) и для такого типа моделей есть графический удобный интерфейс.

И бонусом затронем новую модель для качественного подробного описания фото.

UPD: Добавлена информация для запуска на Windows с ускорением на AMD.

Читать далее
Total votes 107: ↑105 and ↓2+103
Comments87

OpenAPI/Swagger для начинающих

Level of difficultyEasy
Reading time7 min
Views47K

Эта статья в основном для аналитиков, которые впервые сталкиваются с необходимостью описания запросов в Swagger, но может быть полезна всем, кто хочет разобраться или ищет подсказку.

Читать далее
Total votes 19: ↑19 and ↓0+19
Comments2

Fooocus v2 — бесплатный Midjourney у вас на компьютере. Подробная инструкция по установке и использованию нейросети

Level of difficultyEasy
Reading time10 min
Views209K

Друзья, всем привет! Сегодня я хочу рассказать вам про самую простую и доступную для понимания нейросеть, которая создает изображения по вашему текстовому описанию. Она называется Fooocus и основана на знаменитой Stable Diffusion XL. Это идеальное решение в качестве вашей первой нейросети, и необходимый инструмент для любого дизайнера или контент мейкера.

Внутри много тяжелых изображений.

Читать далее
Total votes 120: ↑117 and ↓3+114
Comments216

Прохожу собеседование у бота на английском для подготовки к реальному

Level of difficultyEasy
Reading time4 min
Views13K

Привет, Хабр! Недавно я вышел на рынок вакансий и решил рассказать о том, что происходит на собеседованиях и как к ним готовиться.

Читать далее
Total votes 22: ↑20 and ↓2+18
Comments4

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

Level of difficultyHard
Reading time12 min
Views7.3K

Разносторонний системный рассказ о том, какими способами можно научить модель работать с длинными последовательностями. Для специалистов, занимающихся обучением LLM, и всех, кто хочет разобраться в теме.

Читать далее
Total votes 30: ↑30 and ↓0+30
Comments3

Не Unity единым…

Level of difficultyEasy
Reading time15 min
Views36K

Игры бывают разные, большие и маленькие, триA и супер инди, в компаниях с сотнями разработчиков и что создаются самородками-одиночками. Редко их делают с нуля и пишут код только игры, чаще пишут игровые тулы, редактор и параллельно пишут саму игру. За всей этой многомиллиардной индустрией стоит код, много кода, очень много кода. Игровые движки и фреймворки – мощные инструменты, которые помогают разработчику творить его идеи и создавать увлекательные игровые миры. Это каркас, на котором строятся все игровые вселенные, они включают в себя сотни инструментов, библиотек и ресурсов, позволяя разработчикам превратить строчки кода в театр для одного зрителя.

Существует более сотни игровых движков, каждый из них содержит как минимум одну фичу которой нет ни в каком другом. Всех возможностей вместе нет ни в одном, и это прекрасно - иначе бы такой движок монополизировал рынок. Хм, Unreal5 ты ли это? Иногда полезно пробежать по release notes движка, чтобы оставаться в курсе последних новостей. Возможно вы разрабатываете свое решение и эта статья натолкнет вас на новые идеи. Готовы узнать что ваша любимая игры была сделана не на Unity, а на православном SDL?

Читать далее
Total votes 95: ↑95 and ↓0+95
Comments89

Как работает врачебная тайна

Reading time11 min
Views12K
image

Всё, что становится известно о пациенте с того момента, как он переступил порог клиники, и до того, как он её покинул, — это врачебная тайна.

Тайна раскрывается при определённых условиях. Например, после перестрелки некоторые предпочитают лечиться у ветеринара, потому что врач (человеческий), видя пулевое ранение, обязан сообщить в МВД. Если пациент просто семь раз упал с лестницы, то врач уже ориентируется на своё усмотрение, считать это насилием или нет: он не судмедэксперт.

Раскрытие данных может происходить в случае недееспособности пациента или особо тяжёлого состояния (например, если пациент в коме или умер), если он заранее не установил «чёрный список», кому ничего нельзя говорить ни при каких обстоятельствах. Ещё если пациент не может определиться, кто он, также нужно раскрытие для установления его личности.

Но, как вы, возможно, догадываетесь, в разных клиниках тайна защищается по-разному. В маленьких городах ваш диагноз очень быстро может стать известен всем жителям, поэтому давайте поговорим и про теорию, и про практику.

Нарушение врачебной тайны может закончиться потерей пациентов, большими штрафами, отзывом лицензии, уголовным преследованием ответственных.

Но что это значит для клиники на практике? Что бывает врачу, который допустил раскрытие данных?

Давайте разбираться.
Читать дальше →
Total votes 58: ↑56 and ↓2+54
Comments72

Прививка от ошибки выбора: что спросить работодателя «на берегу»

Level of difficultyEasy
Reading time13 min
Views23K

Меня зовут Настя, я руководитель службы инструментов репозитория в Yandex Infrastructure. Больше 15 лет я проработала в IT-индустрии: сначала как разработчик, потом тимлид, техлид, менеджер проектов и руководитель службы. За это время несколько сотен человек рассказали мне о своём карьерном пути: кто-то собеседовался со мной как с нанимающим менеджером, кто-то приходил ко мне на менторинг, кто-то расширял свой нетворк, как теперь модно говорить. Из этих разговоров можно выделить причины недовольства работой, которые я вижу у людей чаще остальных. Одна из главных причин — ошибка выбора вакансии.  

В этом посте я собрала исчерпывающий список вопросов к нанимающему менеджеру, которые помогут кандидатам избежать ошибок выбора. И заодно не испортить себе резюме, карьеру и нервную систему.

Читать далее
Total votes 50: ↑47 and ↓3+44
Comments49

Гауссов сплэтинг: как это выглядит

Level of difficultyEasy
Reading time11 min
Views13K
Пример работы гауссова сплэтинга. Этот ролик — не видеосъёмка реального мира, а рендер в реальном времени на настольном компьютере

Всплеск внимания к технике сплэтинга связан с представленной в августе этого года статьей 3D Gaussian Splatting for Real-Time Radiance Field Rendering [Трёхмерный гауссов сплэтинг для рендера radiance field в реальном времени]. До этого, в июле, эта научная работа исследователей Университета Лазурного берега, Института информатики Общества Макса Планка и французского Национального института исследований в информатике и автоматике вошла в пятёрку лучших работ SIGGRAPH 2023.

В следующие два месяца новостные сайты, блоги и тематические форумы начали рекомендовать гауссов сплэтинг как будущее компьютерной графики. Новая техника позволит быстро отсканировать существующую сцену и после короткого обучения отрендерить её с высокой точностью, обещают восторженные голоса.

Сейчас исследователи бьются над поиском практического применения технологии и сканированием движения. В оригинальной работе речь идёт о воссоздании в первую очередь статичных сцен.
Читать дальше →
Total votes 65: ↑65 and ↓0+65
Comments13

Хакни своё следующее интервью с помощью Generative AI

Level of difficultyMedium
Reading time6 min
Views8K

А Вы когда‑то задумывались о том, как классно было бы хакнуть собеседование? Создать себе цифрового помощника, который ответит на все вопросы интервьюера.

Вот и я задумался. В этой статье предлагаю создать небольшое приложение на основе Whisper для распознавания речи и ChatGPT для генерации текста. Также добавим простой пользовательский интерфейс, чтобы облегчить себе наше «списывание».

Читать далее
Total votes 25: ↑24 and ↓1+23
Comments10

Stable Diffusion: text-to-person

Level of difficultyEasy
Reading time35 min
Views26K

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

Читать далее
Total votes 30: ↑30 and ↓0+30
Comments29

Извлечение текста из файлов PDF при помощи Python

Level of difficultyMedium
Reading time15 min
Views30K

▍ Введение


В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать дальше →
Total votes 55: ↑54 and ↓1+53
Comments10

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Level of difficultyMedium
Reading time9 min
Views21K

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

Во-первых, это прекрасно

Во-вторых...
Total votes 54: ↑54 and ↓0+54
Comments9

Чат GPT-4V, который видит — что он умеет

Reading time4 min
Views52K
Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.


Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:



Собственно, важное:
  • Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
  • Читает текст, ориентируется на местности, опознаёт конкретных людей
  • Умеет в абстракции и обратно
  • Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
  • Плохо считает.

Давайте к деталям.
Читать дальше →
Total votes 80: ↑79 and ↓1+78
Comments63

Как хакнуть себе голову? Эффективно переключаем состояния на примере IT-специалистов

Level of difficultyMedium
Reading time23 min
Views48K

Разработчик Вася не смог включиться в работу утром. Потом еще был эмоциональный митинг с заказчиком, после которого снова активировалась прокрастинация. В итоге вместо восьми запланированных часов работы — три. Вася понимает, что дома придется доделывать рабочие задачи, и потому он снова забьет на свое (постоянно откладываемое) обучение.

Тут появляются авторы статьи, которую вы читаете, и предлагают попробовать пару интересных штук для эффективного включения. Мы пробуем замедлиться в два раза и еще пощелкать с десяток примеров устного счета. После митинга – вынести всю рефлексию на бумагу и «шлифануть» это активной прогулкой. Простые решения, которые в совокупности позволяют не терять время на «тупняк в монитор». 

Как мы подобрали эти решения и почему именно они? В целом, подобных приемов есть около четырех десятков, а конкретных техник – и того больше. Чтобы выйти на конкретные действия, которые нужны именно вам, мы создали простой инструмент, описанный далее в статье.

Читать далее
Total votes 21: ↑12 and ↓9+3
Comments13

«Стать лучшей версией себя и полюбить». Что не так с этой идеей?

Reading time9 min
Views10K

"Не пытайтесь себя полюбить!", - вот с такой парадоксальной мысли я начну сегодняшнюю статью. Меня зовут Евгения Мисюченко, я практикующий психолог, гештальт-терапевт, и ко мне на консультации часто приходят люди с запросом на “полюбить себя”. 

Но в разговоре мы часто выясняем, что они не хотят любить себя такими, какими пришли ко мне в кабинет, а хотят стать лучшей версией себя и вот тогда вся их сдерживаемая годами любовь к себе выльется бурным потоком. 

Когда я беседую с ними, я слышу примерно одну и ту же парадоксальную идею “я хочу стать лучше, увереннее, смелее, интереснее и полюбить себя”.  То есть вот таким, как есть, я себя не люблю, но давайте мы меня исправим (а если ещё честнее, то вы меня исправите), и вот нового себя я полюблю.

Звучит как план, но это на самом деле не работает. Почему? 

Читать далее
Total votes 31: ↑22 and ↓9+13
Comments11

«Быть в ресурсе»: трактуем ванильный термин по-взрослому. Где найти силы, когда очень устал?

Reading time7 min
Views5.3K

На работе всё неплохо и дома всё хорошо. Организм тоже держится, здоровье пока не подводит. И даже выгорания в его строго научном смысле нет: работа интересна, идеи и перспективы есть. А вы сидите за компом, листаете каналы в телеге, даже не запоминая содержания, и не знаете, как заставить себя заставить себя… Это обычная усталость, которая влечёт за собой и выгорание, и депрессию. Пока она не отняла все силы, с ней нужно бороться. Осенью этот вопрос особенно актуален, поэтому мы решили разобраться в основах того, как «быть в ресурсе». Когда, если не в выходные ;)

Читать далее
Total votes 10: ↑4 and ↓6-2
Comments1

Что интересного я извлёк из книги «Theory of Fun for Game Design» от Рафа Костера

Reading time7 min
Views16K
В этой статье я тезисно перечислю наиболее интересные для меня выводы и чеклисты, которые я нашёл в книге Рафа Костера «Theory of Fun for Game Design».

Читать дальше →
Total votes 20: ↑19 and ↓1+18
Comments12

Когда стоит заменить A/B-тестирование сэмплированием Томпсона

Level of difficultyMedium
Reading time7 min
Views2.5K

Какую рекламу показать пользователю, красную или синюю?

Представьте, что вам нужно выбрать один из двух баннеров: красный или синий. Разумеется, вам бы хотелось показывать пользователю рекламу с наибольшим откликом.

Но как узнать, какой из баннеров имеет наибольший уровень кликабельности?

Чаще всего для ответа на этот вопрос используется A/B-тестирование. Группа пользователей разделяется пополам, и первой части показывают один баннер, а второй — другой. После этого можно вычислить уровень кликабельности и выбрать лучший из вариантов.

Предположим, что в конце A/B-тестирования у вас получились следующие результаты:

Читать далее
Total votes 12: ↑11 and ↓1+10
Comments2
1
23 ...

Information

Rating
Does not participate
Registered
Activity