Python *

Высокоуровневый язык программирования

СтатьиПостыНовостиАвторыКомпании

zdmit 26 янв 2022 в 08:32

Парсинг исторических данных с Google Scholar используя Python

16 мин

8.7K

Python * Проектирование API * SQLite * Data Mining *

Из песочницы

Как спарсить исторические данные 2017-2021 годов с Google Scholar и сохранить их в CSV, SQLite используя Python и SerpApi.

NewTechAudit 26 янв 2022 в 06:13

Способы представления аудио в ML

5 мин

11K

Машинное обучение * Алгоритмы * Программирование * Python * Natural Language Processing *

В статье рассмотрены основные формы представления аудио для дальнейшего использования в различных сферах обработки данных.

id_potassium_chloride 25 янв 2022 в 17:05

Ещё одно решение игры Wordle на Python

6 мин

12K

Python * Алгоритмы * Логические игры

В начале 2022 года мир захватила головоломка Wordle и почти сразу стали появляться варианты решения. На Хабре уже появилось описания двух вариантов решения, но они мне не понравились, поэтому я изобретаю свой собственный велосипед. Ссылки на предыдущие решатели:

1) https://habr.com/ru/company/skillfactory/blog/645653/ -- перевод решателя от Mickey Petersen, написано на идеальном Питоне, использует статистический анализ букв английского алфавита и вполне успешно справляется с задачей.

2) https://habr.com/ru/post/647391/ -- перевод решателя от Tom Lockwood, который решает англоязычную игру в 99,4% случаев. Автор исследовал внутренности игры и постарался максимально использовать полученную информацию о возможных загаданных словах и возможных вводимых словах, но по итогу всё сводится к статистическому анализу. Возможно, в будущем я воспользуюсь извлечённой из игры информацией для улучшения своего алгоритма.

+13

honyaki 24 янв 2022 в 19:18

Кто больше зарабатывает: специалист с образованием или с опытом?

5 мин

11K

Блог компании SkillfactoryPython * Учебный процесс в ITКарьера в IT-индустрииСтатистика в IT

Перевод

К старту флагманского курса по Data Science делимся небольшим исследованием о зарплате на основе данных опроса Stack Overflow, а также очень кратко знакомим читателей с библиотекой построения байесовских моделей Bambi. За подробностями приглашаем под кат.

kesn 24 янв 2022 в 14:55

Питон против Безумного Макса, или как я посты на Хабре замораживал

8 мин

40K

Информационная безопасность * Веб-разработка * HabrPython * Программирование *

Я помню тот старый Хабр. Логотип был похож на комок шерсти после отрыжки кота, я писал какие-то наивные статьи и мне казалось, что я очень крут (нет), а народ пилил годные технические полотна текста, и чтобы узнать инфу про чёрные точки на лице, нужно было посещать другие сайты. Это было прикольно.

Потом что-то пошло не так, начали появляться какие-то полутехнические статьи, и (далее моя интерпретация событий) чтобы сохранить Хабр, всех нетехнических писателей заманили в один корабль и отправили ~~куда подальше~~ на гиктаймс - подобно тому, как врач ампутирует руку пациенту, чтобы спасти жизнь. В данном случае, правда, врач подержал эту руку, посмотрел на неё, а потом пришил обратно. Что из этого вышло?

Что из этого вышло

+369

193

zetyquickly 24 янв 2022 в 12:14

Алгоритм Дейкстры. Разбор Задач

7 мин

94K

Блог компании OTUSPython * Алгоритмы * Занимательные задачки

Поиск оптимального пути в графе. Такая задача встречается довольно часто и в повседневной жизни, и в мире технологий. Справиться с такими вызовами помогает подход, который должен быть в арсенале каждого программиста — алгоритм Дейкстры.

Если вы хотите найти ответить на вопросы, чем этот алгоритм лучше BFS (поиска в ширину), при каких условиях алгоритм применим, и какие теоретические и практические задачи можно с его помощью решать, читайте далее.

Читать дальше →

+14

Tzimie 24 янв 2022 в 12:07

Нормализация SQL profiler трейса для группировки

5 мин

2.6K

Microsoft SQL Server * Python *

Туториал

Если вы разбираетесь "почему тормозит база" и у вас есть трейс, созданный MS SQL profiler, то что вы делаете первым делом? Правильно, сохраняете его в таблицу, чтобы поразбираться с ним с помощью родного SQL, а не в GUI.

Очень хотелось бы сделать group by TextData, но увы - так не получится из-за разных параметров у процедур и кверей. А выразительных способностей SQL не хватет, чтобы эффективно 'нормализовать' трейс.

Но ведь можно скрестить ежа и ужа, SQL и Python, и решить задачу в несколько строк! Полезные скрипты ниже.

mr-pickles 24 янв 2022 в 10:11

3 особенности чисел в Python, о которых вы, возможно, не знали

15 мин

58K

Блог компании Wunder FundPython * Программирование *

Перевод

Если вы писали код на Python, то весьма высока вероятность того, что вы, хотя бы в одной из своих программ, пользовались числами. Например, это могли быть целые числа для указания индекса значения в списке, или числа с плавающей точкой, представляющие суммы в некоей валюте.

Но числа в Python — это гораздо больше, чем, собственно, их числовые значения. Поговорим о трёх особенностях чисел в Python, с которыми вы, возможно, не знакомы.

+55

PatientZero 24 янв 2022 в 08:40

Решаем Wordle с 3,64 попыток в 99,4% случаев

3 мин

9.8K

Игры и игровые консолиАлгоритмы * Python *

Перевод

Недавно я играл в головоломку Wordle, параллельно думая, как бы её могла решать программа.

[Прим. пер.: Wordle — игра в отгадывание слов, напоминающая «быки и коровы». Правила достаточно ясны по скриншоту выше.]

Первым делом я извлёк списки слов с сайта Wordle. Любопытно, что существует «целевой» список из 2315 слов, которые могут быть ответами, но и дополнительный список из 10657 возможных догадок — вариантов, которые могут вводить пользователи, но которые никогда не будут ответом. Если вам нужны эти списки, то в репозитории ниже есть пара set в формате Python.

Первым делом я подумал, что для управления моей стратегией угадываний стоит использовать частотность букв английского языка. Однако потом я осознал, что есть способ получше: использовать частотность букв в целевом списке! Ведь это самое важное? Никаких мне etaoin shrdlu!

Читать дальше →

NewTechAudit 24 янв 2022 в 05:52

Инструменты для решения NER-задач для русского языка

5 мин

7.2K

Python * Программирование * Машинное обучение *

Зачастую приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Какие инструменты могут помочь нам в решении данной задачи для русского языка?

Пожалуй, первое что приходит в голову Data Scientist’у, когда речь идет о NLP или конкретно NER-задачах — это проекты DeepPavlov. Немного углубимся в данную тему, разберем все по порядку.

DeepPavlov — это фреймворк (open source), который помогает в разработке различных голосовых ботов, соответственно, решая различные NLP задачи.

На вход подается непредобработанный (регистры, знаки и т.д. сохранены) текст, а на выходе мы хотим увидеть, так называемые, спаны — фрагменты текста, с которыми уже можно работать (например, отнести к определенной категории).

VladislavSoren 23 янв 2022 в 20:04

Глушим аномалии в географических данных с помощью Pandas

3 мин

3.6K

Data Engineering * Python * Машинное обучение *

Из песочницы

При обработке данных исходного DataSet часто попадаются аномальные значения, которые поставлены вместо пропусков, и мало того, что они скрываются, так ещё и несут вред общему делу. В данной статье будет разобран практический пример избавления от аномальных значений в связанных с географией данных при помощи инструментов известной библиотеки Pandas.

Наведём порядок!

stranger777 23 янв 2022 в 18:55

Terality — автоматически масштабируемая альтернатива Pandas

5 мин

5.8K

Блог компании SkillfactoryPython * Программирование * Проектирование API * Big Data *

Туториал

Перевод

К старту флагманского курса по Data Science делимся туториалом по библиотеке Terality, которая сильно облегчит работу с действительно большими наборами данных даже на маломощных машинах. За подробностями приглашаем под кат.

VadimCoder 21 янв 2022 в 11:43

Генерация подземелий на Python с использованием Pillow

2 мин

9.7K

Python *

Из песочницы

Генерация карт высот Гауссовским шумом.

lock87 21 янв 2022 в 10:30

Курс начинающего бэкендера в Metaclass: интервью со студентом

5 мин

3.3K

Блог компании KTSPython * Учебный процесс в ITИнтервью

Привет!

31-го января начинается новый поток нашей школы Метакласс по курсам начинающего бэкендера и фронтендера.

Мы поймали одного из наших стажеров, который проходил курс «Начинающий Backend-разработчик» и подробно расспросили: с какими знаниями пришел на курс, что было сложно, и какая главная польза была от обучения?

Приглашаем ознакомиться всех, кому интересны наши курсы и обучение на разработчиков.

Читать

PVKurakin 21 янв 2022 в 09:09

«Раздвижное» решето Эратосфена

19 мин

11K

Python * Отладка * Программирование *

Из песочницы

Простые числа, согласно известному определению – такие числа, которые делятся только на 1 и само себя. Иначе, число считается составным, и его можно разложить на произведение простых чисел. Единица формально соответствует определению простого числа, но это число принято не относить ни к простым, ни к составным.

Как искать простые числа? Можно действовать напрямую, применяя определение: просто делить каждое данное число N подряд на все числа m<N.Такая стратегия тоже имеет смысл, и ее можно обсуждать, и даже думать о том, как ее совершенствовать, но сегодня у нас будет другая история.

S0mbre 20 янв 2022 в 01:42

Кроссплатформенный переключатель прокси-сервера на Python + Qt

6 мин

12K

Визуальное программирование * Qt * Программирование * Python *

Устав искать нормальный портативный инструмент для переключения между моим рабочим прокси-сервером и прямым подключением дома (который, к тому же, работал бы на Windows и Linux), я решил-таки запилить собственную тулзу для этих целей. Вооружившись Python и Qt, начал клепать код в VSCode... Что из этого вышло -- читаем под катом.

sebres 19 янв 2022 в 22:03

[Окончание] Новогодний детектив: странный хайзенбаг в «питоньих» часах

12 мин

*nix * Python * Виртуализация * Ненормальное программирование * Программирование *

Здесь лежит окончание "расследования" Новогодний детектив: странный хайзенбаг в «питоньих» часах.
Изначально хотел просто обновить статью и написать соответствующий комментарий, но понял что апдейт выходит чуть не длиннее самой статьи.

Напомню краткое содержание предыдущей части: python, как впрочем и всё на нем написанное, временами прыгает в будущее, а конкретно в 2023-й год в локальной временной зоне, и по некоторым данным в 2024-й в UTC/GMT (но это не точно) и побыв там некоторое время возвращается обратно в настоящее.

Во время прыжка оно ведет себя довольно стабильно (т.е. считает нано-, микро- и миллисекунды, а то и секунды, как будто время идет как ни в чём не бывало) в 2023-м т.е. локально, при том что в результате повторных прыжков время вновь продолжается как будто по возвращению оно (время) течет в какой-то параллельной вселенной. Однако странное его "отражение" в UTC/GMT, ну то что как будто бы в 2024-м, выглядит менее стабильно, ибо для него наблюдается странные дрейфы дополнительно к смещению прыжка.

Хотя куда уж страннее.

Читать дальше →

+13

grishenkovp 19 янв 2022 в 06:44

Прогнозирование объема продаж продукции при динамическом ценообразовании

5 мин

2.9K

Python *

В конце прошлого года поступил запрос на рассмотрение интересного кейса: спрогнозировать объем продаж продукта на рынке при динамическом ценообразовании. Помимо ответа на основной вопрос, следовало определить экономическую целесообразность применения динамического изменения цен для максимизации выручки, просчитать различные сценарии на рынке и выдвинуть гипотезы об объемах реализации продукта в сетях-конкурентах. Сложность данной задачи заключается в том, что при отсутствии исходных данных за предыдущие периоды не получится с ходу применить популярные подходы Data Science. Следовательно, необходимо сначала симулировать поведение покупателей, а только затем приступать к оценке адекватности полученной информации. Забегая вперед, стоит оговориться, что построить модель, достоверно и просто описывающую поведение потребителей на рынке полумиллионного города, не получилось, поэтому мне остается лишь познакомить читателей с промежуточными результатами, которые возможно натолкнут кого-то на более плодотворные изыскания в данной области. Для того, чтобы рассуждения не носили пространный характер, принцип работы модели будет проиллюстрирован на примере такого продукта как сыр.

geniyoctober 19 янв 2022 в 06:00

Пишем свои модули для Ansible на Python

27 мин

23K

Блог компании СлёрмPython * Базы данных * DevOps *

Для жаждующих знаний и прогресса собрали материал из урока Дениса Наумова, спикера курсов Ansible и Python для инженеров. Немного разберёмся с теорией и посмотрим как написать модуль для создания пользователей в базе данных.

Материал объёмный. Рекомендуем сразу открыть итоговый код файла clickhouse.py для удобной работы со статьей.

+17

worksolutions 18 янв 2022 в 13:24

Нейродайджест: главное из области машинного обучения за декабрь 2021

4 мин

4.7K

Python * Машинное обучение * Искусственный интеллектTensorFlow *

Генерация 3D-моделей из текстового описания и видеозаписей, сделанных на обыкновенный смартфон, конкурент DALL-E, ускоренная GAN-инверсия и многое другое в подборке материалов за декабрь, а также небольшие новости о будущем дайджеста.

Перейти к обзору

+11

1 2 ...

237 238

239

240 241 ...

485 486

Python *

Парсинг исторических данных с Google Scholar используя Python

Способы представления аудио в ML

Ещё одно решение игры Wordle на Python

Кто больше зарабатывает: специалист с образованием или с опытом?

Питон против Безумного Макса, или как я посты на Хабре замораживал

Алгоритм Дейкстры. Разбор Задач

Нормализация SQL profiler трейса для группировки

3 особенности чисел в Python, о которых вы, возможно, не знали

Решаем Wordle с 3,64 попыток в 99,4% случаев

Инструменты для решения NER-задач для русского языка

Глушим аномалии в географических данных с помощью Pandas

Terality — автоматически масштабируемая альтернатива Pandas

Генерация подземелий на Python с использованием Pillow

Ближайшие события

Курс начинающего бэкендера в Metaclass: интервью со студентом

«Раздвижное» решето Эратосфена

Кроссплатформенный переключатель прокси-сервера на Python + Qt

[Окончание] Новогодний детектив: странный хайзенбаг в «питоньих» часах

Прогнозирование объема продаж продукции при динамическом ценообразовании

Пишем свои модули для Ansible на Python

Нейродайджест: главное из области машинного обучения за декабрь 2021

Вклад авторов