likid_ri Dec 21 2016 at 10:27

Генерация фиктивных данных с Mimesis: Часть I

7 min

41K

Django * Python *

From sandbox

+41

Comments 40

kivsiak Dec 21 2016 at 11:46

Полезная штука. Хочу такую же как плагин для sketch3. Ну или самому попереть справочники и портировать на праздниках

kmz161 Dec 21 2016 at 12:21

Возникла ошибка при установке библиотеки
SyntaxError: Non-ASCII character '\xe2' in file elizabeth\core\interdata.py on line 720, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

likid_ri Dec 21 2016 at 12:23

Скажите, пожалуйста, какая у вас ОС и какой Python использовали?

kmz161 Dec 21 2016 at 12:32

Проблема идентичная как на windows 10, так и на Ubuntu 16.04. На обоих ОС python 2.7.12

likid_ri Dec 21 2016 at 12:34

Все верно. Возможно вы не обратили внимания на бейджики в ридми. Библиотека работает только на Python 3.

kmz161 Dec 21 2016 at 12:35

Спасибо. Действительно не увидел этого. Жаль, что на 2.7 не поддерживается

likid_ri Dec 21 2016 at 13:01

Версия 2.7 обошлась бы загрязнением кода, из-за необходимости поддерживать обратную совместимость, и возникновением зависимостей, потому пришлось пойти на такую жертву.

dimmount Dec 21 2016 at 15:54

на 2.7 есть faker

likid_ri Dec 21 2016 at 15:54

Да, верно.

kmz161 Dec 21 2016 at 12:31

Проблема идентичная как на windows 10, так и на Ubuntu 16.04. На обоих ОС python 2.7.12.
Извиняюсь, ошибся веткой

tytar Dec 21 2016 at 12:34

Скажите, а в чем профит вашей реализации от того же faker?

likid_ri Dec 21 2016 at 12:56

Какого-то глубокого сравнения я не производил, но могу сказать, что данных больше, провайдеров больше. Данные для русского языка достаточно точны и валидны. Скорость работы выше. Я, конечно, не производил сравнения скорости генерации в в боевых условиях (т.е с бд), но даже в обычной генерации данных `elizabeth` работает в разы быстрее, чем `faker`.

Небольшой пример:
Ниже приведен скрины работы кода, который генерирует 250к имен (Ф.И).

saluev Dec 21 2016 at 13:46

По ссылке старый пакет. Вот актуальный.

likid_ri Dec 21 2016 at 13:48

Да, именно с ним я и сравнивал.

polarnik Dec 21 2016 at 12:39

Привет, спасибо. Как-то создал синтетический мир из нескольких тысяч организаций и сотрудников для тестирования сервиса электронного документооборота. Нужны были ИНН, КПП, ОГРН, СНИЛС, ФИО, наименования, города, улицы, индексы, ...

Подборку исходных данных по ФИО и наименованиям, частично, вот тут отразил:

http://qapositive.blogspot.ru/2015/01/dictionaries.html
Взял из Википедии. Потом была реализация, где источником были базы данных переписи населения.

likid_ri Dec 21 2016 at 12:58

Пожалуйста! Мы по возможности стараемся добавлять только данные, которые годятся для всех языков. А ИНН и все такое можно генерировать другими классами-провайдерами, которые с легкостью с этим справляются.

saluev Dec 21 2016 at 13:44

А разные группы крови появляются с теми же вероятностями, что и в реальном мире? :)

likid_ri Dec 21 2016 at 13:46

:D Нет, к сожаление нет, но такую особенность прикрутить можно. Хорошая идея!

JeStoneDev Dec 21 2016 at 23:07

Win10

Python 3.5.2 (v3.5.2:4def2a2901a5, Jun 25 2016, 22:01:18) [MSC v.1900 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from elizabeth import Personal
>>> user = Personal('is')
>>> for _ in range(0, 9):
...     print(user.full_name(gender='male'))
...
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "C:\Users\mainj\AppData\Local\Programs\Python\Python35-32\lib\encodings\cp437.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_map)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\xf0' in position 5: character maps to <undefined>

Нетекстовые данные (и текстовые на английском) нормально генерируются.

likid_ri Dec 22 2016 at 05:32

Я подозревал, что на Windows проблемы могут возникнуть. Откройте, пожалуйста, issue, чтобы контрибьюторы, у которых Windows могли это исправить.

На Linux:

Скрин

likid_ri Dec 22 2016 at 05:37

Все, я открыл: #70

likid_ri Dec 22 2016 at 21:05

Посмотрите, пожалуйста. Нашлось решение вашей проблемы: #70

JeStoneDev Dec 23 2016 at 00:16

Да, это помогло. Спасибо

ebt Dec 21 2016 at 23:50

Игнорируя второй питон вы оставляете за бортом заметную часть разработчиков.
You know it.

likid_ri Dec 22 2016 at 05:25

Да, вы правы, но ради чистоты и отсутствия зависимостей приходится идти на такую жертву.

PTM Dec 22 2016 at 05:47

Интересно…
как насчет того, чтобы в текст добавить универсальный генератор речей?
_https://dezinfo.net/images2/image/09.2009/ukot/1001.jpg

likid_ri Dec 22 2016 at 06:05

Да, думали над этим. Пока будет только текст, но когда иностранных контрибьюторов наберется — откажемся от текста в файлах и напишем генераторы.

likid_ri Jan 30 2017 at 16:42

Добавил универсальный генератор речей. Спасибо вам за идею.

>>> from elizabeth.builtins import RussiaSpecProvider

>>> rus = RussiaSpecProvider()
>>> rus.generate_sentence()

"Равным образом рамки, задачи и место обучения кадров требуют определения и уточнения направлений прогрессивного развития и перспектив отрасли."

UFO landed and left these words here

likid_ri Dec 27 2016 at 10:34

Библиотека не подразумевает, что имена и фамилии будут использоваться в одном контексте. Ф.И для одних задач, Текст — для других. Обеспечить такого рода тонкости для одного языка — это одно, а для 16 — другое. Каждый язык имеет свои тонкости. Потому проще генерировать текст из готовых Предложений.

UFO landed and left these words here

likid_ri Dec 27 2016 at 11:22

Вы сможете сплитить строку и, в зависимости от окончания (метод endswith()), добавлять то чего, требуют правила русского языка. Другими словами, подобного рода вещи делегированы на пользователя. Задача же библиотеки — это дать вам «Ивана Петровича», а уж как его склонять — это уже дело ваше.

UFO landed and left these words here

likid_ri Dec 27 2016 at 12:16

Спасибо за интерес!

pcdesign Jan 3 2017 at 10:27

Спасибо за статью.
А если в файле models.py находится 100500 классов, и внутри каждого 100500 полей. Есть вариант скормить как-то весь models.py и получит готовую базу данных с фиктивными данными без написания staticmethod в каждом классе?

likid_ri Jan 3 2017 at 16:59

В этой библиотеке такой возможности нет и не будет, но мы начинаем работать над подобным проектом.
Планируется поддержка Django Models и SQLAlchemy.

driessen Jan 19 2017 at 05:29

Либа названа в честь Элизабет из Биошока? :)

likid_ri Jan 19 2017 at 05:58

Да, все верно.

saluev Jan 23 2018 at 10:58

Переименовали? О_о

likid_ri Jan 23 2018 at 11:31

Так ведь давно: github.com/lk-geimfari/mimesis