Как стать автором
Обновить

Миграция 500 Гиг из Оракла за 5 часов

Время на прочтение5 мин
Количество просмотров8.8K


На самом деле, еще 9 часов заняла загрузка данных в PostgreSQL, но обо всем по порядку.
Ничто не предвещало грозы — у Заказчика упал сервер и всего-то предполагалось поднять Оракл ;-)


Что я и сделал.


Но ВНЕЗАПНО оказалось, что по договору нужна миграция а дедлайн через 3 дня и все заверте...


Тут стоит упомянуть, что с Постгрес до этого был более чем незнаком, а о процессе миграции знал лишь по публикациям на Хабре.


Я сразу предупредил все стороны, что гарантий своевременности — никаких, но все-же, "МЫ ПРИНИМАЕМ БОЙ!"



Мне была предоставлена виртуалка с Centos 8 и всем, что нужновыходом в интернет и безграничной поддержкой администратора серверов.


Времени на размышления не было, поэтому сразу была загружена последняя(23.0) версия ora2pg.


Действовать решил тоже по инструкции с этого же сайта, но что-то пошло не так:


perl -MCPAN -e 'install DBD::Oracle'
/usr/bin/ld: cannot find -lnsl
collect2: error: ld returned 1 exit status


Советы Гугла не помогли, а часы продолжали неумолимо тикать...


Ничего не оставалось делать, как пойти проторенным путем
Там автор мигрировал с 12-го Оракла софтом Ora2Pg v21.1 в тринадцатый PostgreSQL.


Я лишь немного поменял вводные — CentOS Linux release 7.9 и двенадцатый Постгрес.


Начало было довольно банальным и прошло без проблем(все имена и IP -вымышленные):
192.168.0.8 — Oracle sever
192.168.0.14 — new PostgreSQL server
client — dbname Оракла и имя базы данных Постгреса


Все манипуляции выполняются на последнем:


rpm -ivh oracle-instantclient12.2-basic-12.2.0.1.0-1.x86_64.rpm
rpm -ivh oracle-instantclient12.2-devel-12.2.0.1.0-1.x86_64.rpm
rpm -ivh oracle-instantclient12.2-jdbc-12.2.0.1.0-1.x86_64.rpm
rpm -ivh oracle-instantclient12.2-sqlplus-12.2.0.1.0-1.x86_64.rpm

yum install -y wget

wget https://yum.oracle.com/RPM-GPG-KEY-oracle-ol7 -O /etc/pki/rpm-gpg/RPM-GPG-KEY-oracle

yum install -y perl perl-CPAN perl-DBI perl-Time-HiRes perl-YAML perl-local-lib make gcc

yum install -y perl-App-cpanminus

cpanm CPAN::Config
cpanm CPAN::FirstTime

export LD_LIBRARY_PATH=/usr/lib/oracle/12.2/client64/lib
export ORACLE_HOME=/usr/lib/oracle/12.2/client64

perl -MCPAN -e 'install DBD::Oracle'

tar zxf ora2pg-21.1.tar.gz && cd ora2pg-21.1 && perl Makefile.PL && make && make install

Но мы-же помним, о 500Гигах, а учитывая, что на дисках Винды dbf-файлы занимали вдвое больше, то 3ТБ, были смонтированы в /postgres


Соответственно, нужно сообщить об этом инструменту ora2pg:


ora2pg --project_base /postgres/ora2pg --init_project client WORKDIR /postgres/ora2pg


Строкой выше — первый момент отличающий данную статью от тех, что попались мне на глаза.


COPY ora2pg.conf /postgres/ora2pg/client/config/

cd /postgres/ora2pg/client

Редактируем файл конфигурации — vi ora2pg.conf меняем следующие строки:


ORACLE_HOME     /usr/lib/oracle/12.2/client64

# Set Oracle database connection (datasource, user, password)
ORACLE_DSN      dbi:Oracle:host=192.168.0.8;sid=client;port=1521
ORACLE_USER     system
ORACLE_PWD      systempwd

# Set this to 1 if you connect as simple user 
USER_GRANTS     0

# Export Oracle schema to PostgreSQL schema
EXPORT_SCHEMA   1

# Oracle schema/owner to use
SCHEMA

Теперь самое время проверить соединение с БД Оракл, устанавливаем переменные окружения:


export LD_LIBRARY_PATH=/usr/lib/oracle/12.2/client64/lib
export ORACLE_HOME=/usr/lib/oracle/12.2/client64

И запускаем проверку:


cd /postgres/ora2pg/client
ora2pg -t SHOW_VERSION -c config/ora2pg.conf

Oracle Database 12c Enterprise Edition Release 12.2.0.1.0


Ок, соединение — успешное, можно еще просмотреть список всех таблиц БД:


ora2pg -t SHOW_TABLE -c config/ora2pg.conf


И самое интересное — можно оценить оценить трудозатраты (время миграции):


ora2pg -t SHOW_REPORT --estimate_cost -c config/ora2pg.conf export_schema.sh


В выводе было много текста и среди ниих такая строка :


cost migration units means approximatively 11 man-day(s)


Нет, на это я пойтить не могу!



И даже строки Migration level: C-5
C — Migration with code rewrite and a human-days cost above 5 days
5 = difficult: stored functions and/or triggers with code rewriting

оптимизма не внушали


Если Вас ничего не смущает в полученных цифрах, то можно смело запускать выгрузку данных:


ora2pg -t INSERT -o data.sql -b ./data -c ./config/ora2pg.conf


В результате получаются командные файлы в виде create table — insert для psql


Тестовая выгрузка показала удурчающе низкую скорость создания этих самых инсертов — около 5ГБ/час.


Что-ж читаем опции командной строки, что нам предлагает ora2pg, и оказывается что ВНЕЗАПНО можно параллелить чтение/запись, о чем я у других авторов гайдов по миграции не читал.


Тут как раз в пору заряжать шестиствольный пулеметмногопоточную выгрузку:

ОК, расширяем количество ядер нашей виртуалки с 4 до 16 и после ряда экспериментов выходим на оптимальное соотношение параметров:


nohup ora2pg -j 2 -J 12 -t INSERT -o data.sql -b ./data -c ./config/ora2pg.conf


Тут Оракл вычитывается в 12 потоков, запись идет в два, еще два процесса занимает ora2pg.


И да, это была вторая строка, отличающая данный пост от известных мне мануалов по миграции.


У Вас может быть все по другому — экспериметнируйте!


Каково-же было мое удивление, когда выгрузка по сети закончилась за 5 часов!


Это при том, что локальный бэкап Оракла датапампом идет все 6.


Уже позже я нашел бенчмарки, где автор тоже приходит к большему против записи числу потоков чтения, хотя и не настолько.


Но согласитесь, загрузка CPU, достигающая порой 90% — хоть и косвенный, но показатель оптимальности параметров.


Теперь самое время установить PostgreSQL, если Вы не сделали это ранее, 12 версия была пожеланием разработчиков:


yum install dnf 

dnf module list postgresql

https://www.postgresql.org/

# Install the repository RPM:
yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm

# Install PostgreSQL:
yum install -y postgresql12-server

Инициализируем БД и добавляем в автостарт:


/usr/pgsql-12/bin/postgresql-12-setup initdb
systemctl enable postgresql-12
systemctl start postgresql-12

Но не все так просто — мы-же помним про пол-Тера информации, это у Джонни-мнемоника адресация выше 320ГБ вызывает OOM



Для того, чтобы избежать сией участи нам нужно немного подправить конфиг, указав на "большой" диск:


vi /var/lib/pgsql/12/data/postgresql.conf

data_directory = '/postgres/pgsql'

Теперь копируем всю структуру в новое место и перезапускаем серверный процесс:


cp /var/lib/pgsql/12/data/* /postgres/pgsql

chown -R postgres /postgres/pgsql

chmod -R 750 /postgres/pgsql

systemctl restart postgresql-12

Но это еще не все — нужно назаначить пароль пользователю БД и создать саму базу:


psql -c "alter user postgres with password 'clientpostgres'" 

vi /var/lib/pgsql/12/data/postgresql.conf

set Listen address to your server IP address or “*” for all interfaces.

vi /var/lib/pgsql/12/data/pg_hba.conf

# Accept from anywhere
host all all 0.0.0.0/0 md5

restart:

systemctl restart postgresql-12

psql -U postgres -h 192.168.0.14 -p 5432 postgres

CREATE DATABASE client;

Момент истины(загрузки данных) стремительно приближался, точно так же, как и дедлайн



Я уже всеми фибрами души чувствовал степень авантюрности своего начинания, но как говорится — глаза-боятся а руки — делают!


Многие советуют запускать скрипт загрузки:


postgres/ora2pg/client/import_all.sh -d client -o postgres -U postgres


Но он ну очень интерактивный и задает много вопросов — в стиле — пересоздавать-ли БД, какие компоненты (таблицы, индексы и т.д. ) загружать.


Будь у меня сервер под боком — я бы так и сделал, но нужно было загрузить только данные таблиц.


А потому, путем чтения мануала и ряда ошибок я таки запустил автозагрузку данных без вопросов со стороны скрипта


nohup /postgres/ora2pg/client/import_all.sh -d client -o postgres -U postgres -a -y -I -P 8


По сути, мы дропаем старую базу постгреса и создаем новую, по умолчанию соглашаясь со всем, что нам предлагает скрипт.


Да, тут тоже фишка в параллельной загрузке 8 таблиц, иначе не знаю, насколько растянулся-бы 9-часовой процесс.


И еще, если придется догружать другие обьекты — то уже без опций -a, -y, -I и ноухапа, с ответом на кучу вопросов.


Собственно, на этом все, и как-бы сказал(а) программист(ка) из "Путешественников":



"… Пожалуйста!, — ведь я спасла Ваши задницы!"


Теги:
Хабы:
Всего голосов 12: ↑12 и ↓0+12
Комментарии7

Публикации

Истории

Работа

Ближайшие события