Потоковое обучение при выборе оптимальной системы разработки

15.05.2020

PROНЕФТЬ. Профессионально о нефти. – 2020 - № 1 (15).

УДК 622.276.1/.4

Д.В. Сун, М.В. Окунев
Научно-Технический Центр «Газпром нефти» (ООО «Газпромнефть НТЦ»)

Электронные адреса: Sun.DV@gazpromneft-ntc.ru, Okunev.MV@gazpromneft-ntc.ru

Ключевые слова: выбор оптимальной системы разработки, программа хоппер, повышение рентабельности инвестиционных проектов, машинное обучение, потоковое обучение, градиентный бустинг

Решение задачи выбора оптимальной системы разработки для нефтяного месторождения традиционно сводится к многовариантным расчетам прогнозного профиля добычи с использованием гидродинамических симуляторов и последующим расчетом экономический эффективности. Учитывая, что количество вариантов систем разработки в зависимости от числа варьируемых параметров может доходить до нескольких десятков тысяч, вопрос сокращения времени на проведение расчетов является одним из наиболее приоритетных в рамках увеличения эффективности деятельности нефтедобывающей компании. В статье описан способ, позволяющий при помощи инструментов машинного обучения исключить из выборки различных вариантов систем разработки заведомо нерентабельные и малоэффективные варианты для снижения общего объема вычислений. Представленная авторами методика разрабатывалась и отлаживалась на основе результатов многовариантных расчетов в гидродинамическом симуляторе для месторождения A и тиражировалась на варианты систем разработки месторождения B. В обоих случаях перед проведением расчетов в симуляторе предварительно сформированные списки с вариантами разработки были подвергнуты «умному ранжированию», основанному на алгоритме k-means. Данная операция была необходима для обеспечения разнообразного набора значений в выборке для обучения. Кроме того, в работе проведен выбор регрессионной модели на основе сравнительного анализа прогнозной способности шести различных моделей. Наиболее точной оказалась модель Gradient Boosting. Выбранная модель была протестирована на способность прогнозировать технологический (КИН) и экономические показатели (NPV и PI) вариантов разработки и показала высокие результаты – по каждому из показателей удалось достигнуть точности прогноза с R2 > 0,9. Однако в рамках данной работы авторы сосредоточились на оценке прогноза параметра PI. На основе результатов гидродинамических расчетов 600 вариантов разработки месторождения А был предложен алгоритм, позволяющий диагностировать что регрессионная модель обучилась и способна выдавать корректный прогноз. Предложенный вариант расчета так называемого «критерия остановки расчетов» был испытан авторами на 8230 вариантах систем разработки месторождения B.

Using streaming machine learning for development system optimization

PRONEFT''. Professional'no o nefti, 2020, no. 1 (15).

D.V. Sun, M.V. Okunev
Gazpromneft NTC LLC, RF, Saint-Petersburg

E-mail: shvarev_ng@spbstu.ru, markovnicholas@gmail.com

Keywords: selecting the optimal system design for the fields, Hopper drilling program, improving the profitability of investment projects, machine learning, streaming training, gradient boosting

The solution to the problem of choosing the optimal development system for an oil field traditionally comes down to multivariate calculations of the forecast production profile with the use of hydrodynamic simulators and the subsequent calculation of economic efficiency. The number of options for development systems, depending on the number of variable parameters, can reach several tens of thousands of options. Considering that the issue of reducing the time for calculations is one of the highest priorities in terms of increasing the efficiency of the oil company. This work introduces a method that allows using machine learning (MO) tools to exclude obviously unprofitable and ineffective options from the sample of various development systems to reduce the total amount of calculations. The methodology presented by the authors was developed and debugged based on the results of multivariate calculations in a hydrodynamic simulator for field A and replicated to variants of field development systems B. In both cases, before the calculations were performed in the simulator, pre-formed lists with development options were subjected to “smart ranking” based on the algorithm k-means. This operation was necessary to provide a diverse set of values in the sample for training. This work also presents the regression model selection based on a comparative analysis of the predictive ability of six different models. The most accurate one was the Gradient Boosting model. The selected model was tested for the ability to predict technological (КИН?) and economic indicators (NPV and PI) development options and showed good results - for each of the indicators it was possible to achieve forecast accuracy with R2> 0.9. However, the authors only focused on assessing the forecast of the parameter PI. Based on the results of hydrodynamic calculations of 600 development options for field A, an algorithm was proposed to diagnose that the regression model was trained and is able to produce a correct forecast. A variant of the calculation of the so-called “calculation stopping criterion” was proposed, which was tested by the authors on 8230 variants of field development systems B. The results of the approach are presented in the last part of this paper.

DOI: 10.24887/2587-7399-2020-1-56-60

Введение

В сложившейся практике «Газпром нефти» при выборе оптимальных систем разработки актива проводятся многовариантные расчеты в несколько этапов с постепенным увеличением детализации модели. Таким образом, перед проведением расчетов на полномасштабных гидродинамических моделях (ГДМ) большое число заведомо неэффективных вариантов отсеивается на этапе серийных расчетов на упрощенных прокси-моделях. Несмотря на то, что данный подход (моделирование от простого к сложному) значительно сокращает общее время на поиск оптимальной системы разработки, первоначальный этап может длиться до нескольких месяцев. Для увеличения скорости расчетов в корпоративном программном обеспечении внедрены методы оптимизации, способные подбирать в ограниченном подмножестве вариантов наиболее эффективные. Однако это не позволяет охватить все сложные конфигурации систем разработки при варьировании дискретных параметров, таких как тип заканчивания скважин, соотношение числа добывающих и нагнетательных скважин и др. Появление новой технологии заканчивания приведет к увеличению скорости расчетов в 2 раза. С целью сокращения времени на выполнение общего объема расчетов в данной работе предложено включить в поиск оптимальной системы разработки этап предварительного скрининга рассматриваемых систем с помощью инструментов машинного обучения. Авторы предполагают, что с помощью инструментов машинного обучения можно установить функциональную связь между показателями эффективности разработки месторождения: индексом прибыльности (PI), чистым дисконтированным доходом (NPV), коэффициентом извлечения нефти (КИН), и параметрами системы разработки нефтяного месторождения, такими как плотность сетки скважин (ПСС), коэффициент деформации сетки скважин Кд, тип заканчивания скважин, длина горизонтального окончания, время отработки и др. Параллельно с расчетом вариантов систем разработки с помощью прокси-модели осуществляются обучение и тестирование регрессионной модели для поиска зависимости значения целевой функции от параметров системы разработки. Варианты систем разработки, просчитанные в симуляторе, разделяются на тренировочную и тестовую выборки для верификации прогноза PI, NPV и КИН. С каждым новым просчитанным вариантом объем обеих выборок увеличивается. Как только диагностируется, что модель достаточно обучилась, коэффициент корреляции R2 достигает приемлемого значения и прекращается рост качества прогноза, расчеты в симуляторе прекращаются и формируется пул только рентабельных вариантов систем разработки для возобновления расчетов. Предложенный алгоритм позволит на основе результатов меньшего по сравнению с исходной выборкой числа вариантов разработки, предварительно рассчитанных в симуляторе с помощью методов машинного обучения, спрогнозировать показатели PI, NPV и КИН для тех вариантов, по которым моделирование еще не проводилось. Методика, представленная в данной работе, разрабатывалась и совершенствовалась на основе результатов расчетов на проски-модели 600 вариантов систем разработки для месторождения A и тиражировалась на 8440 вариантов систем разработки месторождения B.

«Умная сортировка»

Варианты серийного расчета формируются перебором дискретных значений параметров, характеризующих систему разработки, и составлением всех возможных комбинаций между ними. Поскольку рассматриваемая методика прогнозирования предполагает обучение на вариантах, уже просчитанных в симуляторе, для повышения качества прогнозирования на ранних этапах необходимо, чтобы с самого начала входная тренировочная выборка отличалась как можно более разнообразным набором значений параметров. Поэтому перед подачей в симулятор сформированный список вариантов разработки был отсортирован с помощью разработанной «умной сортировки», основная идея которой заключается в кластеризации всех доступных вариантов систем разработки на ограниченное число групп с целью идентификации скопления «схожих» конфигураций систем разработки на основе признакового описания. Далее список вариантов разработки сортируется таким образом, чтобы объекты каждого кластера чередовались последовательно. Это гарантирует максимальное различие между вариантами разработки в очереди на расчет. При решении задачи кластеризации применялся алгоритм k-means, а число кластеров подбиралось таким образом, чтобы минимизировать дисперсию расстояний от центра до объектов внутри каждого кластера и минимизировать количественный дисбаланс наполнения кластеров объектами.

Доказана возможность прогнозирования технологических (кин) и экономических (npv и pi) показателей вариантов разработки по ограниченной выборке результатов расчетов при определении оптимальных систем разработки

Дисперсия рассчитывается по формуле

ф17.JPG

где p, q – признаковое описание двух сравниваемых объектов; l – число признаков каждого объекта в выборке.

Выбор модели и оценка прогнозной способности

Перед выполнением расчетов из всех используемых в модели параметров системы разработки были экспертно исключены коллинеарные признаки и те, которые не имеют значимой вариативности среди всех вариантов систем разработки.

31.JPG

Для использования модели с наибольшей прогнозной способностью выло проведено сравнение трех моделей линейной регрессии – Ridge, Lasso, Elastic Net и трех моделей на основе решающих деревьев – Random Forest, Gradient Boosting и Adaptive Boosting на выборке из 600 моделей месторождения A (рис. 1). Далее для каждой обученной регрессионной модели с помощью функции поиска по сетке были подобраны оптимальные гиперпараметры модели. Из рис. 1 видно, что наиболее высокой прогнозной способностью обладает модель Gradient Boosting. Также эта модель была протестирована на способность прогнозировать другие показатели эффективности разработки месторождения – NPV и КИН. В табл. 1 приведено сравнение точности прогноза показателей NPV, КИН и PI через коэффициент детерминации R2, среднюю абсолютную ошибку MAE и среднюю квадратичную ошибку MSE. Далее авторами анализировался прогноз параметра PI.

32.JPG

Критерий остановки расчетов

Для остановки расчетов необходимо определить критерий остановки. Диагностировать, что модель обучилась, можно по так называемым та R2 и его приращения от числа просчитанных в симуляторе вариантов систем разработки, доступных для обучения регрессионной модели. Для месторождения A число тренировочных вариантов для обучения изменялось от 1 до 600, на оставшуюся выборку строился прогноз и определялись коэффициент R2 и его приращение. Каждый набор предположительно рассчитанных вариантов разделялся на обучаю- щую и тестовую выборки, и с использованием кроссвалидации с обучением модели Gradient Boosting оценивалась прогнозная способность на основе средних значений R2, MAE и MSE. Для вывода критерия остановки просчитано большое число кривых обучения на основе случайной сортировки входного датасета вариантов разработки. На рис. 2, а приведены полученные кривые обучения. Из него видно, что, начиная с 250 просчитанных вариантов разработки коэффициент R2 превышает 0,9 и далее практически не меняется. Значение приращения в данном интервале колеблется около нуля (рис. 2, б). Экспертно был выбран интервал, в котором качество прогнозирования модели не изменяется, и на тренировочных моделях, число которых составляло от 250 до 570, было получено стандартное отклонение по приращению σ = 0,0019. Согласно «правилу трех сигм (3σ)» 99,73 % значений выборки, нормально распределенной случайно, величины ¯x лежат в интервале (¯x–3σ; ¯x+3σ), в данном случае – в интервале (-0,0056; 0,0056). Попадание значений приращения в данный интервал по 30 расчетам подряд с 95 %-ной эффективностью будем считать критерием достаточной «обученности» прогнозной модели. Данный подход позволяет диагностировать

33.JPG

прекращение роста качества прогноза с увеличением доступного объема рассчитанных вариантов разработки и прекратить расчеты на ГДМ, перейдя к прогнозированию технологических и экономических параметров. При этом критерий остановки расчетов не зависит от абсолютного значения R2, на него влияет лишь значение приращения качества прогноза относительно предыдущего числа рассчитанных моделей.

Результаты применения подхода

Предложенная методика была применена на кейсе месторождения B. Кейс представляет собой результаты расчетов 8440 вариантов различных систем разработки, просчитанных в корпоративном симуляторе Numex. На данных месторождения B был реализован алгоритм потокового обучения на прогноз показателя PI с предварительным препроцессингом входной выборки вариантов систем разработки с помощью «умной сортировки». Начальное число моделей, требуемых для начала обучения, было принято равным 10, конечное – определялось выполнением критерия остановки расчетов. Каждая новая итерация обучения прогнозной модели аналогична процессу постепенного получения результатов по рассчитанным в симуляторе вариантам разработки. В процессе итерационного обучения прогнозной модели на каждом шаге рассчитывались критерии качества прогноза: значение R2, приращение R2, скользящее среднее по приращению R2, относительная ошибка и максимальное значение относительной ошибки. Кроме того, выполнялся расчет процентного попадания скользящего среднего по приращению R2 в интервал, ограниченный значением 3σ = (-0,0056; 0,0056). Критерий остановки рассчитывается следующим образом:

ф18.JPG

где R2′ t – индикатор отклонения приращения на текущем шаге; R2 t – значение коэффициента детерминации на текущем шаге; n=5 – число значений исходной функции для расчета скользящего среднего; m=30 – число предыдущих расчетов для оценки стабилизации прогнозной способности модели. В итоге расчет остановился на 210 тренировочной модели при попадании в интервал более 95 % выборки по 30 подряд рассчитанным моделям со средним значением коэффициента R2=0,89 и средним значением MAE=0,35 (рис. 3). На не просчитанную в симуляторе выборку был выполнен прогноз PI с учетом максимальной относительной ошибки и далее проведена оценка рентабельности вариантов

34.JPG

разработки по следующему критерию условной рентабельности:

ф19.JPG

где PIi model – прогнозный PI отдельно взятого варианта разработки; PImin=1,15 – граничный PI (критерий рентабельности, утвержденный в «Газпром нефти»); REi max – максимальное значение относительной ошибки на момент срабатывания критерия остановки. Все варианты разработки, по которым выполняется данное условие, можно считать условно рентабельными и рекомендованными к дальнейшему расчету. Для с месторождения B все варианты, по которым фактический PI был больше минимально рентабельного, были идентифицированы как истинно положительные (TP) либо ложно положительные (FP) (табл. 2). Истинно отрицательные варианты (TN) исключаются из дальнейших расчетов, а число ложно отрицательных (FN) вариантов должно быть равно нулю, не допускается ошибка алгоритма в идентификации рентабельных вариантов как нерентабельных.

35.JPG

Таким образом, для дальнейшего моделирования было рекомендовано 4442 истинно положительных и 259 ложно положительных вариантов, т.е. 56 % выборки, с учетом просчитанных моделей – 58 %, что позволит сэкономить 42 % общего времени расчетов.

Выводы

1. Доказана возможность прогнозирования технологических (КИН) и экономических (NPV и PI) показателей вариантов разработки по ограниченной выборке результатов расчетов при определении оптимальных систем разработки. 2. Рассмотренный подход не зависит от физических особенностей используемого симулятора и способен работать как на полноценных ГДМ, так и на основе расчетов в упрощенных моделях (например, на основе трубок тока); 3. Применение подхода позволяет сэкономить до 40 % времени при расчетах выбора оптимальной системы разработки; 4. Возможно дальнейшее развитие методики с получением комплексного параметра на основе PI, NPV и КИН с последующим ранжированием по привлекательности и расчетом очень ограниченного объема моделей.

Список литературы

    1. Климов В.Ю. Выбор устойчивой системы разработки – путь повышения ценности актива // PROНЕФТЬ. – 2017. – № 1. – С. 60-66.
    2. Выбор оптимальных параметров системы разработки нефтяного месторождения / М.М. Хасанов, О.С. Ушмаев, С.А. Нехаев, Д.М. Карамутдинова // Нефтяное хозяйство. – 2012. – № 12. – С. 26-31.
    3. Белоногов Е.В., Пустовских А.А., Ситников А.Н. Критерий выбора способа разработки низкопроницаемых коллекторов // PROНЕФТЬ. – 2019. – № 1. – С. 49-51.
    4. Ситников А.Н. Оптимальная система горизонтальных скважин с многостадийным гидроразрывом пласта при разработке залежи на упругом режиме // Нефтяное хозяйство. – 2017. – № 4. – С. 68–71.
    5. Критерий выбора способа разработки низкопроницаемых коллекторов / А.Н. Ситников, А.А. Пустовских, Е.В. Белоногов [и др.] // Нефтяное хозяйство. – 2016. – № 12. – С. 56-59.

    Reference

    1. Klimov V.Yu., Choice of stable development system - way to improve asset value (In Russ.), PROneft'. Professional'no o nefti, 2017, no. 1, pp. 60–66.
    2. Khasanov M.M., Ushmaev O.S., Nekhaev S.A., Karamutdinova D.M., Selection of optimal parameters of oil field development (In Russ.), Neftyanoe khozyaystvo – Oil Industry, 2012, no. 12, pp. 26-31.
    3. Belonogov E.V., Pustovskikh A.A., Sitnikov A.N., Methodology for determination of low-permeability reservoirs development (In Russ.), PRONEFT''. Professional'no o nefti, 2018, no. 1, pp. 49-51.
    4. Sitnikov A.N., Optimal multiple-fractured horizontal well pattern for depletion drive reservoirs (In Russ.), Neftyanoe khozyaystvo – Oil Industry, 2017, no. 4, pp. 68–71.
    5. Sitnikov A.N., Pustovskikh A.A., Belonogov E.V., Samolovov D.A., Kubochkin N.S., Methodology for determination of low-permeability reservoirs optimal development by wells with multi-stage fracturing (In Russ.), Neftyanoe khozyaystvo – Oil Industry, 2016, no. 12, pp. 56-59.

Возврат к списку