Применение машинного обучения для прогнозирования акустических свойств образцов горных пород

26.12.2018

Источник: Журнал «PROнефть»

Application of machine learning to predict the acoustic properties of rock samples

УДК 681.3 

И.С. Чебышев
Научно-Технический Центр «Газпром нефти» (ООО Газпромнефть НТЦ)
Е.С. Барышников
Сколковский институт наук и технологий
В.А. Легкоконец
Санкт-Петербургский горный университет

Электронные адреса: Chebyshev.IS@gazpromneft-nt.ru bar.e.s@icloud.com v.legkokonets@gmail.com

Ключевые слова: геомеханика резервуаров, машинное обучение, акустические исследования, горная механика

I.S. Chebyshev
Gazpromneft NTC LLC, RF, Saint-Petersburg
E.S.Baryshnikov 
Skolkovo institute of science and technology
V.A.Legkokonets 
Saint-Petersburg Mining University

In the cases of absence acoustic logging, alternative methods of calculating the necessary rock properties are required. This article describes the results of applying machine learning technologies to predict the velocities of elastic waves propagation.

Keywords: reservoir geomechanics, machine learning, acoustic properties, rock mechanics

DOI: 10.24887/2587-7399-2018-4-67-70

ВВЕДЕНИЕ

Для построения 1D и 3D геомеханических моделей используются динамический модуль Юнга и динамический коэффициент Пуассона, рассчитанные на основе скоростей распространения продольной vp и поперечной vs упругих волн [1, 2]. 

Запись акустического каротажа для определения vp и vs является дорогостоящей операцией, требующей экспертной оценки, анализа и интерпретации. Поэтому данный вид исследований в скважинах российских месторождений проводится редко. В статье рассмотрены результаты применения технологий машинного обучения для прогнозирования акустических свойств образцов горных пород. 

Суть МАшИННого оБуЧЕНИя

Суть технологий машинного обучения заключается в следующем. Имеется множество признаков и множество возможных результатов. Существует некоторая зависимость между результатами и признаками, но она неизвестна. Известна только конечная совокупность прецедентов — пар (признак, результат), называемая обучающей выборкой. На основе этих данных восстанавливается неявная зависимость, т.е. строится алгоритм, способный для любого возможного входного объекта выдать достаточно точный ответ. 

ИСхоДНыЕ ДАННыЕ

Любое построение корректной предсказательной модели с использованием методов машинного обучения начинается с оценки исходных данных. В первую очередь нужно выделить главную проблему, препятствующую внедрению машинного обучения при прогнозировании физико-механических свойств горных пород – это отсутствие единой актуальной базы данных. В настоящее время в распоряжении специалистов имеется достаточно большой архив кернового материала с результатами проводимых исследований. Однако все данные в этом архиве хранятся разрозненно, результаты исследований находятся в отдельных таблицах, которые имеют различную структуру, оформление и особенности заполнения. Чтобы можно было использовать данные с алгоритмами машинного обучения, необходимо объединить их в единый массив. Для этого была собрана база из 4470 образцов для определения перспективности применения предложенной технологии, затем написан так называемый парсер – скрипт, компонующий данные из различных таблиц в одну базу. 

ПРЕДоБРАБотКА ДАННых

После компоновки выборки следует предварительно обработать данные (удалить «выбросы», провести нормировку значений). Для каждого образца были известны значения пористости, плотности и дано словесное литологическое описание. Прогнозируемыми величинами являлись скорости распространения продольной и поперечной упругих волн, полученные в результате механических акустических исследований керна. Результат удаления «выбросов» представлен на рис. 1. 

Для того, чтобы не учитывать аномальные значения в исходных числовых данных, можно руководствоваться следующими статистиками [3]: 

– первый квартиль – число, при котором 25 % объектов лежат левее него; 

– третий квартиль – число, при котором 75 % объектов лежат левее него; 

– интерквартильный размах – разница третьего и первого квартилей. 

Для определения некорректных значений целесообразно использовать следующую эвристику, свидетельствующую о том, что аномальные значения находятся за пределами интервала, границы которого определяются первым и третьим квартилями


где хan – аномальное значение; Q1 – первый квартиль; IQR – интерквартильный размах; Q3 –третий квартиль. Далее для корректной работы метрических алгоритмов может потребоваться стандартизация числовых признаков (пористость и плотность):

(2) где xst – масштабированное значение признака; x – исходное значение признака; `x – среднее значение признака; s – среднеквадратическое отклонение. Для работы с литологическим описанием применялся метод One-Hot Encoding, переводящий строковые значения (словесное описание) в бинарный вектор (табл. 1). 

Следует отметить, что данный метод применялся для работы только с наиболее распространенными словами, такими как «песчаник», «алевролит», «мелкозернистый», «крупнозернистый», «нефтенасыщенный», «слюдистый», «алевритовый», «алевритистый», «глинистый», «массивный», «детрит», «карбон».


ПРИМЕНИМоСть МЕтоДоВ МАшИННого оБуЧЕНИя

Для построения всех описанных в статье моделей использовалась обучающая выборка, составляющая 75 % исходной базы данных. Результаты оценивались по тестовой выборке, включающей оставшиеся 25 %, чтобы избежать влияния переобучения моделей на итоговый результат. Разбиение на обучающую и тестовую выборки проводилось случайным образом. 

Для предварительной оценки применимости методов машинного обучения был использован метод линейной регрессии (Linear Regression), представляющей собой взвешенную сумму значений признаков. Полученный при применении этого метода результат свидетельствует о перспективности использования технологий машинного обучения, целесообразности укрупнения базы данных и калибровки алгоритмов. Имеется опыт использования нейронных сетей для решения указанной задачи [4].
Однако они отличаются повышенной ресурсоемкостью, чувствительностью и сложностью настройки параметров модели. В связи с этим было предложено применять методы ближайших соседей (k-Nearest Neighbors) и случайного леса (Random Forest).

МЕтоД БЛИжАйшИх СоСЕДЕй

Метод ближайших соседей является достаточно простым для интерпретации, настройки и применения. Его идея состоит в том, что близким объектам в признаковом пространстве соответствуют близкие ответы. В случае задачи восстановления регрессии объекту присваивается среднее значение по k ближайшим к нему объектам, так называемым «соседям»:

где f(x, K) – прогнозируемый признак; K – число соседей; f(xk) – признак объекта xk. При использовании этого метода основным параметром, требующим настройки, является число ближайших соседей, необходимых для прогноза. Выбор необходимого числа соседей выполнялся с использованием метода кроссвалидации путем максимизации выбранной метрики качества предсказания.

МЕтоД СЛуЧАйНого ЛЕСА

Метод случайного леса предполагает использование большого ансамбля решающих деревьев. В связи с этим размер модели достаточно велик, а результат ее работы практически невозможно интерпретировать. Решающее дерево по сути представляет собой попытку повторить алгоритм принятия решений, используемый человеком. В такой схеме решения исходные признаки объекта сравниваются с установленным набором определенных критериев. Если подходить более формально, то решающее дерево – ациклический граф, в котором есть только два типа вершин. Вершина, соединенная с двумя дочерними, называется внутренней, вершина, не соединенная ни с одной другой, называется терминальной или листовой. Во внутренних вершинах располагаются предикаты, определенные алгоритмами заранее на основе обучающей выборки. Предикат способен по признакам объекта установить в какую ветвь (левую или правую) отправляется объект. 

В листовых вершинах определяется набор значений. В этом случае, для объектов, доходящих до определенных листьев, устанавливаются в соответствие данные значения. При переходе к случайному лесу требуется разбить всю имеющуюся выборку на определенное число подвыборок, для каждой из которых строится свое решающее дерево. При этом каждое дерево дает довольно низкое качество предсказания, однако за счет их большого числа точность результата значительно возрастает. 

После такого построения нетрудно объединить все деревья в единую модель путем простого «голосования». Тогда результатом работы алгоритма будет набор определенных значений и соответствующих им вероятностей такого ответа. 

Метод случайного леса схож с методом ближайших соседей [5]. Случайные леса по сути осуществляют предсказания для объектов на основе меток похожих объектов из обучения. 

Основными параметрами, требующими регулирования при использовании данного алгоритма, являются: 

– число деревьев в «лесу»; 

– число признаков, по которым ищется разбиение; 

– минимальное число объектов в листе; 

– максимальная глубина дерева.



Рис. 2. Результаты применения методов машинного обучения для прогнозирования скорости распространения продольной vp (а) и поперечной vs (б) упругих волн

На рис. 2 представлена визуализация результатов работы алгоритмов, описанных в статье, в табл. 2 приведено сравнение точности прогноза предложенных методов по значению коэффициента детерминации [4].

ВыВоДы

1. Наиболее эффективным методом прогноза продольной и поперечной акустических волн является метод случайного леса. Он практически не чувствителен к аномальным данным, требует менее тщательной настройки параметров по сравнению с нейронной сетью, легко параллелизуется и масштабируется. 

2. Использование методов машинного обучения применимо для скважин с отобранным керном при отсутствии в них записи акустического каротажа. 

3. Точность прогноза при использовании данных методов может быть увеличена при расширении численного диапазона механических свойств, входящих в обучающую и тестовую выборки. 

4. Полученный в результате выполнения представленной работы опыт может стать основой для прогнозирования прочности горных пород, а также таких параметров, как статический модуль Юнга, статический коэффициент Пуассона и сжимаемость горных пород.

Cписок литературы 

1. Zoback M. Reservoir Geomechanics. – Cambridge: Cambridge University Press, 2010. – 461 p. 
2. Petroleum Related Rock Mechanics / Fjar E. [et. al.]. – 2nd Ed. – Elsevier, 2008. – 492 p. 3. Zwillinger D., Kokoska S. Standard Probability and Statistics tables and formulae. – London. – New York: Chapman & Hall CRC, 2000. – 537 p. 
4. Chebyshev I., Legkokonets V., Lukin S. Specifics of mechanical and strength rock properties estimation for wells drilling and exploitation // Procedia Structural Integrity. –  2017. – № 6. –  Р. 252-258. 
5. Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: data mining, inference, and prediction. – Springer, 2017. – 745 p.

Reference 

1. Zoback M., Reservoir geomechanics, Cambridge University Press, 2010, 461 p. 
2. Fjar E., Holt R.M., Horsrud, P., Raaen A.M., Risnes R., Petroleum related rock mechanics, Elsevier, 2008, 492 p. 
3. Zwillinger D., Kokoska S., Standard probability and statistics tables and formulae, London, New York: Chapman & Hall CRC, 2000, 537 p. 
4. Chebyshev I., Legkokonets V., Lukin S., Specifics of mechanical and strength rock properties estimation for wells drilling and exploitation, Procedia Structural Integrity, 2017, no. 6, pp. 252-258. 
5. Hastie T., Tibshirani R., Friedman J., The elements of statistical learning: data mining, inference, and prediction, Springer, 2017, 745 p.


Возврат к списку