С Днем металлурга — 2024 с пожеланиями
железной выдержки и неиссякаемой энергии!
Создателям нового высокотехнологичного сплава —
«Геометаллургическое моделирование» посвящается.
Статья посвящена исследованию новых возможностей пространственной трехмерной интерполяции методами машинного обучения для решения традиционных геологических задач с недостатком данных. Впечатляющий успех моделей машинного обучения определяется богатыми возможностями и простотой в использовании, позволяющими воспроизводить чрезвычайно сложные зависимости за счет способности самообучаться. Оператор-специалист подбирает представительные данные, а затем запускает алгоритм обучения, который автоматически воспринимает и анализирует структуру входных и целевых данных. Модель, натренированная на ограниченном множестве данных, способна обобщать полученную информацию и показывать хорошие результаты на данных, не использовавшихся в процессе обучения. При этом от пользователя, конечно, требуется какой-то набор знаний о том, как следует отбирать и подготавливать данные, выбирать нужный алгоритм и интерпретировать результаты, однако уровень знаний, необходимый для успешного применения нейросетевых технологий, гораздо скромнее, чем, например, при использовании геостатистических методов.
Перед тем как продемонстрировать построения интерполяционной модели на реальном примере создания цифровой модели топографической поверхности (Практический пример 2), у автора возникла идея, условно говоря, протестировать экспериментальным путем сам аналитический и методический подход, лежащий в основе машинного обучения, показав его максимально практично, на простом математическом примере (Практический пример 1).
Практический пример 1
Предположим, что у нас есть Обучающая выборка, представляющая собой матрицу (или, проще говоря, Таблицу данных), которая имеет три столбика случайных переменных значений a, b и с, сгенерированных в количестве 100 наблюдений для каждого из трех полей переменных (a, b и с) в диапазоне от 0 до 100.
Далее для каждого из 100 наблюдений выполним простой расчет значений в новом поле Y по формуле:
Y=2*a+3*b+5*c
Затем на данной Обучающей выборке «потренируем» алгоритмы машинного обучения в том, чтобы по значению входных переменных a, b и с предсказывать значение целевой переменной Y (см. рис. 2).
Особенность данного обучения состоит в том, что модель обучается на исходных входных и целевых данных, находит специфические связи, указывающие на зависимости внутри данных и на их основе строит свой прогноз, при этом не зная о самой математической формуле, используемой нами при расчете целевой переменной Y. Прогнозные целевые значения каждой итерации сравниваются с исходными целевыми значениями, которые также содержатся в наборе исходных данных, и ошибка, то есть разность между желаемым и реальным выходом, используется для корректировки весов сети так, чтобы уменьшить эту ошибку.
Качество предсказания целевой переменной Y оценивается по двум основным показателям: Rsquared — коэффициент детерминации (квадрат коэффициента линейной корреляции) и RMSE — среднеквадратичная ошибка (ошибка прогнозирования) — это часто используемая мера различий между значениями. Показатели качества предсказания несколькими наилучшими методами для Обучающей выборки приведены в табл. 1.
Таблица 1. Показатели качества прогноза разными методами по Обучающей выборке (Пример 1)
Тип модели (метод) |
RSquared |
RMSE |
Linear Regression |
1,000 |
0,000 |
Stepwise Linear Regression |
1,000 |
0,000 |
Gaussian Process Regression (GPR) |
1,000 |
0,002 |
Neural Network (NN) |
1,000 |
0,028 |
Единственная опасность, которой нужно остерегаться, — это переобучение модели, когда она просто «запоминает» примеры и плохо распознает любые другие примеры, не участвовавшие в процессе обучения (то есть примеры, предъявляемые ей в процессе практического использования). Один из способов преодолеть проблему переобучения — разбить всю выборку на два или три подмножества: обучающую (Training), контрольную (Validation) и тестовую (Test). Эти случайные подвыборки используются для: 1) обучения, 2) проверки или контроля производительности сетей во время обучения и 3) итогового тестирования обученных моделей, чтобы определить, насколько хорошо модели работают на «новых» данных. Точность прогноза на трех случайных подвыборках и по всей Обучающей выборке показана на диаграммах рассеяния на рис. 1 (слева).
Рис. 1. Сравнение диаграмм рассеяния Обучающих выборок 1-го (а — слева) и 2-го (б — справа) примеров
ВЫВОД № 1
На основе приведенных выше метрик можно сделать ВЫВОД № 1 о высоком качестве предсказания и сделать предположение о том, что обученные модели можно использовать для предсказания на последующей прогнозной выборке, то есть точно прогнозировать значение Y на любом количестве новых вводных переменных a, b и с.
Для того чтобы проверить ВЫВОД №1 (о высокой точности предсказания), создадим новую Таблицу данных, уже в качестве Прогнозной выборки, которая представляет собой три столбика случайных переменных значений a, b и с, сгенерированных в диапазоне от 0 до 500. Спрогнозируем четырьмя разными методами значение Y прогнозной, а затем рассчитаем Y измеренное по формуле:
Y = 2*a+3*b+5*c в дополнительном контрольном столбике (для оценки качества прогноза). Таким образом, большАя часть значений в Прогнозной выборке отличается от значений в Обучающей выборке, то есть является совершенно новыми и неизвестными наблюдениями, не использовавшимися в процессе обучения для раннее натренированных (на выборке из 100 наблюдений) моделей.
Качество предсказания целевой переменной Y прогнозное для выборки в количестве 500 наблюдений оценивалось четырьмя разными методами по цифровым показателям Rsquared (коэффициент детерминации) и визуально — на диаграммах рассеяния.
Практически идеальная корреляция измеренных данных и предсказанных значений для 500 наблюдений Прогнозной выборки, показанная на рис. 2 (на примере метода GPR), доказывает высокую точность предсказания и истинность ВЫВОДА №1.
Рис. 2. Диаграмма рассеяния для Прогнозной выборки (500). Также наглядно показана табличная структура массива данных Прогнозной выборки и математическая формула расчета значения Y
Для справки. Модели предсказания на основе машинного обучения тестировались также еще на нескольких прогнозных выборках в диапазонах 500–1000 и 100–1000 (в качестве дополнительных экспериментов), которые являются полностью новыми, то есть отличными от тех, что использовались при обучении моделей. Отмечено, что и на дополнительных прогнозных выборках (в диапазонах 500–1000 и 100–1000) высокая точность предсказаний оставалась неизменной.
После того как была доказана высокая точность предсказания на моделях, которые отличаются очень четкой (на основе математического уравнения) зависимостью, далее уже на реальных геологических данных, которые заведомо отличаются менее четкой зависимостью между входными и целевыми переменными, можем использовать точность алгоритмов машинного обучения для задач межскважинной интерполяции. Чтобы наглядно сравнить силу корреляционных зависимостей, на рис. 1 сведены вместе диаграммы рассеяния Обучающих выборок 1-го и 2-го примеров для лучшей наглядности.
Практический пример 2
Особенностью примера 2 является следующее:
1. Отличие от примера 1 — результаты применения нейронных сетей для задач прогнозирования в данном примере имеют реальное практическое применение и хотя и не высокий, но вполне реальный бизнес эффект
2. Сходство с примером 1 — результаты применения нейронных сетей в данном примере имеют максимально высокую степень доказательности и проверяемости не косвенными, а реальными фактическими данными, полученными с небольшим отставанием по времени и с низкими финансовыми затратами. Необходимо отметить, что использование искусственного интеллекта для трехмерного моделирования различных признаков (например, технологических показателей), имеющих неравномерное распределение в трехмерном пространстве, о которых мы уже не раз рассказывали в наших публикациях [1], как раз «страдает» тем, что качество моделирования и прогнозирования проверяется только косвенными данными, а получение прямых данных контроля точности прогнозирования имеет большое отставание по времени и требует существенных финансовых затрат.
Реальная ситуация для примера 2 заключается в следующем. В ходе построения цифровой модели месторождения для горнотехнического обоснования границ открытой отработки и построения оптимального контура карьера стояла задача построения цифровой модели топографической поверхности. Особенность данной работы была сформулирована в следующих условиях, приведенных ниже:
a) Данные топографической съемки масштаба 1:2000 на момент выполнения работ не были готовы.
b) В качестве исходных данных для построения цифровой модели топоповерхности были приняты данные координат и высот устьев разведочных скважин.
c) Авторы не располагали программным обеспечением для имплицитного (условного) моделирования на основе радиальных базисных функций, которое реализовано в ряде зарубежных дорогостоящих программах и, как известно, позволяет успешно решать подобные задачи моделирования.
d) Возможность построения триангуляционной поверхности не рассматривалась из-за неудовлетворительного качества построения изолиний (для нормативной графической документации) по триангуляционной поверхности, а главное, из-за отсутствия возможности экстраполяции цифровой модели топографической поверхности за пределами расположения устьев скважин при использовании триангуляции. Алгоритм триангуляции Делоне, как известно, не позволяет прогнозировать значения выше максимальных и ниже минимальных измеренных значений.
Для обучения нейросетевой регрессионной модели данные координат и высот устьев разведочных скважин в количестве 237 скважин были разделены на две подвыборки : 203 скважины были выделены в Обучающую выборку и 34 скважины рэндомным (случайным) способом были выделены в Тестовую выборку для итогового тестирования обученных моделей, чтобы определить, насколько хорошо модели работают на «новых» данных. Точность прогноза на Тестовой выборке оставила 99%.
Ценность и особенность выполненной работы заключается в том, что Прогнозная выборка одновременно являлась еще и Контрольной, так как в последствии была выполнена топографическая съемка масштаба 1:2000 и соответствующая фактическая топоповерхность была использована в качестве прямого контроля точности прогнозирования, путем сравнения прогнозных и фактических данных.
Точность прогноза оценивалась на диаграмме рассеяния (Scatterplots), рис. 3, и на графиках квантиль-квантиль (QQ Plots), рис. 4.
Рис. 3. Диаграмма рассеяния значений координаты Z по данным фактической съемки (ось Х) и данным прогнозной оценки методом GPR (ось Y) для цифровой модели топографической поверхности
Рис. 4. Сопоставление значений координаты Z фактической и прогнозной выборки на графике квантилей
ВЫВОД №2
Разработанные методы межскважинной интерполяции на основе алгоритмов машинного обучения отличаются высокой точностью (точность — 96 %)
ЗАКЛЮЧЕНИЕ
Подводя итог, можно сделать окончательный вывод о высокой эффективности применения методов машинного обучения на основе нейросетевых технологий для задач межскважинной интерполяции, что являлось основной целью данного исследования.
Моделирование на основе нейросетевых технологий имеет следующие преимущества:
- Получаемый результат достаточно точно соответствуют исходным данным
- Методика проста в настройках и управлении. Способности моделей к самообучению позволяют находить закономерности в исходных данных. Не требует от геолога знаний нюансов геостатистики.
- Возможность быстрого выполнения кросс-валидации. Следовательно, более быстрый способ обучения данных, при этом избегая переобучения.
- Скорость работы выше, чем у традиционных алгоритмов.
- Наилучшая альтернатива стандартным интерполяторам IDW и Кригинг в условиях недостатка исходных данных. Применение IDW и Кригинга приводит к излишнему сглаживанию пространственного распределения исследуемых признаков в условиях дефицита данных [2]. Моделирование на основе нейросетевых технологий имеет важное значение как альтернатива использованию больших радиусов поискового эллипсоида в условиях недостатка исходных данных.
Полученные решения имеют большие потенциальные возможности для дальнейшего совершенствования. В частности, на основе имеющейся методики, разрабатывается новый подход выделения рудных тел без необходимости каркасного моделирования, на основе только лишь исходных данных опробования и с учетом априорной геологической информации (направления падения и простирания тела).
Эти методы могут быть успешно использованы для обучения алгоритма с целью последующего прогноза значений исследуемых параметров качества руды на неразбуренных участках (в точках с отсутствующей информацией), с последующей оценкой качества прогнозной способности [3].
В табл. 2 приведены сводные показатели оценки качества прогноза содержаний металла при сравнении оцененных значений с действительными известными значениями в узлах интерполяции, которые рэндомно удалялись из процесса обучения, а затем известные содержания сравнивались с прогнозными значениями:
- коэффициент линейной корреляции R
- коэффициент детерминации RSquared
- сопоставление результатов оценки среднего содержания серебра разными методами
Таблица 2. Сводные сравнительные показатели качества прогноза
Тип модели (метод) |
R |
RSquared |
Среднее содержание серебра, г/т (X) |
Относительное отклонение от фактического среднего содержания серебра, % (X-Y)/Y |
Gaussian Process Regression (GPR) |
0.821 |
0.675 |
390.56 |
0.68 |
k-Nearest Neighbors (kNN) |
0.775 |
0.601 |
386.24 |
-0.43 |
IDW |
0.558 |
0.312 |
382.86 |
-1.30 |
Кригинг |
0.542 |
0.294 |
380.44 |
-1.93 |
Фактическое среднее содержание серебра - Ag measured (Y) |
387.92 |
0 |
В сравнении участвовали два метода машинного обучения на основе нейросетевых технологий — GPR и kNN, а также два стандартных метода интерполяции — IDW (Метод обратных расстояний) и Кригинг
Примечание:
Gaussian Process Regression (GPR) — это регрессия гауссовского процесса, которая относится к классу случайных/стохастических процессов, определяющих значения случайных величин на основе закономерностей распределения в пространстве.
Интерполяция на основе kNN — это один из часто используемых алгоритмов пространственной интерполяции, который характеризуется улучшенным поиском ближайших соседей и взвешиванием.
ВЫВОД №3
Результаты сравнения доказывают ВЫВОД №3 о том, что разработанные методы межскважинной интерполяции на основе алгоритмов машинного обучения отличаются более высокой точность (точность — 82%), чем стандартные методы интерполяции IDW и Кригинг.
Литература
1. Геометаллургия, технологическое картирование, нейронные сети и практический опыт применения современных программных решений на примере золоторудного месторождения https://zolotodb.ru/article/13185.
2. Кушнарев П.И., Градовский И.И. Приемы блочного моделирования золоторудных месторождений при разработке ТЭО// Недропользование XXI век. 2014. №1. С. 66-70.
3. Nelson K. Dumakor-Dupey. Machine Learning—A Review of Applications in Mineral Resource Estimation// Energies. Доступно на https://doi.org/10.3390/en14144079 (обращение 16.07.2024).
Комментарии, отзывы, предложения
АВСD, 21.07.24 11:15:45 — автору
Нейросетевые технологии прекрасны, но пока недропользователи не перейдут с отбору достоверных проб исходя из размерности и морфологии рудных минералов все их преимущества будут сведены к нулю ! С советского времени мы помним, что ЭВМ не панацея-какого качества информацию ты в неё заложишь, то и получишь на выходе ! Ну и конечно достопамятное ФБУ "ГКЗ" вряд ли допустит "выделение рудных тел без необходимости каркасного моделирования, на основе только лишь исходных данных опробования и с учетом априорной геологической информации (направления падения и простирания тела)."
Мальцев, 21.07.24 18:02:39 — Старый, ABCD
На любой стадии любых работ, где возможно прогнозирование дорогих показателей (извлечение, физмех свойств, минеральный состав и многое другое) по данным массовой и дешёвой информации (например данные РФА). Разумеется, при условии достоверного и качественного опробования и определения как дешёвых так и дорогих данных. Повторю широко известную истину – «Мусор на входе, мусор на выходе»
Брат, 21.07.24 22:30:13 — Автор
Вы рассмотрели, пожалуй, чисто механистическую, счётную составляющую межскважинной интерполяции. То есть без учёта содержательной части изучаемых параметров или характеристик, закономерностей их локализации в геометризуемом пространстве при всей несхожести этих закономерностей.
Я имею в виду, что ситуация с топосъёмкой определена закономерностями формирования рельефа с ограниченным числом возможных вариативных форм поверхности и в этом смысле она значительно проще, чем увязка скважинных поинтервальных значений, скажем, средних содержаний чего бы то ни было, подчиняющихся совершенно иным и значительно более сложным закономерностям.
Подход-то к формированию выборки и обучающим процедурам в обоих случаях одинаков, а вот результат на выходе будет, боюсь, разниться и сильно.
Вероятно, применительно к средним содержаниям и прочим связанным с рудой характеристикам необходима предварительная локализация условно полезного объёма (по типу оконтуровки "неучтёнки") в отношении которого и будут реализовываться предлагаемые автором подходы.
Мальцев, 22.07.24 09:16:37 — Брату, всем
Совершенно согласен, что ситуация с топосъёмкой - значительно проще, чем увязка скважинных поинтервальных значений. Достаточно сравнить точность прогноза одним и тем же алгоритмом GPR: – 96 % для топо, значительно превышает точность прогноза – 82 % для значений скважинных интервалов)
Да, я сознательно упростил и сократил описание (возможно немного излишне для лучшей наглядности и убедительности) и сделал акцент на «счётной составляющей» без учета закономерностей их локализации в геометризуемом пространстве. По двум причинам :
1) чтоб не отвлекать читателя от основной идеи – Нейронные сети и машинное обучение – это не магия и это реально работает
2) учет закономерностей локализации в геометризуемом пространстве (корректное формирование выборки; доменные ограничения (оконтуровка); ориентация и параметры осей анизотропии и т.п. важные факторы интерполяции) которые, вы совершенно правы, обязательно необходимо учитывать при любых подходах ( в том числе и в нейросетях) - это все насколько, на мой взгляд, очевидно и об этом много и подробно написано, что просто не упомянул об этом, чтоб не отвлекаться от главного см - п.1)
Спасибо, что заметили и уточнили этот важный момент
Брат, 22.07.24 16:00:54 — Мальцев
Понял, не будем отвлекать читателя от основной идеи. Ещё вопрос: объем выборки наблюдённых значений задаётся только количественно с той же целью? Спасибо.
Мальцев, 22.07.24 18:37:52 — Брату
Если я вас правильно понял, то ответов два:
1. Объем выборки наблюдённых значений задаётся НЕТОЛЬКО количественно
2. При формировании обучающей выборки (наблюдённых значений) выполняется: очистка и предобработка данных, ограничение выбросов, выбор значимых предикторов (факторов) и учитываются другие ДЕТАЛИ, в зависимости от конкретней ситуации, но - это отдельная большая тема, в которую не стал погружаться в данной статье , но при моделировании ( и в ситуации с таблицей 2, в том числе) – конечно учитывается.
Брат, 22.07.24 21:56:07 — Мальцев
Спасибо. Больше мешать не буду, но, похоже, за рамками статьи у вас тоже весььма интересно.
Мальцев, 25.07.24 08:42:49 — Брату, всем
Весьма не только интересно, но и прибыльно, потому что современные технологии позволяют снижать затраты и повышать точность оценки в любом пространстве неопределенности, в нашем случае - в межскважинном пространстве. Попытался ниже представить общую картину в целом, а также систематизировать четыре основные типа задач, которые машинное обучение позволяет решать уже в реальных проектах - в нашей сфере добычи и разведки ПИ. Справедливости ради необходимо отметить, что по экспертным оценкам библиотеки Elibrary, наша сфера добычи и разведки ПИ занимает около 5% (и это в основном за счет нефтянки) в общем широком спектре применения машинного обучения в разных сферах деятельности.
Основные типы задач, в сфере добычи и разведки ПИ, которые решаются на практике, и дают реальную прибыль, благодаря использованию машинного обучения:
1. Регрессия (прогнозирование) – построение модели, способной предсказывать числовую величину «дорогих» признаков (например, технологических параметров руд) на основе зависимостей от набора «дешевых» признаков.
2. Классификация (по принципу «обучения с учителем») – определение технологических и природных типов руд на основе набора числовых и категориальных признаков
3. Интерполяция и экстраполяция числовых и категориальных признаков в любом пространстве неопределенности
4. Кластеризация (по принципу «обучения без учителя») – распределение (по кластерам) объектов и признаков (числовых и категориальных) с учетом их неоднородности, путём аппроксимации Больших Данных* :
4а) Подготовительная и вспомогательная обработка для решения первых трех типов задач (см. п. 1-3);
4б) Выделение перспективных участков для проведения поисков и разведки, за счет создания и обработки цифровых прогнозных моделей в условиях Больших Данных, собранных на предыдущих стадиях площадных работ.
* Большие Данные (Big Data) – это массивы данных, которые можно представить в виде таблиц с несколькими тысячами или миллионами строк (наблюдений) и десятками столбцов (признаков)
Если систематизация с учетом различных инструментов моделирования, покажется слишком сложной (для больших руководителей), вполне можем сгруппировать пункты в 1,2,3 и 4а под одну общую формулировку (представляющую готовый продукт) - Моделирование с небольшими затратами и с высокой степенью детальности геологического изучения in situ с геометризацией в массиве технологических типов руд, которая делает возможной селективную выемку, в условиях дефицита данных.
P.S. В состоянии тестирования находятся новые идеи, пока нереализованные на практике
Брат, 25.07.24 14:48:21 — Мальцев
Мне представляется, что вот этот ваш посыл про "не только интересно, но и прибыльно" большие руководители "вкурят" не вдруг; без всяких "если" ваше изложение для них наверняка смотрится несколько тяжеловато. Вероятно, желательна демонстрация на каком-то более простом примере из исторической фактуры.
К примеру, в советское время с методикой много чудили. Только на моей памяти было два россыпных примера бурения УКБ 3х3 метра с последующей селективной отработкой. Объём выборки (в каждом случае 1100-1200 скважин) позволил бы предметно продемонстрировать и обучающую, и прогностическую составляющую вашей технологии. А были ещё и сети 1х1 метр с заверкой копушением.
Подходящие примеры наверняка можно подобрать из числа рудных объектов с хорошей документацией отработки и устраивающим вас объёмом разведочной выборки. На мой взгляд, демонстрация расчёта прогнозных характеристик верхней, эродированной и переотложенной части месторождения окажется достаточно убедительной для больших руководителей. А ещё и открывающей перспективы, ведь к изучению в этой связи водораздельных пространств мы почти не приступали.
Если я могу дать совет, попробуйте посмотреть на вопрос под таким углом зрения.
Мальцев, 26.07.24 10:50:23
Спасибо, за совет и интересный взгляд по таким углом…
Однако целью предыдущего моего комментарий было - вместить в 20 строк краткого саммари все идеи и концепты почти доброго десятка проектов, выполненных именно - на исторической фактуре, а также почти такого же количества публикаций, которые периодически «вырастали» на этой же самой фактуре, которые, как мне кажется, и являются этой самой демонстрацией (?), о которой вы говорите.
Самое интересное, что похожую ситуацию, с той о которой вы пишите, я рассматривал в одной их своих презентации (3-й пример), запись которой если интересно можно посмотреть по ссылке https://disk.yandex.ru/i/s0T6cCDU0rYsVg . Коротко смысл примера в том, что Обучающая выборка нечетных порядковых номеров ( в пронумерованной шахматке рудных пересечений ) – это новая разряженная сеть скважин с шагом 40 х 40 метров, на основе изначальной (реально существующей) детальной разведочной сети 20 х 20 метров. Далее четные номера устраняются из процедуры «обучения», а потом возвращаются для проверки точности прогноза уже по всем и четным и нечетным вместе. Процесс оценки представляет собой сравнение оцененных значений с действительными известными значениями в узлах интерполяции. Особенность эксперимента - в том, что Прогнозная выборка одновременно является еще и Контрольной, т.к. мы знаем и «четные» и «нечетные» содержания. Даже и без сравнения с данными добычи – выглядит вполне убедительно ?!
Вообщем то, что так интересно совпали наши идеи, в этом я вижу определённый знак.
Надо подумать об этом… и кроме того много срочных задач накопилось
Спасибо всем! и отдельное спасибо Брату за свежий взгляд со стороны! и как говорится, – «до новых встреч в эфире»…
Брат, 26.07.24 15:18:11 — Мальцев
Я имел в виду демонстрацию яркую, броскую, доходчивую. Десяток проектов и такое же количество публикаций это конечно же демонстрация, но сложная для восприятия, особенно большими руководителями (у них не то мироощущение, не говоря уж про подходы). А определённый знак - это к добру.
В августе предполагал быть в Санкт-Ленинграде; если случится, то прихвачу что имею по супергустым буровым сетям. Но это бумаги рукописные, конца 80-х. Коли будет интерес, найти меня сможете через Соболева.
Доброй охоты всем нам!
Старый , 21.07.24 06:18:59 — Автору
Как вы думаете, на какой стадии разведочных работ могут быть использованы подобные методы?