Первоначально статья “Machine Learning and Artificial Intelligence for Mining Geosience” была опубликована в информационном издании подразделения по изучению месторождений полезных ископаемых Геологической ассоциации Канады (англ. Geological Association of Canada). Переведено и напечатано с разрешения автора. Перевод с англ.: С. С. Верхозин, АО «Иргиредмет».
За последние пять лет востребованность машинного (англ. Machine Learning) и глубинного обучения (англ. Deep Learning) существенно возросла (рис. 1), в том числе в разведке и добыче полезных ископаемых, геологических исследованиях. Часто эти направления обозначаются более общим термином «искусственный интеллект».
Автор настоящей статьи пытается пролить свет на искусственный интеллект, машинное и глубинное обучение, рассказать, какое применение эти технологии могут найти в геологических исследованиях в рамках горнодобывающей промышленности.
Искусственный интеллект
Искусственный интеллект (ИИ) —это общий термин, описывающий системы, выполняющие когнитивные, познавательные функции, например решение производственных проблем. Простейшим примером ИИ можно назвать написанную в Excel программу, определяющую категорию сырья — руда или пустая порода — по содержанию в нем золота, с использованием несложной формулы (например, IF(Au>1 g/t) THEN rock = ore; если содержание Au > 1 г/т, то порода считается рудой). Самоуправляемый автомобиль — это тоже пример реализации искусственного интеллекта.
Уровень познания, необходимый для выполнения определенной задачи, определяется ее характером, поэтому рассматриваемый термин можно применять в отношении любого процесса поиска решения или интерпретации данных с использованием компьютера.
Таким образом, понятие «искусственный интеллект» охватывает широкий спектр процессов, используется в контексте программного обеспечения и соответствующих услуг, в том числе связанных с машинным обучением.
Машинное обучение (самообучающиеся алгоритмы)
Машинное обучение — это класс количественных методов (под которыми зачастую понимают алгоритмы), предназначенных для ускорения процесса прогнозирования определенных показателей на основе некоторого прецедента. В отличие от остальных направлений в ИИ, машинное обучение не требует ручного ввода в алгоритм правил принятия решений — они автоматически определяются системой по эмпирическим данным.
Процесс внесения в алгоритм эмпирических данных для дальнейшего прогнозирования на их основе называется обучением. Так, алгоритм можно обучить прогнозировать тип породы в зависимости от ее геохимического состава. Для этого в набор данных обучения необходимо внести информацию или сведения по геохимии пород и их обозначения (то есть названия типов пород).
Алгоритм выявляет закономерности в введенных данных, определяет взаимосвязь между геохимическим составом и типом породы. Затем, отталкиваясь от выделенных связей, система определяет зависимость между геохимическими показателями и типами пород (рис. 2).
Предполагаемая зависимость является лишь приближением некой базовой функции, скрытой в данных, и устанавливается для прогнозирования выходных показателей (типов породы) с максимально возможной точностью. Однако большинство алгоритмов машинного обучения работают по образцам, выявляемым в имеющихся данных, а не отражают первопричины наблюдаемых явлений (то есть являются эмпирическими). Другими словами, прогнозы, сделанные с использованием средств машинного обучения, не избавлены от ошибок, особенно если модель не проверена специалистом в предметной области (см. ниже). Так, например, модель на рис. 2 не прошла обучение по пробам риолита, поэтому каждая из них будет характеризоваться алгоритмом неправильно и приписываться к андезиту.
Исходя из сказанного выше можно прийти к выводу, что многие специалисты, в том числе геологи, так или иначе уже имели дело с обучением машинных алгоритмов — от составления простых линейных регрессий до использования геостатистических методов оценки ресурсов, например кригинга. Во втором случае входными данными являются пространственные координаты, выходными — содержание ценного компонента. Данные для обучения отбираются из базы опробования с привязкой к участку.
Существует широкий спектр алгоритмов машинного обучения, подходящих для выполнения специализированного геологического анализа. Исходный материал для их обучения обычно либо уже имеется, либо может быть получен самостоятельно. Таким образом машинное обучение можно использовать с целью выявления геологоразведочных объектов в условиях избытка данных (например, решения Goldspot Discoveries, SRK Consulting), автоматического выявления геологических зон залегания полезных ископаемых (Maptek), оценки твердости руды на основе результатов анализа (неопубликованные работы), распознавания частиц золота по фотоснимках пробы ледниковых отложений (IOS Services Geoscientifiques).
Глубинное обучение (самообучающийся алгоритм с использованием аналога нейронных сетей)
Глубинное обучение — это одно из направлений машинного обучения, связанное с использованием специального алгоритма — глубинных нейронных сетей (ГНС, англ. Deep Neural Network, DNN). Данный подход появился еще в 1980-х годах, однако популярность приобрел только в начале 2010-х годов с появлением достаточно мощных процессоров, способных обрабатывать сложные вычисления.
Глубинная нейронная сеть состоит из слоев, на которых расположены взаимосвязанные единицы или «нейроны», выполняющие простейшие математические вычисления, например умножающие результаты расчетов, полученные с предыдущих нейронов (рис. 3). Процесс обучения такого алгоритма представляет собой корректировку каждого нейрона с учетом максимального качества итогового прогноза.
ГНС распознает закономерности в данных постепенно, начиная анализ с самых простых отношений между переменными первых нейронных слоев, заканчивая комплексными абстрактными структурами в последних слоях. Типичная ГНС способна находить решение задач на основе организованных количественных данных, например, таблиц, специализированные сети — работать по изображениям и временным последовательностям.
Одной из разновидностей ГНС, предназначенной для обработки изображений и других точечных форматов, являются сверточные нейронные сети. Они применяются в геологоразведке для выявления объектов (например, решения Orefox), обработки и интерпретации сейсмических данных (Geolearn), определения минералов-индикаторов в пробах ледниковых отложений (IOS Services Geoscientifiques), количественного и качественного описания буровых кернов по их фотоснимкам (Geolearn) или гиперспектральным данным (Solve Geosolutions).
Последовательность входных данных анализируется с помощью такой разновидности ГНС, как рекуррентные нейронные сети. Они адаптированы для анализа временных наборов данных, таких как временные последовательности или текстовая информация. Рекуррентные нейронные сети используют в геологоразведке для выявления перспективных участков на основе находящихся в свободном доступе отчетов (например, решения Goldspot Discoveries) или для геологического документирования данных бурения на основании измерений физических свойств пород (CGG).
Преимущества машинного обучения (самообучающихся алгоритмов)
Машинное обучение в целом и глубинное обучение в частности находят все более широкое применение в самых разных областях — от распознавания лиц до самоуправляемых автомобилей и автоматического перевода. Как отмечено выше, рассматриваемые технологии можно адаптировать к быстрому и экономичному решению геологических задач.
Системы машинного обучения имеют ряд характерных преимуществ перед обычными методами:
- Алгоритмы способны обрабатывать большие объемы входных переменных, выявлять закономерности в комплексных многомерных наборах данных, в то время как человеческий мозг одновременно анализирует не больше двух-трех взаимосвязей.
- В случае наличия репрезентативного набора данных обучения, машинный алгоритм способен самостоятельно выявлять закономерности, предоставляя тем самым объективную оценку информации.
- Обученный алгоритм обладает известной точностью, которую можно определить по полученным результатам анализа; оценочная точность модели и колебаний ее параметров — показатели количественные, на них можно ориентироваться в процессе принятия решений.
- После обучения алгоритм способен предоставлять однотипные прогнозы, одним и тем же входным данным всегда соответствуют одни и те же выходные данные.
- Обученный алгоритм способен быстро обрабатывать большие объемы данных, в течение нескольких минут представлять их интерпретацию; для человека такое, как правило, невозможно.
По всем перечисленным причинам можно сделать вывод, что машинное обучение способно существенно облегчить и повысить эффективность решения большого количества сложных, повторяющихся задач, которые ранее отдавались на откуп человеку или менее надежным алгоритмам. Представленные выше примеры охватывают лишь небольшую часть практики применения машинного обучения в промышленности и научно-исследовательской деятельности. К тому же распространение технологии в горнодобывающей отрасли в последние два-три года только набирает обороты, многое еще впереди.
Сложности применения машинного обучения
Машинное обучение не является универсальным средством, и для его успешного применения необходимо преодолеть ряд характерных сложностей. Например, качество результатов применения алгоритмов зависит от обучающего набора данных.
Чтобы построить надежную модель, потребуется большой набор данных. Вместе с тем получить или подготовить высококачественную, обработанную информацию, как правило, не представляется возможным или требует существенных материальных затрат. Также большинство алгоритмов работают только на выверенных данных, надлежащим образом организованных и преобразованных в требуемый цифровой формат.
В настоящее время геологоразведочную информацию, стандартизированную под применение машинного обучения, найти проблематично. Для того чтобы данная технология приобрела общепринятый характер, необходимо значительно улучшить качество сбора, организации и хранения данных. Со стороны геологов это потребует обучения использованию методов искусственного интеллекта в целом и машинного обучения в частности.
Также методы машинного обучения должны быть адаптированы к специфике геологических дисциплин, оперирующих, как правило, сложными пространственными и временными отношениями между параметрами. Поэтому выработать понимание, какие данные необходимы для решения конкретной задачи, как организовать их предварительную обработку и, наконец, интерпретировать прогноз алгоритма машинного обучения сможет лишь высококвалифицированный специалист в предметной области.
Машинное обучение — достаточно сложная область сама по себе. В ней существует множество специализированных алгоритмов решения конкретных задач со своими преимуществами и недостатками. К сожалению, без полного понимания сущности вопроса и характера входных данных очень легко допустить ошибку.
Прогнозы, основанные на неполных или неправильно построенных моделях, могут привести к печальным последствиям. Рассмотрим пример алгоритма распознавания порфировых месторождений в Кордильерах по мультиспектральным спутниковым снимкам. Теоретически он должен распознать закономерности изменения пород. Однако если алгоритм обучен по фотографиям с уже отрабатываемых месторождений, он, по всей вероятности, свяжет с порфиритовыми месторождениями все изображенные на снимках крупные карьеры, выявит объекты, не имеющие экономической значимости. Чтобы избежать этого, необходимы глубокие знания и понимание проблематики.
Машинное обучение — это перспективный инструмент прогнозирования и принятия решений, но, как и в любом другом комплексном направлении, применяться алгоритмы должны специалистами, обладающими достаточным опытом в области информационных технологий и соответствующих решаемым задачам направлениях. Преуспеть в этом может только квалифицированный междисциплинарный коллектив.
Выводы
Методы машинного обучения все чаще используются в горнодобывающей промышленности. Они эффективны в решении повторяющихся задач или задач с большим количеством многомерных данных (качественных и правильно обработанных).
Объективность, продуктивность и адаптивность алгоритмов машинного обучения делают их идеальным решением широкого спектра проблем различного масштаба. Однако подготовка и внедрение таких технологий в разведке и добыче требует немалого опыта. Моделирование — это комплексная работа, которой сопутствуют характерные сложности, и качество входных данных — не самая последняя из них.
Машинное обучение — это инновационное направление, которое уже успело занять важное место в горнодобывающей промышленности за счет возможности снижения затрат и улучшения экономики проектов. Оно может стать неотъемлемым инструментом в различных областях геологии и горного дела. Новое поколение геологов должно уметь пользоваться им, интерпретировать с его помощью прогнозные модели. Чтобы преуспеть, компаниям и исследовательским организациям нельзя отказываться от таких технологий, как машинное обучение.
Комментарии, отзывы, предложения
КАС, 26.07.20 04:58:25
Лет через 10 все будет обычным делом, главное хорошо собирать и хранить геологическую информацию, а как ее обрабатывать дело второе.
Мальцев, 22.05.22 19:43:46
Уже сейчас, в практике геолого-технологического моделирования, "обычным делом", помимо использования экспериментальных данных технологических исследований тестовых проб (которые являются достаточно дорогостоящими и трудозатратными), методы машинного обучения позволяют достоверно рассчитывать технологические показатели через зависимости технологических показателей от вещественных (хим/мин состав) параметров, которые получены более дешевыми методами.
Один из примеров, здесь - https://zolteh.ru/technic/neyrosetevyetekhnologiiobrabotkidannykhdlyaresheniyaprakticheskikhzadachprognozirovaniyavkh/?sphrase_id=415318
Генералов В.И., 25.05.22 13:14:55 — Мальцеву Е.Н.
Цитата от Мальцева Е.Н.: «Уже сейчас, в практике геолого-технологического моделирования, "обычным делом"… [являются] методы машинного обучения [которые] позволяют достоверно рассчитывать технологические показатели через зависимости технологических показателей от вещественных (хим/мин состав) параметров, которые получены более дешевыми методами». Этот тезис неоднократно повторяется в статьях уважаемого мною Евгения Николаевича. Настоящая статья и ссылка Мальцева на сайт компьютерных моделистов являются весьма познавательными в осмыслении практических результатов построения виртуальных рудных тел.
1. О диагностике вещественного состава руды (природных технологических типов) по «хим/мин составу». Автор статьи Antoine Caté совершенно справедливо утверждает, что «большинство алгоритмов машинного обучения работают по образцам, выявляемым в имеющихся данных, а не отражают первопричины наблюдаемых явлений (то есть являются эмпирическими). Другими словами, прогнозы, сделанные с использованием средств машинного обучения, не избавлены от ошибок, особенно если модель не проверена специалистом в предметной области».
1.1. По силикатным анализам можно выполнить пересчет на нормативный минеральный состав интрузивных магматических пород. Такая методика была разработана в СССР под руководством академика Заварицкого. Но такие пересчеты корректны лишь для первичных «неизмененных, не рудоносных» пород. Для пород, подверженных гидротермально-метасоматическим изменениям (а для рудных тел, это «обычное дело») такая «арифметика» не отвечает реальной действительности. Например, золоторудные кварцевые прожилки «раскисляют» нормативный состав породы, рассчитанный по SiO2, из-за чего безрудные габбро могут быть приняты за рудоносные тоналиты.
2.2. Академик Юшкин разработал методику диагностики осадочных пород по данным силикатных анализов. Математические пересчеты содержаний химических элементов позволяют определять тип осадков, их фациальную принадлежность, условия образования осадков. Эта методика успешно может быть применена также для диагностики первичного происхождения «немых» метаморфических толщ типа «сланцев». Однако, от предмета «золотых россыпей и золотых руд» эти петрологические математические пересчеты весьма далеки.
3.3. Однажды при посещении КазИМС я познакомился с рефератом одного молодого аспиранта (ФИО уже не помню), который утверждал, что по данным силикатных анализов можно определить термодинамическую энтропию и энтальпию горных пород (иными совами, %% содержания переводил в кДж). Я сперва иронично отнесся к этому реферату. Но в конце реферата он привел изолинии распределения значений энтропии на геологической карте. Все гидротермально-метасоматические месторождения оказались расположены в зонах резкого изменения градиентов энтропии. По приезду на Урал, я для своей площади ГДП-200 сделал аналогичные математические пересчеты силикатных анализов. Оказалось, что месторождения скарново-магнетитовых, медноколчеданных, золото-полисульфидных руд также также локализованы в зонах этого градиента. Я тогда подумал, что хоть к фундаментальной физической величине «энтропии» эти пересчеты отношения не имеют, но молодой аспирант нащупал некоторый обобщенный количественный показатель, характеризующий «геохимическую контрастность» горных пород; в прикладной геохимии это называется «геохимическим барьером», на котором локализуются рудные тела. К сожалению, СССР развалился и этот реферат пропал в геологической истории…
Что-то комментарий получается слишком длинный… Резюме. Компьютерные пересчеты «мин/хим состава» могут быть интересными, но какое отношение они имеют к стадии эксплоразведки? По моему мнению, Евгений Николаевич пытается поймать золотую рыбку там, где её нет. И вообще, прежде чем заниматься оконтуриванием рудных тел, надо иметь системные начальные геологические знания. Слава Богу, что нынешний министр образования наконец-то решил отменить в РФ болонскую систему обучения, вскормленной на лапше д,Ширака.
999, 11.08.22 10:23:33 — Генералов В.И.
"Однажды при посещении КазИМС я познакомился с рефератом одного молодого аспиранта (ФИО уже не помню), который утверждал, что по данным силикатных анализов можно определить термодинамическую энтропию и энтальпию горных пород (иными совами, %% содержания переводил в кДж). Я сперва иронично отнесся к этому реферату. Но в конце реферата он привел изолинии распределения значений энтропии на геологической карте. Все гидротермально-метасоматические месторождения оказались расположены в зонах резкого изменения градиентов энтропии. По приезду на Урал, я для своей площади ГДП-200 сделал аналогичные математические пересчеты силикатных анализов. Оказалось, что месторождения скарново-магнетитовых, медноколчеданных, золото-полисульфидных руд также также локализованы в зонах этого градиента." Для какого листа ГДП-200 делали расссчеты? Схема вошла в отчет?
Генералов В.И., 11.08.22 14:17:41 — 999
Это для Невьянского листа. Конечно, в отчет не вошло. Каноны и правила не позволяют такие материалы прикладывать в отчет по ГДП-200. Покопайтесь в архивах сами, реферат то был опубликован и разослан. Где-то он сохранился.
999, 11.08.22 20:11:12 — Генералов В.И.
Можете указать название реферата?
Генералов В.И., 12.08.22 13:36:20 — 999
Вам все разжуй, покажи и выложи! Да, сделайте хоть что-нибудь сами! Возможно, на старой квартире в архиве что-то и осталось. Буду в Е-бурге, покопаюсь, если не забуду.
В конце 90-х годов пошли первые программы обработки цифровых данных. Изолинии магнитных полей переводились в цифру. Я тогда "игрался" с магниткой путем разных радиусов усреднения и расчетов 1-ой и 2-ой производных магнитного поля. Золотые месторождения легли в градиент скорости изменения поля, а пересчеты магнитного поля с различным радиусом осреднения однозначно показывают глубину развития аномальных объектов. Например, Салдинская изометричная (кольцевая) структура протерозойских пород оказалась весьма близповерхностной. Помню, что Гоше это очень не понравилось, ибо противоречило его структурным построениям. У вас есть первичные цифровые материалы и данные спектрозональных съемок. Ищите и обрящете! Вся проблема заключается в геологическом истолковании этих материалов, применительно к поиску МПИ.
999, 12.08.22 20:12:33 — Генералов В.И.
Спасибо! Искал, пока не нашел, поэтому уточняю. "У вас есть первичные цифровые материалы и данные спектрозональных съемок." Это где?
Магадан, 25.07.20 02:25:13
Спасибо. Понятно, что пока еще не совсем, но будет лучше