В последние годы появилось множество публикаций с результатами изучения пространственного распределения видов и реконструкции локальных ареалов с помощью метода максимальной энтропии (ММЭ). Широкое распространение получила обработка данных с помощью программы MaxEnt (https://biodiversityinformatics.amnh.org/open_source/maxent/), описание которой можно найти на разных сайтах (например, https://gis-lab.info/qa/maxent.html).
К сожалению, руководства к использованию этой программы ни в коей мере не объясняют теоретические основы этого оригинального метода. Более того, сама программа реализует большое количество алгоритмов, не имеющих никакого отношения собственно к ММЭ. В этой программе есть блоки чтения исходных данных с сайтов интернета, блоки ввода данных наблюдений по встречам видов, блок подготовки этих данных для анализа, блок расчета логистической регрессии, блок презентации результатов в форме весовых нагрузок предикторов, блок назначения вероятностной границы и построения карты ареала, блок ROC-анализа, блок ресамплинга, блок верификации полученных результатов, блоки статистической и информационной оценки. Собственно сам ММЭ применяется только в процедуре настройки параметров множественной логистической регрессии, и в этом смысле не вполне понятно, почему вся эта замечательная технология пространственного анализа получила однобокое название MaxEnt (maximum entropy).
К сожалению, теоретические основы ММЭ, изложенные в различных учебниках математическим языком, достаточно сложны для специалистов по зоологии или ботанике, которые используют метод MaxEnt. Если исследователи не вполне разбираются в тонкостях применяемой технологии, то можно ли избежать недоразумений при интерпретации ее результатов? В частности, практически в каждой работе используются кривые ROC-анализа, ориентируясь на которые авторы оценивают свои результаты (обычно положительно). И вот что интересно: авторы не обращают внимание на то, что ROC-анализ оперирует понятием «доля истинно отрицательных случаев», под которым в исследованиях распространения видов подразумевается ситуация, когда вида в данной местности наверняка нет. Однако сама технология максента учитывает только те точки, где вид был встречен, ориентирована только на факт «вид есть», поскольку факта «вид отсутствует» просто нет, есть утверждение «вид не был обнаружен», что не эквивалентно факту отсутствия вида и не имеет никакого отношения к его распространению. Таким образом, когда исходные данные не несут информации о том, что где-то «вид отсутствует», невозможно вычислить «долю истинно отрицательных случаев», следовательно, невозможно построить ROC-кривую и делать какие-либо выводы на ее основе. А они делаются. И таких нюансов – не один.
Очевидно, пользователям программы MaxEnt нужно лучше разбираться во всех вычислительных процедурах. Не отрицая необходимости читать специальную литературу (например, Philips et al., 2006, PDF; https://stok1946.blogspot.com/2020/11/sdm.html, PDF), можно предложить и дополнительный путь – проанализировать ход всех вычислительных процедур в среде Excel. Книга Excel со всеми такими вычислениями выложена на сайте Microsoft (https://www.microsoft.com/en-us/download/details.aspx?id=52427 (отметим, что файл MESDMT.xlsx грузится только из браузера Microsoft Edge) (XLSX). Об этой работе упомянула Ю. Фёдорова в своем докладе «Моделирование ареалов растений в MaxEnt – преимущества и недостатки» на конференции «Цифровые геотехнологии» (14.12.2019) (https://www.youtube.com/watch?v=HrIkyDT3lbc) и любезно подсказала ссылку на этот ресурс.
Понимая структуру ссылок в формулах и блоки промежуточных результатов математических расчетов, можно во всех деталях разобраться с этой технологией.
Библиография
Philips S. J., Anderson R. P., Schapire R. E. Maximum entropy modeling of species geographic distributions // Ecological Modelling. 2006. Vol. 190. P. 231–259.