Локализация сигнала в задаче интерпретации результатов множества статистических тестов

Проблема совместной интерпретации результатов множества статистических тестов состоит в выявлении зависимостей наблюдаемой переменной от широкого набора признаков или комбинаций признаков, изучаемых по отдельности. Довольно часто существует естественный порядок на множестве тестов и результаты можно интерпретировать как случайную последовательность. В связи с чем, концептуально задачу можно переформулировать в терминах идентификации сигналов, где сигналом является наличие статистической зависимости наблюдаемой переменной от ковариаты. В прикладных задачах, например, в области биоинформатики количество тестов может достигать нескольких миллионов. Многие из тестов показывают значимое отклонение от независимости по чисто случайным причинам.
Для выявления истинных сигналов часто используют так называемую поправку Бонферрони, гарантирующую, что вероятность выявления хотя бы одного ошибочного сигнала не превышает наперед заданного уровня. В генетических исследованиях сильные сигналы – большая редкость, а строгость поправки Бонферрони еще более усложняет обнаружение сигналов.
В докладе будет рассказан метод, позволяющий агрегировать отдельные сигналы в единый, более мощный сигнал. Метод разработан для категориальных данных и основан на построении квадратичной формы от асимптотически нормальных величин, соответствующих компонентам хи-квадрат статистик из таблиц сопряженности размера 2×2 и 3×2, широко используемых в генетических исследованиях.

Презентация