Ресурсы по статистике

Начинающие исследователи нередко задаются вопросом, как начать изучать статистику: какие книги или ресурсы будут полезными. Мой опыт, естественно, ограничен англоязычной литературой, и потому мои рекомендации идут по линии источников на английском языке. Письмо, которое приводится ниже, я бы хотел сделать публичным. Если кому-то эти мысли будут полезны, смело передавайте нуждающимся друзьям, оставляйте комментарии и тоже делитесь ресурсами по статистике, которые вам помогли.

мем по статистике

Мем по статистике. Если два явления связаны между собой (корреляция), то это не значит, что одно явление влияет на другое (каузация). Например, рост цен на бензин и рост надоев молока в каком-нибудь областном центре за летний период могут возрастать одновременно — то есть они соотносятся между собой статистически (коррелируют). Растёт А, растёт и Б — есть корреляция. Но это не значит, что цены на бензин вызвали рост надоев молока или наоборот (каузация). Основное правило вводного курса по статистике гласит: корреляция не подразумевает каузацию (correlation does not imply causation). То есть если явления как-то связаны между собой, то это не значит, что они связаны причинно-следственными отношениями. Иногда это может быть третья прячущаяся переменная, которая обуславливает изменения в обоих явлениях, например, летняя пора года. Летом больше свежей травы для коров, что позволяет им производить больше молока, и летом существует больший спрос населения на бензин, что может привести к росту цен на него. Смысл мема выше в том, что статистика оперирует вероятностным языком, она ничего не доказывает. Она может сказать: “Вероятность того, что пойдёт дождь, составляет 30%”, то есть маловероятно. Но дождь всё равно может пойти. Поэтому студент, который взял курс по статистике, вполне себе мог изменить свою точку зрения из-за того, что прошёл учебный курс. Но он не может заявить об этом причинно-следственным языком (“потому что”, “по причине”, “из-за”), потому что тогда он нарушит основное правило вводного курса по статистике и покажет тем самым, что так ничего и не усвоил. Поэтому он использует более скромный язык вероятностей (“возможно”, “вероятно”, “наверное”, “может быть”).

———- Forwarded message ———
From: Yuri Pavlov
Date: Thu, Jan 20, 2022 at 10:54 AM
Subject: Статистика
To: В<…>а С<…>а

Про статистику и материалы по ней. Конечно, таковых бессчётное множество в Интернете. Статистика — это наука о том, как принимать решения в условиях неопределённости. Ключевое понятие статистики — неопределённость (uncertainty). Всё остальное нанизывается на эту идею. Люди, занимающиеся этой дисциплиной, — статисты (также в русском есть вариант “статистики”) — пытаются измерить неопределённость в числовых величинах, то есть квантифицировать неопределённость. Неопределённость часто исследуется через концепт “вариативности” или “дисперсии” (variability / dispersion). Статисты стремятся определить статистическую значимость (statistical significance) научного наблюдения. Делается это через постановку предварительных гипотез (hypothesis testing) и последующие расчёты/исчисления (estimation). Но статистическая значимость не переводится автоматически в практическую важность (practical importance). Любой статистический анализ подразумевает погрешность (error), которая, если зашкаливает, может обратить весь анализ в пыль на раз-два-три. И это не моя выдумка, это консенсус статистов^[1]. Некоторые статисты только тем и занимаются, что опровергают чужие анализы. Одни сдают анализы, другие в них копаются — всё как в жизни. Статисты, в основном, весьма скромные исследователи.

Во вложении ниже^[2] — учебные программы по тем курсам статистики, которые я брал в Сиракузском университете между 2017 и 2019 гг. В них можно найти рекомендуемые книги и статьи для прочтения. Их слишком много. Нужна структура. Поэтому я рекомендую пять концептуальных книг, которые помогли мне и к которым я всё время возвращаюсь за фундаментальными основами:

Sprinthall, R. C. (2012). Basic statistical analysis (9th ed.). Allyn & Bacon. [600 pp.]
Wheelan, C. (2013). Naked statistics: Stripping the dread from the data. W.W. Norton & Company. [282 pp.]
Keith, T. Z. (2019). Multiple regression and beyond: An introduction to multiple regression and structural equation modeling (3rd ed.). Routledge. [639 pp.]
Abelson, R. P. (1995). Statistics as principled argument. Psychology Press. [221 pp.]
Pearl, J., & Mackenzie, D. (2018). The book of why: The new science of cause and effect. Basic Books. [418 pp.]

Книги Ричарда Спринтхолла (1) и Тимоти Кита (3) содержат описания статистических техник и приводят важные статистиечские формулы, но без нажима. Первая книга — просто космос, юмористическое введение в статистику без серьёзного компромисса глубины. Вторая книга тоже замечательная, и она рассчитана на массового читателя, её содержание покрывает темы первого вводного курса по статистике достпуным языком. Остальные книги (3, 4, 5) — концептуальные книги для тех, кто знаком с концептами первого вводного курса по статитике. Они о том, чем именно занимается серьёзная статистика и зачем/почему/для чего она используется.
Есть множество других хороших книг. Например, мне очень нравится с формулами вводный курс статистики в этих ярких учебниках:

Keller, G. (2018). Statistics for management and economics (11th ed.). Cengage Learning.
Larson,‎ R., & Farber, B. (2012). Elementary statistics: Picturing the world (5th ed.). Boston, MA: Pearson.

С минимумом формул, с объяснением толкований хороши два концептуальных издания:

Grimm, L. G., & Yarnold, P. R. (1995). Reading and understanding multivariate statistics. American Psychological Association.
Grimm, L. G., & Yarnold, P. R. (2000). Reading and understanding more multivariate statistics. American Psychological Association.

Конкретно для работы со статистической компьютерной программой SPSS есть такие крутые понятные книги:

Morgan, G. A., Barrett. K. C., Leech, N. L., & Gloeckner, G. W. (2020. IBM SPSS for introductory statistics: Use and interpretation (6th ed.). Routledge.
Leech, N. L., Barrett. K. C., & Morgan, G. A. (2015). IBM SPSS for intermediate statistics: Use and interpretation (5th ed.). Routledge.

Многие эти книги есть в электронной библиотеке Z Library (www.b-ok.cc).

Полезные каналы на YouTube по вводной и средней статистике:

StatQuest with Josh Starmer [link]
Mike Crowson [link]
Dr. Todd Grande–Statistics and Probabilities in Excel [link]
Introduction to statistics Khan Academy [link]

Береги себя и своих близких.
-Юра

P.S. Два года назад в 2019 г. подруга, тогда работавшая в журнале “The Economist” в Лондоне спрашивала меня, с чего ей начинать изучать статистику. Тот журнал активно использует языки программирования R, Python и Jupyter, и я в них очень слабо ориентируюсь. Мой посыл состоит в том, что не язык программирования делает статистику, а человеческий мозг делает статистику, и надо сразу разобраться, что к чему в статистике, прежде чем пихать цифры в мясорубку и искать корреляции. Вот моё тогдашнее сообщение ей (урезанное/обрезанное):

Насчёт статистики, всегда спрашивай, показывай. Я не супер-спец, но по темам могу оценить, что и как. Кратко, должны быть такие темы ПЕРЕД множественной регрессией:

дескриптивная статистика [descriptive statistics]
теория вероятностей [probability]
подсчёты и проверка гипотез [estimation & hypothesis testing]
types of variables (scales of measurement), data distributions, statistics & parameters, independent/dependent samples, basic research methodology (IV, DV, experimental & correlational designs), research process
z test and statistical assumptions
t test and statistical assumptions: one-sample t test, two-sample t test
correlation (Pearson r, Spearman rho, Kendall tau) and bivariate linear regression
chi-square test (χ²)
F test и one-way ANOVA
factorial ANOVA (or, two-way ANOVA, three-way ANOVA)
* Non-parametric statistical tests: Mann-Whitney U test, paired t test, Wilcoxon T test, Kruskal-Wallis H test, Friedman ANOVA by ranks, McNemar test, Cochran Q test
* Multiple regression overview and assumptions

Последние два пункта отмечены звёздочкой, потому что [11] непараметрическая статистика как бы не новый материал, это просто тип начальной статистики, в котором данные и переменные не укладываются в красивое нормальное распределение (гауссово распределение). А [12] нередко включается во вводный курс по статистике для общего обзора и демо-версии того, что будет во втором курсе по статистике.

Множественная регрессия (multiple regression) лежит в основе более продвинутых регрессионных техник. И их не пересчитать, но самые известные: beta regression, spatial regression, quantile regression, nonlinear mixed models, etc.-etc. Также для социальных наук привычная multiple regression — это предварительная техника для понимания logistic regression, multilevel modeling (hierarchical linear modeling), path analysis, confirmatory factor analysis, structural equation modeling, а также понятий moderation (interaction) и mediation. Наконец, есть целый пласт multivariate statistics (многопеременная статистика) — это когда, в отличие от множественной регрессии, ты пытаешься предсказать не одну переменную, а несколько переменных, которые взаимосвязаны друг с другом (статистически коррелируют). И там такие техники, как MANOVA, principal component analysis, factor analysis, discriminant analysis, cluster analysis, multidimensional scaling, canonical correlation analysis, survival analysis, time-series analysis и проч. Есть также техника мета-анализа (meta-analysis): это когда собираешь разные исследования и пытаешься оценить общий эффект той или иной переменной. Потом ещё есть байесовская статистика (Bayesian statistics), и это совсем другой подход ко всем этим вот вышеизложенным техникам. Но байесовская статистика — это непаханое поле для меня, не изучал то, как она работает.

Я как-то спросил у моего любимого тут преподавателя Ника Смита, он уже на пенсии, какой курс по статистике у него был самым сложным на его докторской программе. Он ответил: “Это был курс, на который я пришёл и у меня спросили: ‘Какая у тебя есть проблема, которую ты хочешь решить со своими данными? Ты нам скажи, и мы придумаем статистический анализ для неё’ ”. Он получил свою Ph.D.-степень в University of Illinois at Urbana-Champaign по Educational Psychology в 1975 г. Я засмеялся, но в целом логично — у настоящих статистов такой уровень, когда они создают статистику, а не просто используют готовое и вкусное. Я пока что только много читал про эти разные вышеизложенные техники, но у меня нет своих данных, с которыми можно было бы поиграть и реально сделать статистический анализ. Статистика забывается, если ею не пользоваться.

[1] Curran-Everett, D., Taylor, S., & Kafadar, K. (1998). Fundamental concepts in statistics: Elucidation and illustration. Journal of Applied Physiology, 85(3), 775–786. https://doi.org/10.1152/jappl.1998.85.3.775

[2] Приложения

Похожие статьи:

Начинающему исследователю в социальных науках (15.05.2021)
Уроки без кондитерской посыпки (07.05.2018)
Церемонный аэростат (24.10.2017)
Соседство соразмерностей (22.09.2017)
Чтения в гамаке (10.09.2017)
Ник Смит — Введение в природу исследований (*.pdf, англ. яз.)

Юрий Павлов

К вопросу о разнице в скорости бытия и праздности жизни

Ресурсы по статистике

Добавить комментарий Отменить ответ