Використання параданих для імпутації пропущених даних в соціологічних дослідженнях: результати статистичних експериментів (кейси Хорватії та Словаччини)
stmm. 2024 (3): 62-82
DOI https://doi.org/10.15407/sociology2024.03.062
Повний текст: https://stmm.in.ua/archive/ukr/2024-3/6.pdf
АНДРІЙ ГОРБАЧИК, кандидат фізико-математичних наук, доцент факультету соціології Київського національного унверситету імені Тараса Шевченка (Україна, 01601, місто Київ, вул. Володимирська, 64/13)
a.gorbachyk@knu.ua
https://orcid.org/0000-0003-1944-435X
ЯРОСЛАВ КОСТЕНКО, здобувач PhD, факультет соціології, Київський національний унверситет імені Тараса Шевченка (Україна, 01601, місто Київ, вул. Володимирська, 64/13)
yarosl.kostenko@gmail.com
https://orcid.org/0009-0001-7878-5034
Відсутні дані — це поширена проблема у кількісних соціологічних дослідженнях. Одним із способів розвʼязання цієї проблеми є імпутація даних. У статті описуються проблеми традиційних методів імпутації даних, які часто викривляють дані, і представлено інновативний підхід, який включає інтеґрацію параданих — додаткової інформації, зібраної під час опитувань, — у процес імпутації, з використанням результатів European Social Survey (ESS) як масиву даних. У статті припускається, що використання параданих може підвищити якість предиктивних моделей, застосовуваних для імпутації. Обговорюються практичні застосування імпутації даних, особливо стосовно сенситивних тем, таких як питання ЛҐБТ у соціально консервативних країнах, де може бути значна частка відсутніх даних через соціальну прийнятність певних відповідей. Для оцінки ефективності запропонованого підходу до імпутації дослідження використовує підхід з 'ідеальним набором даних', який є підмножиною ориґінального набору даних без відсутніх значень, а потім вводить штучні відсутні значення, що не є повністю випадковими (MCAR), для імітації реального кейсу відсутніх даних. Наявність штучно згенерованих пропущених даних дозволяє оцінити процедуру імпутації, порівнюючи її з ориґінальним набором даних. Дослідження використовує інновативний підхід до створення реалістичних патернів відсутніх даних через кластеризацію на підставі патернів не-відповідей респондентів. Дослідження застосовує передові статистичні методи для роботи з відсутніми даними й інтеґрує парадані для підвищення точності предиктивних моделей. Порівнюючи статистичні метрики, такі як RMSE, MAE та R2, автори статті оцінюють ефективність цих методів у відтворенні варіативності ориґінального набору даних.
Ключові слова: пропущені дані; не-відповідь; імпутація даних; множинна імпутація; парадані; патерни пропущених даних; моделювання пропущених даних
Джерела
Aitken, A., Hörngren, J., Jones, N., Lewis, D., & Zilhгo, M.J. (2004). Handbook on improving quality by analysis of process variables. Eurostat.
Brunton-Smith, I. & Tarling, R. (2017). Harnessing paradata and multilevel multiple imputation when analysing survey data: A case study. International Journal of Social Research Methodology, 20(6), 709-720. https://doi.org/10.1080/13645579.2017.1287842
Couper, M.P. (1998). Measuring Survey Quality in a CASIC Environment. Survey Research Center, University of Michigan.
Graham, J.W. (2009). Missing data analysis: Making it work in the real world. Annual Review of Psychology, 60, 549-576.
Lee, J. H. & Huber Jr., J. (2011). Multiple imputation with large proportions of missing data: How much is too much? In: Proceedings of the 23rd United Kingdom Stata Users’ Group Meetings. Stata Users Group.
Little, R.J.A. & Rubin, D.B. (1989). The analysis of social science data with missing values. Sociological Methods & Research, 18(2-3), 292-326. https://doi.org/10.1177/0049124189018002004
Mathiowetz, N.A. (1998). Respondent expressions of uncertainty: Data source for imputation. Public Opinion Quarterly, 62(1), 47-56. McKnight, P.E., McKnight, K.M., Sidani, S., & Figueredo, A.J. (2007). Missing Data: A Gentle Introduction. Guilford Press.
Newman, D.A. (2014). Missing data: Five practical guidelines. Organizational Research Methods, 17(4), 372-411. https://doi.org/10.1177/1094428114548590
Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons, Inc. https://doi.org/10.1002/9780470316696
Skafida, V., Morrison, F., & Devaney, J. (2022). Answer refused: Exploring item non-response on domestic abuse questions in a social survey affects analysis. Survey Research Methods, 16(2), 227-240. https://doi.org/10.18148/srm/2022.v16i2.7823
Отримано 06.05.2024
Використання параданих для імпутації пропущених даних в соціологічних дослідженнях: результати статистичних експериментів (кейси Хорватії та Словаччини)
stmm. 2024 (3): 62-82
DOI https://doi.org/10.15407/sociology2024.03.062
Повний текст: https://stmm.in.ua/archive/ukr/2024-3/6.pdf
АНДРІЙ ГОРБАЧИК, кандидат фізико-математичних наук, доцент факультету соціології Київського національного унверситету імені Тараса Шевченка (Україна, 01601, місто Київ, вул. Володимирська, 64/13)
a.gorbachyk@knu.ua
https://orcid.org/0000-0003-1944-435X
ЯРОСЛАВ КОСТЕНКО, здобувач PhD, факультет соціології, Київський національний унверситет імені Тараса Шевченка (Україна, 01601, місто Київ, вул. Володимирська, 64/13)
yarosl.kostenko@gmail.com
https://orcid.org/0009-0001-7878-5034
Відсутні дані — це поширена проблема у кількісних соціологічних дослідженнях. Одним із способів розвʼязання цієї проблеми є імпутація даних. У статті описуються проблеми традиційних методів імпутації даних, які часто викривляють дані, і представлено інновативний підхід, який включає інтеґрацію параданих — додаткової інформації, зібраної під час опитувань, — у процес імпутації, з використанням результатів European Social Survey (ESS) як масиву даних. У статті припускається, що використання параданих може підвищити якість предиктивних моделей, застосовуваних для імпутації. Обговорюються практичні застосування імпутації даних, особливо стосовно сенситивних тем, таких як питання ЛҐБТ у соціально консервативних країнах, де може бути значна частка відсутніх даних через соціальну прийнятність певних відповідей. Для оцінки ефективності запропонованого підходу до імпутації дослідження використовує підхід з 'ідеальним набором даних', який є підмножиною ориґінального набору даних без відсутніх значень, а потім вводить штучні відсутні значення, що не є повністю випадковими (MCAR), для імітації реального кейсу відсутніх даних. Наявність штучно згенерованих пропущених даних дозволяє оцінити процедуру імпутації, порівнюючи її з ориґінальним набором даних. Дослідження використовує інновативний підхід до створення реалістичних патернів відсутніх даних через кластеризацію на підставі патернів не-відповідей респондентів. Дослідження застосовує передові статистичні методи для роботи з відсутніми даними й інтеґрує парадані для підвищення точності предиктивних моделей. Порівнюючи статистичні метрики, такі як RMSE, MAE та R2, автори статті оцінюють ефективність цих методів у відтворенні варіативності ориґінального набору даних.
Ключові слова: пропущені дані; не-відповідь; імпутація даних; множинна імпутація; парадані; патерни пропущених даних; моделювання пропущених даних
Джерела
Aitken, A., Hörngren, J., Jones, N., Lewis, D., & Zilhгo, M.J. (2004). Handbook on improving quality by analysis of process variables. Eurostat.
Brunton-Smith, I. & Tarling, R. (2017). Harnessing paradata and multilevel multiple imputation when analysing survey data: A case study. International Journal of Social Research Methodology, 20(6), 709-720. https://doi.org/10.1080/13645579.2017.1287842
Couper, M.P. (1998). Measuring Survey Quality in a CASIC Environment. Survey Research Center, University of Michigan.
Graham, J.W. (2009). Missing data analysis: Making it work in the real world. Annual Review of Psychology, 60, 549-576.
Lee, J. H. & Huber Jr., J. (2011). Multiple imputation with large proportions of missing data: How much is too much? In: Proceedings of the 23rd United Kingdom Stata Users’ Group Meetings. Stata Users Group.
Little, R.J.A. & Rubin, D.B. (1989). The analysis of social science data with missing values. Sociological Methods & Research, 18(2-3), 292-326. https://doi.org/10.1177/0049124189018002004
Mathiowetz, N.A. (1998). Respondent expressions of uncertainty: Data source for imputation. Public Opinion Quarterly, 62(1), 47-56. McKnight, P.E., McKnight, K.M., Sidani, S., & Figueredo, A.J. (2007). Missing Data: A Gentle Introduction. Guilford Press.
Newman, D.A. (2014). Missing data: Five practical guidelines. Organizational Research Methods, 17(4), 372-411. https://doi.org/10.1177/1094428114548590
Rubin, D.B. (1987). Multiple Imputation for Nonresponse in Surveys. John Wiley & Sons, Inc. https://doi.org/10.1002/9780470316696
Skafida, V., Morrison, F., & Devaney, J. (2022). Answer refused: Exploring item non-response on domestic abuse questions in a social survey affects analysis. Survey Research Methods, 16(2), 227-240. https://doi.org/10.18148/srm/2022.v16i2.7823
Отримано 06.05.2024