- library(ggplot2)
- library(dplyr)
- library(Hmisc)
- library(corrplot)
load("brfss2013.RData")
行为风险因素监测系统(BRFSS)是美国的年度电话调查。BRFSS旨在识别成年人口的风险因素并报告新兴趋势。例如,受访者被问及他们的饮食和每周身体活动,他们的艾滋病毒/艾滋病状况,可能的烟草使用,免疫接种,健康状况,健康日-与健康相关的生活质量,医疗保健的可及性,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜消费,关节炎负担和安全带的使用。
数据收集程序中进行了说明。这些数据是从美国所有50个州、哥伦比亚特区、波多黎各、关岛和美属萨摩亚、密克罗尼西亚联邦和帕劳收集的,通过进行固定电话和基于移动电话的调查。固定电话样本使用了不成比例的分层抽样(DSS),蜂窝电话受访者是随机选择的,每个受访者的选择概率相等。我们正在处理的数据集包含330个变量,2013年共有491,775个观测值。由“NA”表示的缺失值。
样本数据应该允许我们推广到感兴趣的人群。这是对491,775名18岁或以上美国成年人的调查。它基于一个大型分层随机样本。潜在的偏见与无反应,不完整的访谈,缺失的价值观和便利偏见有关(一些潜在的受访者可能没有被包括在内,因为他们没有固定电话和手机)。
没有因果关系可以建立,因为BRFSS是一项观察研究,只能建立变量之间的相关性/关联。
过去30天内身心健康不好的天数分布是否因性别而异?
受访者接受采访的月份与受访者自我报告的健康感知之间是否存在关联?
收入和医疗保险之间有什么关联吗?
吸烟、饮酒、胆固醇水平、血压、体重和中风之间有关系吗?最终,我想看看是否可以从上述变量中预测中风。
- ggplot(aes(x=physhlth, fill=sex), data = brfss2013[!is.na(brfss2013$sex), ]) +
- geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Physical Health not Good in the Past 30 Days')

- ggplot(aes(x=menthlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +
- geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Mental Health not Good in the Past 30 Days')

g