• R语言探索 BRFSS 数据和预测


    加载包

    1. library(ggplot2)
    2. library(dplyr)
    3. library(Hmisc)
    4. library(corrplot)

    加载数据

    load("brfss2013.RData")

    第1部分:关于数据

    行为风险因素监测系统(BRFSS)是美国的年度电话调查。BRFSS旨在识别成年人口的风险因素并报告新兴趋势。例如,受访者被问及他们的饮食和每周身体活动,他们的艾滋病毒/艾滋病状况,可能的烟草使用,免疫接种,健康状况,健康日-与健康相关的生活质量,医疗保健的可及性,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜消费,关节炎负担和安全带的使用。

    数据采集:

    数据收集程序中进行了说明。这些数据是从美国所有50个州、哥伦比亚特区、波多黎各、关岛和美属萨摩亚、密克罗尼西亚联邦和帕劳收集的,通过进行固定电话和基于移动电话的调查。固定电话样本使用了不成比例的分层抽样(DSS),蜂窝电话受访者是随机选择的,每个受访者的选择概率相等。我们正在处理的数据集包含330个变量,2013年共有491,775个观测值。由“NA”表示的缺失值。

    概 化:

    样本数据应该允许我们推广到感兴趣的人群。这是对491,775名18岁或以上美国成年人的调查。它基于一个大型分层随机样本。潜在的偏见与无反应,不完整的访谈,缺失的价值观和便利偏见有关(一些潜在的受访者可能没有被包括在内,因为他们没有固定电话和手机)。

    因果律:

    没有因果关系可以建立,因为BRFSS是一项观察研究,只能建立变量之间的相关性/关联。

    第2部分:研究问题

    研究问题1:

    过去30天内身心健康不好的天数分布是否因性别而异?

    研究问题2:

    受访者接受采访的月份与受访者自我报告的健康感知之间是否存在关联?

    研究问题3:

    收入和医疗保险之间有什么关联吗?

    研究问题4:

    吸烟、饮酒、胆固醇水平、血压、体重和中风之间有关系吗?最终,我想看看是否可以从上述变量中预测中风。

    第 3 部分:探索性数据分析

    研究问题1:

    1. ggplot(aes(x=physhlth, fill=sex), data = brfss2013[!is.na(brfss2013$sex), ]) +
    2. geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Physical Health not Good in the Past 30 Days')

    1. ggplot(aes(x=menthlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +
    2. geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Mental Health not Good in the Past 30 Days')

    g
  • 相关阅读:
    【题解】P4228 [清华集训2017] 榕树之心
    C工程与寄存器封装
    【MySQL】数据库基础
    【鸿蒙 HarmonyOS 4.0】路由router
    云原生下一步的发展方向
    Python-数据结构-字典
    手把手入门Egg.js
    倒排索引:ES倒排索引底层原理及FST算法的实现过程
    Halcon我的基础教程(一)(我的菜鸟教程笔记)-halcon仿射变换(Affine Transformation)的探究与学习
    HybridApp(混合应用)开发框架的优缺点分析
  • 原文地址:https://blog.csdn.net/tecdat/article/details/127482177