码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化...


    全文下载链接:http://tecdat.cn/?p=29480

    作者:Xingsheng Yang

    1 利用 python 爬取链家网公开的租房数据;

    2 对租房信息进行分析,主要对房租相关特征进行分析,并搭建模型用于预测房租(点击文末“阅读原文”获取完整代码数据)。

    相关视频

    任务/目标

    利用上海链家网站租房的公开信息,着重对月租进行数据分析和挖掘。

    上海租赁数据

    此数据来自 Lianjia.com.csv文件包含名称,租赁类型,床位数量,价格,经度,纬度,阳台,押金,公寓,描述,旅游,交通,独立浴室,家具,新房源,大小,方向,堤坝,电梯,停车场和便利设施信息。

    属性:

    名称:列表名称
    类型:转租或全部租赁(全部)
    床:卧室号码
    价格
    经度/纬度:坐标
    阳台,押金(是否有押金政策),公寓,描述,旅游可用性,靠近交通,独立浴室,家具

    新房源:NO-0,YES-1
    面积:平方米
    朝向:朝向窗户,南1,东南2,东-3,北4,西南-5,西-6,西北-7,东北8,未知-0
    级别:房源层级, 地下室-0, 低层(1-15)-1, 中层(15-25)-2, 高层(>25)-3
    停车场:无停车场-0,额外收费-1,免费停车-2
    设施:设施数量

    1. import pandas as pd
    2. import numpy as np
    3. import geopandas 
    4. df = pd.read\_csv('lighai.csv', sep =',', encoding='utf\_8\_sig', header=None)
    5. df.head()

    d6e236b5bd985cf2e323588f639d15f3.png

    数据预处理

    ETL处理,清理数据帧。

    df_clean.head()

    9f8b090ebdaf54e692bc2cfd4fd093e7.png 

    7e1d54352e7784161393991b78c202e5.png

    探索性分析 - 数据可视化

    1. plt.figure(figsize=(8, 6))
    2. sns.distplot(df_clean.price, bins=500, kde=True)
    3. plt.xscale('log') # Log transform the price

    7b97092e12ba58cd15bf2b1e631c744b.png

    caf4d3f56994a48a7fcd42c8be79ab6d.png

    读取地理数据

    7f4adfd87977f52f5f7c8aa35f10aa9e.png

    577e11bd44ec09c6df8f687d55116d98.png

    1. plt.figure(figsize=(12, 12))
    2. sns.heatmap(df_clean.corr(), square=True, annot=True, fmt = '.2f', cmap = 'vla

    点击标题查阅往期内容

    5d11ac904eb1a9f71be3bf363fadb048.jpeg

    线性回归和时间序列分析北京房价影响因素可视化案例

    outside_default.png

    左右滑动查看更多

    outside_default.png

    01

    abbf4aa222b5d5e716a46fbe339fd77f.png

    02

    bdd244b9f7ce4d734c1cea45dd6de0d8.png

    03

    df80d17a9446fb63f6c24c1adae0aa14.png

    04

    8330fb31e1e2448b17b224916bc33c1a.png

    1b11533bfb0147749c7ae8398baaf7b0.png

    模型构建

    尝试根据特征预测价格。

    1. y = df\_clean.log\_price
    2. X = df\_clean.iloc\[:, 1:\].drop(\['price', 'log\_price'\], axis=1)

    岭回归模型

    1. ridge = Ridge()
    2. alphas = \[0.0001, 0.001, 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 5, 10\]

    7c140de9689b0e85c8db31a988398b66.png

    4670aea2a3c3529b2c3b67f49aa0ab89.png 

    a11de54ee51a8b6e798776ae93fd8072.png

    Lasso回归

    8c28035936b27f1c797afece94650bb3.png

    c8d551cd10a915016232734912bd1474.png

    coef.sort_values(ascending=False).plot(kind = 'barh')

    f3fa9af67e48bbc2e3f5049e103895a5.png

    Random forest随机森林

    rf\_cv.fit(X\_train, y_train)

    e020d036dea3edd0d4047ce5797d0156.png

    6bdbd8ee580dc4c468124ba719c251e4.png

    XGBoost

    xgb_model.loc\[30:,\['test-rmse-mean', 'train-rmse-mean'\]\].plot();

    afc3ef31319c43355a89eff4f118f31c.png

    xgb\_cv.fit(X\_train, y_train)

    cd0a79e9b816d9208e29b3ee57b67736.png

    0bb340ac5439b4ddb0cda232bc338b12.png 

    90fb3943d47d3bce5cd1cb06bcef2f40.png

    Keras神经网络

    1. model.add(Dense(1, kernel_initializer='normal'))
    2. # Compile model
    3. model.compile(loss='mean\_squared\_error', optimizer='Adam')
    4. model.summary()

    5ad8ee4572704381911eb46addbc590f.png

    0a33fb7d141dc01cd7f120fe9c8bedc9.png

    kmeans聚类数据

    1. kmeanModel = KMeans(n_clusters=k).fit(X) 
    2.     kmeanModel.fit(X)     
    3.     inertias.append(kmeanModel.inertia_) 
    4. plt.plot(K, inertias, 'bx-')

    a8e30194a64ae7b57775de4bc938a962.png

    1. gpd.plot(figsize=(12,10), alpha=0.3)
    2. scatter\_map = plt.scatter(data=df\_clean, x='lon', y='lat', c='label', alpha=0.3, cmap='tab10', s=2)

    298bc83b1b40e13ca1f85c5b023e416c.png

    cb5d224544c51f0e54de098571589815.png 


    bef26cf94bf06942d35fc2a698ba9445.png

    点击文末“阅读原文”

    获取全文完整代码数据资料。

    本文选自《python岭回归、Lasso、随机森林、XGBoost、Keras神经网络、kmeans聚类链家租房数据地理可视化分析》。

    681fa028bfa8f1dd9b97f6360e038714.jpeg

    本文中分析的租房数据分享到会员群,扫描下面二维码即可加群!

    4fcdca0f826a6b50826435db4149784c.png

    6337d10382745ce0a4f5680b17555a30.jpeg

    7b5a408b2959742caa5a3714c5dbf7cd.png

    点击标题查阅往期内容

    R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据

    Python中的Lasso回归之最小角算法LARS

    高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据

    Python高维变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

    R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

    R使用LASSO回归预测股票收益

    广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

    贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

    R语言RSTAN MCMC:NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

    r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

    R语言高维数据惩罚回归方法:主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据(含练习题)

    Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

    R语言Bootstrap的岭回归和自适应LASSO回归可视化

    R语言Lasso回归模型变量选择和糖尿病发展预测模型

    R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

    基于R语言实现LASSO回归分析

    R语言用LASSO,adaptive LASSO预测通货膨胀时间序列

    R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

    R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

    Python中的Lasso回归之最小角算法LARS

    r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

    r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

    R语言实现LASSO回归——自己编写LASSO回归算法

    R使用LASSO回归预测股票收益

    python使用LASSO回归预测股票收益

    Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

    R语言Bootstrap的岭回归和自适应LASSO回归可视化

    R语言Lasso回归模型变量选择和糖尿病发展预测模型

    R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

    基于R语言实现LASSO回归分析

    R语言用LASSO,adaptive LASSO预测通货膨胀时间序列

    R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

    R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

    Python中的Lasso回归之最小角算法LARS

    r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现

    r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

    R语言实现LASSO回归——自己编写LASSO回归算法

    R使用LASSO回归预测股票收益

    python使用LASSO回归预测股票收益

    R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

    数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC

    MATLAB随机森林优化贝叶斯预测分析汽车燃油经济性

    R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

    R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

    R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据

    R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

    Python贝叶斯回归分析住房负担能力数据集

    R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

    Python用PyMC3实现贝叶斯线性回归模型

    R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型

    R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

    R语言和STAN,JAGS:用RSTAN,RJAG建立贝叶斯多元线性回归预测选举数据

    R语言基于copula的贝叶斯分层混合模型的诊断准确性研究

    R语言贝叶斯线性回归和多元线性回归构建工资预测模型

    R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

    R语言stan进行基于贝叶斯推断的回归模型

    R语言中RStan贝叶斯层次模型分析示例

    R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

    R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型

    WinBUGS对多元随机波动率模型:贝叶斯估计与模型比较

    R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

    R语言贝叶斯推断与MCMC:实现Metropolis-Hastings 采样算法示例

    R语言使用Metropolis-Hastings采样算法自适应贝叶斯估计与可视化

    视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型

    R语言MCMC:Metropolis-Hastings采样用于回归的贝叶斯估计

    R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据

    R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

    R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者

    R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

    b7919b4762c33e20815a38a0ff0f68e2.png

    c33c9be1b009596641acb6d66f442d59.jpeg

    b9cb82daa02a7d67ef6c0a0d41f2bba3.png

  • 相关阅读:
    OpenCV开发笔记(七十五):相机标定矫正中使用remap重映射进行畸变矫正
    如何写一篇吊炸天的竞品分析
    低代码开发:加速应用开发的利器
    iOS学习:isKindOfClass & isMemberOfClass
    在C#方法中 out、ref、in、params 关键字的用法
    深入浅出之链表
    ios设备管理软件iMazing 2.17.11官方中文版新增功能介绍
    Java 8 引进的一个新特性 Optional
    Linux:split 文件分割和合并
    论文项目总结01-常用样式总结
  • 原文地址:https://blog.csdn.net/tecdat/article/details/132728018
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号