titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

2024-05-25 17:00:02 50

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文目录

决策树如果数据集不够多,会导致分类准确率低吗

  • 日中等,低),会写代码有两个 属性(会,不会),最终分类结果有两类(见,不见)。

  • 决策树如果数据集不够多,是会导致分类准确率低的。。因为对训练数据进行正确分类的决策树可能有多个,可能没有。

如何用Python在10分钟内建立一个预测模型

  预测模型的分解过程  我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:  你有足够的时间投入并且你是无经验的(这是有影响的)  你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)  在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。  这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:  数据描述性分析——50%的时间  数据预处理(缺失值和异常值修复)——40%的时间  数据建模——4%的时间  性能预测——6%的时间  让我们一步一步完成每个过程(每一步投入预测的时间):  阶段1:描述性分析/数据探索  在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。  这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。  我的第一个模型执行的操作:  确定ID,输入特征和目标特征  确定分类和数值特征  识别缺失值所在列  阶段2:数据预处理(缺失值处理)  有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。  为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。  用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”, “Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。  填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。  由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。  阶段3:数据建模  根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。  阶段4:性能预测  有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。  本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。  让我们开始付诸行动  首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:  步骤1:导入所需的库,读取测试和训练数据集。  #导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数  import pandas as pd  import numpy as np  fromsklearn.preprocessing import LabelEncoder  import random  fromsklearn.ensemble import RandomForestClassifier  from sklearn.ensembleimport GradientBoostingClassifier  #读取训练、测试数据集  train=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv’)  test=pd.read_csv(’C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv’)  #创建训练、测试数据集标志  train=’Train’  test=’Test’  fullData =pd.concat(,axis=0) #联合训练、测试数据集  步骤2:该框架的第二步并不需要用到python,继续下一步。  步骤3:查看数据集的列名或概要  fullData.columns # 显示所有的列名称  fullData.head(10) #显示数据框的前10条记录  fullData.describe() #你可以使用describe()函数查看数值域的概要  步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。  ID_col =  target_col =  cat_cols =  num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))  other_col= #为训练、测试数据集设置标识符  步骤5:识别缺失值变量并创建标志  fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反  num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量  #为有缺失值的变量创建一个新的变量  # 对缺失值标志为1,否则为0  for var in num_cat_cols:  if fullData.isnull().any()=True:  fullData=fullData.isnull()*1  步骤6:填补缺失值  #用均值填补数值缺失值  fullData = fullData.fillna(fullData.mean(),inplace=True)  #用-9999填补分类变量缺失值  fullData = fullData.fillna(value = -9999)  步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。  #创建分类特征的标签编码器  for var in cat_cols:  number = LabelEncoder()  fullData = number.fit_transform(fullData.astype(’str’))  #目标变量也是分类变量,所以也用标签编码器转换  fullData = number.fit_transform(fullData.astype(’str’))  train=fullData=’Train’]  test=fullData=’Test’]  train = np.random.uniform(0, 1, len(train)) 《= .75  Train, Validate = train=True], train=False]  步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。  features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))  x_train = Train.values  y_train = Train.values  x_validate = Validate.values  y_validate = Validate.values  x_test=test.values  random.seed(100)  rf = RandomForestClassifier(n_estimators=1000)  rf.fit(x_train, y_train)  步骤9:检查性能做出预测  status = rf.predict_proba(x_validate)  fpr, tpr, _ = roc_curve(y_validate, status)  roc_auc = auc(fpr, tpr)  print roc_auc  final_status = rf.predict_proba(x_test)  test=final_status  test.to_csv(’C:/Users/Analytics Vidhya/Desktop/model_output.csv’,columns=)  现在可以提交了!

titanic数据集(决策树如果数据集不够多,会导致分类准确率低吗)

本文编辑:admin

本文相关文章:


titanic数据集(关于泰坦尼克号的资料)

titanic数据集(关于泰坦尼克号的资料)

本文目录关于泰坦尼克号的资料R语言自学笔记-2内置数据集pandas怎么把波士顿矩阵的90%作为训练集关于泰坦尼克号的资料泰坦尼克号(英文RMS Titanic),台湾和香港称为铁达尼号,是20世纪初英国制造的一艘在当时世界最大的豪华客轮,

2024年5月13日 16:10

更多文章:


nano3相对分子质量(列式计算下列物质的相对分子质量水[H2O]______[HCl]______硝酸钠[NaNO3]______[CO(NH2)2]______硫酸铝[)

nano3相对分子质量(列式计算下列物质的相对分子质量水[H2O]______[HCl]______硝酸钠[NaNO3]______[CO(NH2)2]______硫酸铝[)

大家好,如果您还对nano3相对分子质量不太了解,没有关系,今天就由本站为大家分享nano3相对分子质量的知识,包括列式计算下列物质的相对分子质量水[H2O]______[HCl]______硝酸钠[NaNO3]______[CO(NH2)

2025年3月7日 19:00

华为官网配件查询(华为手机上怎么查询售后维修价格)

华为官网配件查询(华为手机上怎么查询售后维修价格)

本文目录华为手机上怎么查询售后维修价格华为手机怎么查询售后维修价格华为mate9换主板多少钱华为手机上怎么查询售后维修价格您可以通过手机服务(会员服务)或者官网等方式查询备件价格,方法如下:1、在华为官网页面最底下的”服务与支持“里点击”维

2024年5月14日 14:00

matebook14摄像头在哪里(华为mate14摄像头在哪)

matebook14摄像头在哪里(华为mate14摄像头在哪)

本文目录华为mate14摄像头在哪华为matebook14怎么开视频华为matebook14笔记本有摄像头吗matebook14几个接口华为笔记本电脑摄像头在键盘上是什么什么时候生产的matebookd14se摄像头在哪华为matebook

2024年10月9日 08:00

手机9008模式(360n5如何进入9008模式)

手机9008模式(360n5如何进入9008模式)

本文目录360n5如何进入9008模式vivox30怎么进入9008模式华为畅享Max进9008方法9008刷机模式什么意思360n5如何进入9008模式对于真砖头手机9008模式无疑是拯救手机的唯一方法,那么如何进入这个模式呢?下载工具上

2024年5月10日 08:30

苹果4s测评(iPhone4和iPhone4s哪个性价比好)

苹果4s测评(iPhone4和iPhone4s哪个性价比好)

本文目录iPhone4和iPhone4s哪个性价比好苹果手机深受大家喜欢,4S和13P相比有什么惊人的变化iPhone4和iPhone4s哪个性价比好1 性价比  在现在的经济形势下,消费者会寻找最令自己满意的产品。当我们想到iPhone手

2024年5月20日 06:50

苹果4电池容量(苹果4电池容量可以改大不)

苹果4电池容量(苹果4电池容量可以改大不)

本文目录苹果4电池容量可以改大不iphone 4的电池容量是多少苹果4手机电池多大苹果4手机的自带内存有多大苹果4和苹果4s的电池一样吗iPhone 4电池容量是多少毫安电池该如何保养5000毫安的移动电源能给iphone4充满多少次电苹果

2024年10月1日 21:00

森海塞尔hd238(森海塞尔HD238的介绍)

森海塞尔hd238(森海塞尔HD238的介绍)

本文目录森海塞尔HD238的介绍森海塞尔HD238的参数森海塞尔hd238怎么煲AKG K450与森海塞尔HD238,这两个耳机哪个更适合听ACG音乐森海塞尔HD238的外观与佩戴森海塞尔HD238的测试森海塞尔HD238和228有什么差别

2024年10月14日 12:40

k240s阻抗(K420升级K240S靠谱吗)

k240s阻抗(K420升级K240S靠谱吗)

其实k240s阻抗的问题并不复杂,但是又很多的朋友都不太了解K420升级K240S靠谱吗,因此呢,今天小编就来为大家分享k240s阻抗的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!本文目录K420升级K240S靠谱吗a

2025年3月28日 19:10

小米官网人工客服在哪(小米官网哪有联系客服)

小米官网人工客服在哪(小米官网哪有联系客服)

本文目录小米官网哪有联系客服怎么找小米客服怎么与小米人工聊天小米售后小米客服怎么转人工怎样联系小米人工服务小米官网哪有联系客服回答您好,小米移动客服热线400-922-3838客服热线400-100-5678举报热线400-120-3505

2024年6月5日 14:30

桌面比例变大了怎么还原(电脑屏幕变大变小了怎么还原)

桌面比例变大了怎么还原(电脑屏幕变大变小了怎么还原)

本文目录电脑屏幕变大变小了怎么还原电脑桌面图标变大,怎么还原电脑屏幕变大怎么还原电脑桌面图标怎么变大了,怎么恢复电脑屏幕变大了怎么还原电脑屏幕显示过大怎么调电脑屏幕变宽,变大了要怎么恢复电脑桌面整体变大了怎么恢复电脑桌面比例突然变大了怎么变

2024年11月5日 03:50

腾龙400mm定焦镜头(腾龙100-400与尼康80-4001代哪个画质更好)

腾龙400mm定焦镜头(腾龙100-400与尼康80-4001代哪个画质更好)

大家好,今天小编来为大家解答以下的问题,关于腾龙400mm定焦镜头,腾龙100-400与尼康80-4001代哪个画质更好这个很多人还不知道,现在让我们一起来看看吧!本文目录腾龙100-400与尼康80-4001代哪个画质更好腾龙100-40

2025年8月30日 00:30

hp1005驱动天空下载(hp1005 win8 64位驱动)

hp1005驱动天空下载(hp1005 win8 64位驱动)

本文目录hp1005 win8 64位驱动哪里可以下载W7 64位系统的HP1005驱动程序hp1005 win8 64位驱动一、下载驱动:①到惠普官网,输入打印机型号作为关键词搜索一下。②找到之后,点选操作系统(还分32位和64位)。③保

2024年5月28日 15:10

皇明太阳能公司(皇明太阳能股份有限公司电话是多少)

皇明太阳能公司(皇明太阳能股份有限公司电话是多少)

大家好,今天小编来为大家解答以下的问题,关于皇明太阳能公司,皇明太阳能股份有限公司电话是多少这个很多人还不知道,现在让我们一起来看看吧!本文目录皇明太阳能股份有限公司电话是多少皇明太阳能售后维修点皇明太阳能股份有限公司怎么样皇明维修及品牌介

2025年9月15日 23:15

文件夹正在使用无法删除怎么办(怎么删除文件无法删除 正在使用)

文件夹正在使用无法删除怎么办(怎么删除文件无法删除 正在使用)

本文目录怎么删除文件无法删除 正在使用硬盘里的文件夹无法删除,怎么解决电脑里文件夹一直删不了,总显示正在被另一个程序打开无法删除删除文件时一直提示 “文件正在使用无法删除“ 怎么办文件或文件夹无法删除怎么办电脑文件夹删除不了怎么办文件夹正在

2024年11月8日 04:50

荣耀发布会9月16(荣耀归来14pro上架时间)

荣耀发布会9月16(荣耀归来14pro上架时间)

本文目录荣耀归来14pro上架时间荣耀属于哪个公司荣耀归来14pro上架时间荣耀归来14pro上架时间2022年9月16日。根据查询相关公开信息显示荣耀归来14pro无论是硬件配置还是外观设计,都非常出色,为带给用户更舒适的大屏体验,荣耀归

2024年10月4日 14:50

a15打得过a12z吗(苹果a15处理器会比a12z性能更强吗)

a15打得过a12z吗(苹果a15处理器会比a12z性能更强吗)

A15仿生和A14仿生的CPU性能差距并不大,可以为用户提供更好的芯片5G性能体验,A15仿生芯片采用5nm工艺技术,A15仿生单核性能只提升7%,苹果a15处理器注意事项A15处理器为用户提供全新的第二代的5nm制作工艺,这次的A15处理

2024年2月26日 10:00

小米云盘客户端(小米云相册怎样转到will手机上)

小米云盘客户端(小米云相册怎样转到will手机上)

本文目录小米云相册怎样转到will手机上支持小米云服务的电脑小米云服务有没有手机版客户端红米手机怎么备份照片小米官方可以查看小米云盘吗小米手机里面的云盘怎么在电脑上登陆小米云盘在哪里打开小米云相册怎样转到will手机上将小米云相册中的照片转

2024年6月15日 10:20

苹果表有什么用(买苹果手表的意义在哪里)

苹果表有什么用(买苹果手表的意义在哪里)

各位老铁们好,相信很多人对苹果表有什么用都不是特别的了解,因此呢,今天就来为大家分享下关于苹果表有什么用以及买苹果手表的意义在哪里的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!本文目录买苹果手表的意义在哪里苹果那个手表

2025年7月4日 15:30

荣耀magic3发布会直播平台(荣耀magic3和magic3至臻版区别)

荣耀magic3发布会直播平台(荣耀magic3和magic3至臻版区别)

本篇文章给大家谈谈荣耀magic3发布会直播平台,以及荣耀magic3和magic3至臻版区别对应的知识点,文章可能有点长,但是希望大家可以阅读完,增长自己的知识,最重要的是希望对各位有所帮助,可以解决了您的问题,不要忘了收藏本站喔。本文目

2025年7月23日 14:15

ipadhome键在哪里(home在苹果平板电脑上那个位置)

ipadhome键在哪里(home在苹果平板电脑上那个位置)

“ipadhome键在哪里”相关信息最新大全有哪些,这是大家都非常关心的,接下来就一起看看ipadhome键在哪里(home在苹果平板电脑上那个位置)!本文目录home在苹果平板电脑上那个位置ipad的home键是哪一个ipadhome键在

2025年5月29日 05:50

近期文章

本站热文

480p720p1080p清晰度区别(480P,720P,1080P是什么意思)
2024-10-25 02:50:26 浏览:532
标签列表

热门搜索