我可以在以下数据集样本上使用机器学习吗
Can I use machine learning on below dataset sample
Dataset Sample
我可以使用任何算法来训练以上数据集吗?
因为每一行 (Id) 都有因变量 (Status) 。但是每个 "Id" 再次作为 Multiple Rows per Features
您可以将其假设为 "Each Id has multiple transaction and All transactions have common Status"
机器学习会从这些交易中找到一些模式吗
是否有其他方法可以解决此类问题
您可以假设每一行都是独立的并忽略 id
列,或者如果每个 ID 都有 3 行,您可以使用更多功能扩展数据集
只需用上一行中的值填充您的 ID 行,状态行也是如此,这将导致:
df
ID Feature1 Feature2 Feature3 Status
8079 100 Asia High Approved
8079 200 Africa Low Approved
当你运行一个分类算法时,你可以使用:ID, Feature1, Feature2, Feature3
作为特征和状态作为目标。分类器将以此学习,一切都与以前完全相同。
这些功能仍然是独立的。只有当变量以某种方式相互依赖时,您才会拥有依赖特征,在您的情况下,ID 8079 不会导致特征 1:非洲。他们是独立的。
您可以使用以下内容填充您的单元格:
import numpy as np
df[df[0]==""] = np.NaN
df.fillna(method='ffill')
根据您的意见,方法可能略有不同,您需要将您的条目转换为新功能 ():
数据框应如下所示:
ID Feature1 Feature2 Feature3 Feature1a .... Feature3z Status
8079 100 Asia High 200 Approved
Dataset Sample
我可以使用任何算法来训练以上数据集吗? 因为每一行 (Id) 都有因变量 (Status) 。但是每个 "Id" 再次作为 Multiple Rows per Features 您可以将其假设为 "Each Id has multiple transaction and All transactions have common Status" 机器学习会从这些交易中找到一些模式吗
是否有其他方法可以解决此类问题
您可以假设每一行都是独立的并忽略 id
列,或者如果每个 ID 都有 3 行,您可以使用更多功能扩展数据集
只需用上一行中的值填充您的 ID 行,状态行也是如此,这将导致:
df
ID Feature1 Feature2 Feature3 Status
8079 100 Asia High Approved
8079 200 Africa Low Approved
当你运行一个分类算法时,你可以使用:ID, Feature1, Feature2, Feature3
作为特征和状态作为目标。分类器将以此学习,一切都与以前完全相同。
这些功能仍然是独立的。只有当变量以某种方式相互依赖时,您才会拥有依赖特征,在您的情况下,ID 8079 不会导致特征 1:非洲。他们是独立的。
您可以使用以下内容填充您的单元格:
import numpy as np
df[df[0]==""] = np.NaN
df.fillna(method='ffill')
根据您的意见,方法可能略有不同,您需要将您的条目转换为新功能 (
ID Feature1 Feature2 Feature3 Feature1a .... Feature3z Status
8079 100 Asia High 200 Approved