一个 weka 属性的多个值
Multiple values for one weka attribute
抱歉,我是 Weka 的新手。
我有 100 个实例,每个实例有 400 个属性,其中大部分只有一个值。但是,某些属性具有多个值,因为它们包含时间组件。我想知道 Weka 是否可以分析一个属性的多个值,如果可以,我如何分隔这些值以便 weka 可以读取它们(例如逗号、分号?)
非常感谢您的帮助
R
Weka 原生使用一种名为 arff 的格式,Attribute-Relation
文件格式。此格式由三部分明显不同的结构组成:
1.Head. 这里定义了关系的名称。其格式如下:
relation <name-of-the-relationship>
其中 是 String 类型。如果这个名字包含一些
space 将放在引号之间。
2。声明属性。 这部分描述了组成我们的文件的属性,他的类型被声明了。语法是:
attribute <attribute-name> <type>
凡是String类型,限制相同
如上。
Weka 接受各种类型,它们是:
a) 数字。实数*
b) 整数。
c) DATE. 日期,做这种类型的时候应该在前面加上标签引用格式。
标签格式由分隔字符(连字符
和/或 spaces) 和时间单位:
日。
MM月。
yyyy 年。
HH 营业时间。
毫米分钟。
ss 秒.
d) 字符串。。加上注释类型String的限制
以前。
e) LISTED 该类型的标识符用大括号表示并分隔
可以取的逗号可能值(或字符串)
属性。例如,如果我们有一个指示时间的属性可以定义为:
attribute time {sunny, rainy, cloudy}
3。数据部分。 声明构成逗号分隔属性和换行关系之间关系的数据。
data
4,3.2
尽管这是 "full" 模式,但可以以短格式(稀疏数据)定义数据。如果我们有一个样本,其中有很多数据,我们可以表示 0 数据,省略那些为零的项目,用大括号包围每一行,并在每个数据前面放置属性编号。
例子如下:
data
{14 1, 3 3}
如果有任何信息是未知的,则用近距离询问符号(“?”)表示。如果要添加评论,请使用字符 %.
因此,您可以使用多个值来构建数据集。
示例:
1 % Test Weka.
2 @relation MyTest
3
4 @attribute nombre STRING
5 @attribute ojo_izquierdo {Bien,Mal}
6 @attribute dimension NUMERIC
7 @attribute fecha_analisis DATE "dd-MM-yyyy HH:mm"
8
9 @data
10 Antonio,Bien,38.43,"12-04-2003 12:23"
11 ’Maria Jose’,?,34.53,"14-05-2003 13:45"
12 Juan,Bien,43,"01-01-2004 08:04"
13 Maria,?,?,"03-04-2003 11:03"
抱歉,我是 Weka 的新手。
我有 100 个实例,每个实例有 400 个属性,其中大部分只有一个值。但是,某些属性具有多个值,因为它们包含时间组件。我想知道 Weka 是否可以分析一个属性的多个值,如果可以,我如何分隔这些值以便 weka 可以读取它们(例如逗号、分号?)
非常感谢您的帮助
R
Weka 原生使用一种名为 arff 的格式,Attribute-Relation 文件格式。此格式由三部分明显不同的结构组成:
1.Head. 这里定义了关系的名称。其格式如下:
relation <name-of-the-relationship>
其中 是 String 类型。如果这个名字包含一些 space 将放在引号之间。
2。声明属性。 这部分描述了组成我们的文件的属性,他的类型被声明了。语法是:
attribute <attribute-name> <type>
凡是String类型,限制相同 如上。
Weka 接受各种类型,它们是:
a) 数字。实数*
b) 整数。
c) DATE. 日期,做这种类型的时候应该在前面加上标签引用格式。 标签格式由分隔字符(连字符 和/或 spaces) 和时间单位: 日。 MM月。 yyyy 年。 HH 营业时间。 毫米分钟。 ss 秒.
d) 字符串。。加上注释类型String的限制 以前。
e) LISTED 该类型的标识符用大括号表示并分隔 可以取的逗号可能值(或字符串) 属性。例如,如果我们有一个指示时间的属性可以定义为:
attribute time {sunny, rainy, cloudy}
3。数据部分。 声明构成逗号分隔属性和换行关系之间关系的数据。
data
4,3.2
尽管这是 "full" 模式,但可以以短格式(稀疏数据)定义数据。如果我们有一个样本,其中有很多数据,我们可以表示 0 数据,省略那些为零的项目,用大括号包围每一行,并在每个数据前面放置属性编号。
例子如下:
data
{14 1, 3 3}
如果有任何信息是未知的,则用近距离询问符号(“?”)表示。如果要添加评论,请使用字符 %.
因此,您可以使用多个值来构建数据集。
示例:
1 % Test Weka.
2 @relation MyTest
3
4 @attribute nombre STRING
5 @attribute ojo_izquierdo {Bien,Mal}
6 @attribute dimension NUMERIC
7 @attribute fecha_analisis DATE "dd-MM-yyyy HH:mm"
8
9 @data
10 Antonio,Bien,38.43,"12-04-2003 12:23"
11 ’Maria Jose’,?,34.53,"14-05-2003 13:45"
12 Juan,Bien,43,"01-01-2004 08:04"
13 Maria,?,?,"03-04-2003 11:03"