生命的旅途: Projek Kumpulan

Chee Jie Si

这个sem我们每个人都要做一个project,是group project来的。好死不死，拿到data mining，还是要process 3个datasets的那种，而且是要做一个system让user选dataset之后就自动从头到尾自己proses的那种，屌……幸好lecture还有讲我们可以去找一个master student做过的system来“参考”。哪里知道那个master student做的system完全不flexible，只是compatile给他的dataset罢了，而且coding还复杂到半死，明明2，3句可以写完的coding，偏偏还要拖到7，8行，搞到全部coding都超过300面，靠！！！谁有空去看哦……连“参考”的价值都没有。以下就是我们跟她的dataset之间的差别：

1. 她的system only compatile for 1 dataset;我们的要compatile 3个。

2. 她的dataset里面的value都是numeric;我们的就是rojak,string也有、integer和double也有。

Data mining的步骤是这样的：

1. Data cleaning

2. Discretization

3. Data transformation(我喜欢这个step,因为最简单^.^)

4. Modelling(就是做neural network咯……)

Coding我们是用JAVA做的，然后我们的dataset是2 dimensional array,学过programming的都知道搞这个东西是超级头晕的。

第一个step - data cleaning:

1. Read txt file(所有资料读进来都是string来得，然后又要换去double,麻烦到半死……)。

2. 让电脑将里面的attributes自动分出是continuous或category values。靠，我们就是死在这个 step。他妈的笨电脑！！！

3. 将category value换去数字，这个很简单，可是前一个step做不到会也没用（-_-|||）。

4. 因为dataset不是完美的，它里面有很多“？”，也就是missing value。这个step就是将那些 missing value用那行attribute的mean补上去。会programming的想看这个step要怎样code,因为算mean的时候要skip掉“？”，够麻烦的……

5. 终于完成这个step了，开心还太早了，下个step死到更惨。

第二个step - discretization:

1. 这个step讲起来很简单罢了，就是将continuous value换去category。麻烦的事，一个attribute 要换去几个category咧？每个category的range又要多少？Lecture要我们用2个methods来 solve这个step，一个是entropy-based discretization （theorically上明白它在讲什么，pratical 上不知道怎样下手……），另一个是evolutionary discretization，听都没有听多……去 internet找下，靠！！！世界最前沿的理论之一，theorical 跟pratical完全都不知道它在讲什么……去问lecture，她讲她也不知道什么东东来得，吐血！！！死到惨惨……

第三个step - transformation:

1. 就是将所有的attributes换去0到1之间，只要有formula的话30分钟里面搞定，嘻嘻……

第四个step - modelling

1. 还没有start，不过也是没有idea……

感言：

SHIT！！！人家master比我们的简单都有6个月的时间来做，我们的比人家变态才给6个星期，当我们神咩！！！还讲什么我们的system不用flexible，只要compatile给我们那3个dataset罢了。你有没有想过我们那3个dataset已经包括所有dataset的种类了，如果我们做的出来的话，早就是compatile for all kind of datasets了……火大火大！！！

0 Responses

VO1©ℇ OF THℇ Hℇ@RT

©ONNℇ©T1ON OF Hℇ@RT

PRℇSℇNT'S L1Fℇ

MℇMORY

FOOTM@RK

FOLLOWℇR