这个sem我们每个人都要做一个project,是group project来的。好死不死,拿到data mining,还是要process 3个datasets的那种,而且是要做一个system让user选dataset之后就自动从头到尾自己proses的那种,屌……幸好lecture还有讲我们可以去找一个master student做过的system来“参考”。哪里知道那个master student做的system完全不flexible,只是compatile给他的dataset罢了,而且coding还复杂到半死,明明2,3句可以写完的coding,偏偏还要拖到7,8行,搞到全部coding都超过300面,靠!!!谁有空去看哦……连“参考”的价值都没有。以下就是我们跟她的dataset之间的差别:
1. 她的system only compatile for 1 dataset;我们的要compatile 3个。
2. 她的dataset里面的value都是numeric;我们的就是rojak,string也有、integer和double也有。
Data mining的步骤是这样的:
1. Data cleaning
2. Discretization
3. Data transformation(我喜欢这个step,因为最简单^.^)
4. Modelling(就是做neural network咯……)
Coding我们是用JAVA做的,然后我们的dataset是2 dimensional array,学过programming的都知道搞这个东西是超级头晕的。
第一个step - data cleaning:
1. Read txt file(所有资料读进来都是string来得,然后又要换去double,麻烦到半死……)。
2. 让电脑将里面的attributes自动分出是continuous或category values。靠,我们就是死在这个 step。他妈的笨电脑!!!
3. 将category value换去数字,这个很简单,可是前一个step做不到会也没用(-_-|||)。
4. 因为dataset不是完美的,它里面有很多“?”,也就是missing value。这个step就是将那些 missing value用那行attribute的mean补上去。会programming的想看这个step要怎样code,因 为算mean的时候要skip掉“?”,够麻烦的……
5. 终于完成这个step了,开心还太早了,下个step死到更惨。
第二个step - discretization:
1. 这个step讲起来很简单罢了,就是将continuous value换去category。麻烦的事,一个attribute 要换去几个category咧?每个category的range又要多少?Lecture要我们用2个methods来 solve这个step,一个是entropy-based discretization (theorically上明白它在讲什么,pratical 上不知道怎样下手……),另一个是evolutionary discretization,听都没有听多……去 internet找下,靠!!!世界最前沿的理论之一,theorical 跟pratical完全都不知道它在讲什 么……去问lecture,她讲她也不知道什么东东来得,吐 血!!!死到惨惨……
第三个step - transformation:
1. 就是将所有的attributes换去0到1之间,只要有formula的话30分钟里面搞定,嘻嘻……
第四个step - modelling
1. 还没有start,不过也是没有idea……
感言:
SHIT!!!人家master比我们的简单都有6个月的时间来做,我们的比人家变态才给6个星期,当我们神咩!!!还讲什么我们的system不用flexible,只要compatile给我们那3个dataset罢了。你有没有想过我们那3个dataset已经包括所有dataset的种类了,如果我们做的出来的话,早就是compatile for all kind of datasets了……火大火大!!!
0 Responses
Post a Comment
Subscribe to:
Post Comments (Atom)