【BI】[轉載][食夢黑貘] 的 [捷運日記]資料採礦前言

1月 03, 2006

【BI】[轉載][食夢黑貘] 的 [捷運日記]資料採礦前言

[食夢黑貘] 的 [捷運日記]

01/28/04, 資料採礦前言(一)

[QOTD]Data Mining 只是幫人降低決策所須要的成本。

*1

從最早的思索如何降低媒體 (資訊傳遞 )成本，
到如何找到對的資訊 (搜尋與 Agent)，以及從既有
的資訊去產生新的資訊 (Data Mining)，主體基本上
都沒甚麼變，只是方法與領域或多或少都有變化。

Data Mining 本身就只是透過已有但難以解析的
大量資訊找到有利用價值的資訊，所以在從大量的資
訊如何歸納與聚焦的方法就是資料採礦，無論是規則
或者是指標，更有可能的是一個定性定量出來的縮減
範圍，都是利用這些方法創造出解決新問題的答案，
而這問題是甚麼，這答案會是甚麼都會影想到所用的
方法。

生活莫不過是一連串的選擇，甚至在 Seth Data
也可能認為選擇是人之為人的最重要課題，但擺脫這
種型而上的說法，經濟只是在有限的資源上做選擇是
最基本的假設。

任何選擇都會有資源做為樣本空間，也就是說，
在資源有限的前提下，人能夠選擇的空間就更有限了
，所以到最後如何在這種限制去做最佳的選擇變成是
最基本的問題，而在解決問題的答案方法中，從既有
的過去資源去做判斷是最合理的依據，只是這個過去
可供參考的歷史相對現在可用的資源比例是相當龐大
與不可計數，而在主觀與直覺上應該有更好的方式來
找到答案。

而在這種數字資料庫中，應用最廣的大概就是金
融與體育，從過去的結果去判斷未來是金融數字與體
育數字最重要的依據，從打開報紙來看，充滿數字的
兩個版面就是這兩個吧，只是往往體育的數字規模可
能跟金融比較起來是小非常多，但面臨的不確定性是
等價的，沒有人能夠百分之百的預測未來的行為，因
為再些微的可能性都會造成巨大變化的發散性，只是
這個發散性的變化是在所有時刻的切點都可以找到一
些模式。

事實上決策資源系統本來就不是來做百分之百的
預測，這個可能要交給命理學家或預知者來做的，但
發展出一個系統能夠 80% 甚至 90% 適用的價值就已
經相當高了，因此找到這些方法也是具有相當的價值
。

而電腦在這套決策支援系統中，正適合處理大量
的資訊找到一定程度的模式來做參考，只是與其說是
幫人做決策，還不如只是種參考與回饋的機制，只是
這樣的參考行為已經可以把時間與規模做一定程度的
放大，其經驗也不再受限於個人，甚至是從小眾到大
眾的模糊群體與個人，甚至是不存在的本體做為一種
參考，因為人的行為再如何都很難去預測與代為決策
，只是透過這系統幫人降低決策所須要的成本是必要
的。

**********************************************

*1
1/28/04 7:36 pm，從市政府站開始寫，是因為
同事載我從永春站開始坐起。

01/29/04. 資料採礦前言(二)

[QOTD]Data Mining 實務與學術的落差是在於資料的
產出是已經發生而不能修正，也不可能再投入
資源去正規化，不像我們可以依理論須要去創
造出數字。

*1

Data Mining 在資訊學的觀點也是一種把資料轉
換成資訊甚至是種知識的方法與工具，這想法一點也
不特別，只是在這幾年才得以實現。

能夠實現的因素有幾個原因，一個是在許多系統
在資訊化與網路化的結果，獲得資料與傳遞、儲存資
料的成本已經降到可以接受的地步，因為在以前這樣
的資料至少都是 Giga Byte 的，甚至數十數百或
Tera Byte 都是很常見的，在以前不是做不到，不然
就是必須動到國家資源才能做到，現在已經是很普遍
的資源了。

另一個資源也是電腦技術的成長，不只是資料本
身的成本，在計算的成本也是以摩爾系數的曲線降低
，也就是說 CPU 的運算能力，現在只要花不到 5~10
年前成本的 5~10 分之一就可以做到，甚至這成本包
含金錢與時間，且時間更是一個很重要的考量，因為
資訊的價值一個很重要的就是時間性，若是預測的速
度甚至比實際發生的時間還要更久的話，這種預測是
一點價值也沒有。

因此透過電腦運算的進步，以及平行處理的普遍
性，本來無法實現的事現在都可以實現了，這也是為
甚麼 Data Mining 在這幾年能夠變成一個顯學的原
因，不然 Data Mining 所處理的問題是很早就存在
，或者是用的演算法或數學統計基礎也是在 20~30
年前以前就已經到某種成熟的地步了，只是在當時的
時空背景本身是件難以做到的事。

但也不少演算法也是在這近幾年才漸漸進入雛型
或實用，只是這都不是最大的課題，因為真正實務上
的課題比去研究 Data Mining 的技術還要困難。

一個很大的技術落差是即使是現在的 Data
Mining 的技術已經成熟，但在實際上因為理論與實
務存在很大的鴻溝，有人曾經說過，理論是把實際的
事情給約化後然後用很複雜的算式去趨近，而這個約
化所造成的誤差不是再好的算式能夠解決的，反而是
用很單純很笨的方式去檢視實際，然後再重複獲得結
果後去趨近。

我在實務上就遇到類似的問題，在簡單的模型上
，任何物品的差異都是很顯而易見的，而在數量達到
上萬或數十萬與百萬的狀況，各種可能性都或出現，
說要去正規化資料是不可能的，因為在實務上不可能
再去創造出新的資料去輔助正規化與演算，也就是拿
到的就是一個物件可能到處交集、聯集，甚至是相同
而只是時間、外表的差異的東西，而去要求原始產生
資料的人去做調整是幾乎不可能的，所以我們必須去
接受這樣的資料來去做分析，即始這資料再有問題。

不只是資料的產出是已經發生而不能修改，不像
我們在學術理論可以依實際須求去創造出我們須要的
數字，另一個問題是即使電腦資源再多，還是有限的
問題。

**********************************************

*1
1/29/04 9:08 am，過紅樹林站，看樣子是坐上
遲到的班車，但最主要不是起不來或不想起來，而是
將系統的問題解決。看樣子，那一台 Linux 也進入
不穩定的狀態了。
轉載來源:[食夢黑貘] 的 [捷運日記]

搜尋此網誌

透明藍樂摸(蔡正信)TRBlue

【BI】[轉載][食夢黑貘] 的 [捷運日記]資料採礦前言

留言

張貼留言

熱門文章

【Book】張愛玲短篇小說《色戒》全文

【AS/400】AS/400學習筆記