AIとかAGIとか、chatGPTとか

仕事で統計を扱っていて、

重回帰分析、ラッソ、リッジ回帰、機械学習、さまざま分析してるけど、

教師有り学習の場合は、データのスクリーニングが本当に重要。

 

玉石混交のデータを使って、統計モデルを作っても、何の役にも立たない。

外れ値を除外して、ある程度系統の揃ったデータで統計モデルを作らないと、精度の高い予測は出来ない。

 

ここで難しいのが、何処迄外れ値を除外するのか?

何処迄が系統に沿ったデータなのか?どこからが系統から外れるのか?

 

本当に難しい。

やりすぎると、特化した統計モデルとなる為、汎用性が無いけど、

やらないと、ガラクタになる。

 

経験上やらないよりはやった方がはるかに良い。

例え汎用性が無くても、特定の領域ではそれなりの予測精度が期待できるからだ。

 

つまり、統計モデルというのは、訓練データが重要な領域の大部分を占める。

つまりデータのスクリーニングが超重要。

 

最近はAIだ、chatGPTだ、AGIだと言われているけど、これらも統計モデルの一種。

だからその背後には、訓練データを作っている人が存在する。

その人が、どこまで外れ値を弾くべきなのか、考えながら、調整しながら、データをスクリーニングする。

 

つまり、スクリーニングを行った人の意図が多分に入り込む。

 

少し話がそれたけど、

AIは完璧な物だとか、公正中立の物だとか思っていなるかもしれないけど、

 

所詮は人の意図が入り込んだ恣意的な物であって、極論を言えばマスゴミさんと変わりがない。都合のいい部分だけを切り取っている事に違いは無いから。

 

だからそれほど優れたものではないんだよね。AIは。