AIとかAGIとか、chatGPTとか
仕事で統計を扱っていて、
重回帰分析、ラッソ、リッジ回帰、機械学習、さまざま分析してるけど、
教師有り学習の場合は、データのスクリーニングが本当に重要。
玉石混交のデータを使って、統計モデルを作っても、何の役にも立たない。
外れ値を除外して、ある程度系統の揃ったデータで統計モデルを作らないと、精度の高い予測は出来ない。
ここで難しいのが、何処迄外れ値を除外するのか?
何処迄が系統に沿ったデータなのか?どこからが系統から外れるのか?
本当に難しい。
やりすぎると、特化した統計モデルとなる為、汎用性が無いけど、
やらないと、ガラクタになる。
経験上やらないよりはやった方がはるかに良い。
例え汎用性が無くても、特定の領域ではそれなりの予測精度が期待できるからだ。
つまり、統計モデルというのは、訓練データが重要な領域の大部分を占める。
つまりデータのスクリーニングが超重要。
最近はAIだ、chatGPTだ、AGIだと言われているけど、これらも統計モデルの一種。
だからその背後には、訓練データを作っている人が存在する。
その人が、どこまで外れ値を弾くべきなのか、考えながら、調整しながら、データをスクリーニングする。
つまり、スクリーニングを行った人の意図が多分に入り込む。
少し話がそれたけど、
AIは完璧な物だとか、公正中立の物だとか思っていなるかもしれないけど、
所詮は人の意図が入り込んだ恣意的な物であって、極論を言えばマスゴミさんと変わりがない。都合のいい部分だけを切り取っている事に違いは無いから。
だからそれほど優れたものではないんだよね。AIは。