« EPSON製プリンター「EW-052A」で年賀状印刷してみた | トップページ | DOS/V Power Report誌の最終号を購入 »

2023年12月28日 (木)

オライリーの「事例で学ぶ特徴量エンジニアリング」を買った

昨日は名古屋駅の周辺で飲んでたんですが、その前にふらっと立ち寄ったJRゲートタワーの三省堂書店でこんな本を発見。

Img_4423_20231228090601

ビビッときたので、つい買ってしまいました。

なお、第1版が12月22日。つまり、出たばかりの本。あれ、この本って前からなかったっけ?
と思ったのですが、以前に出ていたのは「機械学習のための特徴エンジニアリング」でした。

で、この「特徴エンジニアリング」とは何ぞや?

世の中の膨大なデータを使って、例えば需要予測をするとか、工場の良品・不良品を自動で識別させるとか、そういう需要が増えつつあります。
私自身、そういうのを構築する稼業に携わっているんですが、それで痛感しているのは「データは汚い」ということ。

「汚い」という表現がちょっとアレですが、要するに使い物にならない不要なデータがわんさと含まれているということ。

製品検査なんかをやろうとすると、良、不良をラベル付けして、それを元に機械学習モデルを構築して・・・とやるんですが、これが例えば人為的ミスによって不良品がわんさとできてしまった場合、それに引っ張られていいモデルができない、という場合があります。
人のミスって、たいていは特定の原因に偏るので、その一つの原因に引っ張られちゃうというか、そんなAIができてしまう。
すると、例えば機械の摩耗やある部品の故障の前兆として現れた不良品を検出できなくなってしまう、なんてことが起こります。
わりと最近も、そういう事例に出くわしてました。

ゆえに、この「特徴量エンジニアリング」が必要となってくるんです。

最近、ChatGPTの精度が落ちたと話題になることがあります。あれももしかすると、ゴミデータを食い過ぎておかしくなってるんじゃないかと感じることがあります。

とまあ、前置きは置いておき、ちょっとだけ中身を紹介。

Img_4424

目次です。御覧の通り、かなり具体的な事例と、そのために必要なデータの前処理などの話が中心です。

Img_4425

ちなみに「バイアス」とは、データの偏りのようなものです。
先の人為的ミスの混じったデータというのが、わりとこのバイアスの原因になりやすいですね。私の経験上。
そういうものをうまく取り除いてやろう、というのが趣旨です。このため、ちょっとキーワード的にどぎつい表現をしてますが、世間一般の「差別的」とはかなりニュアンスが異なります。

これ以上を知りたければ、ぜひこの本をお手に取ってとしか、申し上げられません。

私自身、この本を読むというよりは、近い事例に直面した際の参考書に使おうという意図で買ってます。
とはいえ、せっかくの年末年始なので、ちょっとパラパラと呼んでみようとは思ってます。

データ分析を生業としている人にとっては、痒い所に手が届く一冊ではないかと思います。

事例で学ぶ特徴量エンジニアリング

« EPSON製プリンター「EW-052A」で年賀状印刷してみた | トップページ | DOS/V Power Report誌の最終号を購入 »

数値解析系」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

« EPSON製プリンター「EW-052A」で年賀状印刷してみた | トップページ | DOS/V Power Report誌の最終号を購入 »