オライリーの「事例で学ぶ特徴量エンジニアリング」を買った
昨日は名古屋駅の周辺で飲んでたんですが、その前にふらっと立ち寄ったJRゲートタワーの三省堂書店でこんな本を発見。
ビビッときたので、つい買ってしまいました。
なお、第1版が12月22日。つまり、出たばかりの本。あれ、この本って前からなかったっけ?
と思ったのですが、以前に出ていたのは「機械学習のための特徴エンジニアリング」でした。
で、この「特徴エンジニアリング」とは何ぞや?
世の中の膨大なデータを使って、例えば需要予測をするとか、工場の良品・不良品を自動で識別させるとか、そういう需要が増えつつあります。
私自身、そういうのを構築する稼業に携わっているんですが、それで痛感しているのは「データは汚い」ということ。
「汚い」という表現がちょっとアレですが、要するに使い物にならない不要なデータがわんさと含まれているということ。
製品検査なんかをやろうとすると、良、不良をラベル付けして、それを元に機械学習モデルを構築して・・・とやるんですが、これが例えば人為的ミスによって不良品がわんさとできてしまった場合、それに引っ張られていいモデルができない、という場合があります。
人のミスって、たいていは特定の原因に偏るので、その一つの原因に引っ張られちゃうというか、そんなAIができてしまう。
すると、例えば機械の摩耗やある部品の故障の前兆として現れた不良品を検出できなくなってしまう、なんてことが起こります。
わりと最近も、そういう事例に出くわしてました。
ゆえに、この「特徴量エンジニアリング」が必要となってくるんです。
最近、ChatGPTの精度が落ちたと話題になることがあります。あれももしかすると、ゴミデータを食い過ぎておかしくなってるんじゃないかと感じることがあります。
とまあ、前置きは置いておき、ちょっとだけ中身を紹介。
目次です。御覧の通り、かなり具体的な事例と、そのために必要なデータの前処理などの話が中心です。
ちなみに「バイアス」とは、データの偏りのようなものです。
先の人為的ミスの混じったデータというのが、わりとこのバイアスの原因になりやすいですね。私の経験上。
そういうものをうまく取り除いてやろう、というのが趣旨です。このため、ちょっとキーワード的にどぎつい表現をしてますが、世間一般の「差別的」とはかなりニュアンスが異なります。
これ以上を知りたければ、ぜひこの本をお手に取ってとしか、申し上げられません。
私自身、この本を読むというよりは、近い事例に直面した際の参考書に使おうという意図で買ってます。
とはいえ、せっかくの年末年始なので、ちょっとパラパラと呼んでみようとは思ってます。
データ分析を生業としている人にとっては、痒い所に手が届く一冊ではないかと思います。
« EPSON製プリンター「EW-052A」で年賀状印刷してみた | トップページ | DOS/V Power Report誌の最終号を購入 »
「数値解析系」カテゴリの記事
- Tanuki-8Bの4ビット量子化ggufモデルでRAGをやってみました(2024.09.14)
- 純日本産なローカルLLM「Tanuki-8B」を試してみた(2024.09.02)
- 東京のセールスフォースに行ってきました(2024.07.24)
- ローカルLLM「Llama-3-ELYZA-JP-8B」にいろいろ聞いてみた(2024.07.01)
- ElyzaのLlama3ベースの言語モデル「Llama-3-ELYZA-JP-8B」のRAGが予想以上に賢かった件(2024.06.27)
« EPSON製プリンター「EW-052A」で年賀状印刷してみた | トップページ | DOS/V Power Report誌の最終号を購入 »
コメント