[AI入門]教師なし学習 正解のない学習

今回は教師なし学習についてもう少しだけご紹介します。

教師なし学習とは一言で言ってしまうと「正解の存在しない学習法」のことです。
教師あり学習が「この内容について知りたい」という目的を持っているのに対し、教師なし学習はそういった目的を与えません。
そのため、教師なし学習はデータの関係性や相関を発見しデータをより簡潔にしたり(主成分分析)、データいくつかの群に分割したり(クラスタリング)する目的で用いられます。

主成分分析

主成分分析は複数の変数の関係性を分析し、できるだけ少ない変数で元のデータを表すという問題です。

四次元以上の変数データを二次元(ないしは三次元)データとして表すことができれば、グラフや図によって視覚化できるため、データの解釈性を高めることができます。
ただし、できあがったグラフはデータ全体の特長をとらえたものに過ぎず、主成分分析後の軸の値や意味などは読み手で理解する必要があります。

▲身長・体重・座高・握力の4次元データを主成分分析し、二次元散布図としてプロットしたもの

クラスタリング

クラスタリングとはデータを幾つかのグループに分ける問題です。

「分ける」というと教師あり学習における分類問題と何が違うの?と思うかもしれませんが、分類問題は分類基準として教師データを与えているのに対し、クラスタリングではそういった基準となるデータは与えません。そのため、クラスタリングの結果はどういった意味があるか人間が解釈し、利用する必要があります。

顧客データの分類など、分類基準が存在しないデータに用いられるほか、均一な精度で正解ラベルを用意する手間を解消するため、教師あり学習の分類問題の代替として用いられることもあります。
また、ECサイト等で行動の履歴などから好みの商品を表示する、レコメンドにもクラスタリングが用いられています。

クラスタリングについて記述した次の文章の中で間違っているものはどれ?
AI入門6
{{quiz}} {{maxScore}}問中{{userScore}}問正解!
{{title}}
{{image}}
{{content}}