
ミック経済研究所の調査によると、AI画像解析の市場は2018~2023年度まで平均成長率95.1%増を続け、2023年度には、1500億円市場になると予測している。
今後はさらに活用の場が広がるだろう。
AI・人工知能活用を考えるビジネスパーソン向けに、AI画像解析のどのようなことができるのか、活用事例とともに紹介する。
画像認識自体の研究は、コンピューターが登場する前から行われてきた。
OCRでの文字読み取りや、顔認証も画像解析に含まれる。しかし子どもでも簡単にできるモノの識別は、コンピューターにとってはとても難しく、長い間日の目を見ることはなかった。
しかし2010年代に入ると、画像解析は技術革新のひとつとして大きな注目を集めることとなる。
その象徴的な出来事が2012年に開催された世界的な画像解析コンテストだ。この大会では、ディープラーニングを使った機械学習モデルが、他のモデルに圧倒的な精度で大差をつけて勝利した。
この出来事が画像解析の実用化に弾みをつけ、今では一般の人でもAIを意識することなく生活のなかで使っている。
画像解析が実用化されたのは、ディープラーニング技術の誕生、そしてハードウェアの進化が大きい。
ディープラーニングはAIの一種であり、機械学習に含まれる。機械学習は大量のデータから学習し、運用後も間違いを訂正していくことで、どんどん賢くなっていくという優位性が注目されている。
機械学習の中でもディープラーニングは、画像から猫を判断するときの特徴量、例えば次の画像で「1. 耳が2つあってそれは頭頂よりも上にある」「2. 顔の輪郭は丸い」といったことを人間が定義しなくても、データの中から特徴量を自律的に検出することで、高い精度を達成した。

AI画像解析には、大きく分けて「分類」「検出」「生成」の機能がある。
AI画像解析の基本となる機能で、画像に何が写っているかを識別する。
例えば次の写真では、「車」を識別したり、「都市」を識別したりと、撮影対象のものだけでなく、背景に写っているものや、どの場所にいるかを解析する。

画像に何が写っているかだけでなく、画像のどの位置に対象物が写っているかを識別する。
また、画像に写っているさまざまなモノが、どのくらい遠くにあるのかを識別する。
例えば広いスペースの飲食店で、どの席が空いているかを判断するといったことに使われている。
また、画像から建物、歩道、道路といったように、映像に写っているエリアをカテゴライズして抽出することができる。
その場にいる人の個人情報を考慮する場合や、自動運転で走行ルートを決定する場合に利用されている。
GAN(敵対的生成ネットワーク)はディープラーニングの進化系ともいうべきもので、架空あるいは実在の人物や動物を画像として生成できる。
実在の人物として生成するとフェイク画像として悪用される問題もあるが、AIが学習するために必要な画像データを大量に生成する際にも活用されている。

それではAI画像解析の基本となる「分類」の仕組みを紹介しよう。
「画像に何が写っているか?」人間にとってこの問いに答えるのは簡単だ。だが、前にも触れたようにこれをコンピューターに置き換えると、とたんに難しくなる。
例えば猫を見分けるには、猫がどういう形をしているかを定義する必要がある。
「猫には耳が2つあってそれは頭頂よりも上にある」「顔の輪郭は丸い」と言葉で表すと簡単だが、コンピューターに反映させるには、耳はどんなものか、顔とはどんなものか、といったことについても逐一定義しなければならない。
この定義を人間が行ったらどうなるかを想像してほしい。膨大な作業量になるし、言語化できない部分があることがわかる。
そもそも私たちがモノを識別する時に、特徴を言語化しているわけではない。
幼いころに「これは猫だよ」などと教えてもらい、無意識のうちに猫の特徴を抽出して記憶しているのだ。それと同じようなことを実現したのがディープラーニングである。
どのように解析しているのかプロセスを簡単に見てみよう。
1. 事前に学習用データを用意
画像から何かを識別するには、パターンを抽出する必要がある。そのためには大量のデータが必要だ。
さらに、学習用のデータには、「猫」「犬」「イノシシ」のように画像にタグを付ける必要がある。
このように学習用データに正解を与える学習方法を「教師あり学習」と呼ぶ。そして正解をタグ付けする作業をアノテーションと呼び、大量データ一つひとつに行う必要がある。
2012年にGoogleが発表した研究では、タグ付けを行わずに猫を識別できたが、画像から何かを識別する場合、通常はアノテーションを行う必要がある。
2. 学習
事前に用意した学習用データを読み込み、タグで示すモノについて特徴的である部分を抽出し、組み合わせパターンによって猫向け、犬向けといった推論モデルをそれぞれ作成する。
3. 推論
学習データとは別の画像を入力し、どの推論モデルと一致しているのかを調べ、「猫である確率が90%」といった判定を行う。

このような手順を踏むと、例えば画像をアップロードしたら、タイプに応じて画像を自動的に分類したり、何が写っているかを識別したりすることができるようになる。
従来は学習で猫について「耳が2つあってそれは頭頂よりも上にある」「顔の輪郭は丸い」といった特徴的なパターンを抽出するのを人間が定義しなければならなかった。
しかし、ディープラーニングの登場により、画像を画素(ピクセル単位)にまで分解して輪郭や目や鼻の識別を高い精度でできるようになったのである。
ディープラーニングの登場により、画像や音声などを解析する精度が高まり、活用範囲が飛躍的に広がった。
AIによる画像解析ではどのようなことに活用されているのだろうか。
船橋市西図書館では、蔵書点検にAIの画像解析を活用しようとしている。
本棚をタブレットで撮影すると、棚別の蔵書データとマッチングし、点検を行うというものだ。
船橋市では、ICタグを取り付けて読み取る方法も導入しているが、各地域の公民図書館では1冊ずつバーコードを読み取っており、労力がかかっていた。
ICタグは1点ずつスキャンしなくても、一度に複数点数を読み取ることができるという利便性がある。
反面、ICタグの単価が高く、投資が回収できないケースもある。AI画像解析はこのICタグを代替えする機能としても期待されている。
画像解析は人間の目の役割といっても過言ではない。
そのため自動運転には欠かせない技術だ。埼玉工業大学では、大学キャンパスとJR高崎線岡部駅までの公道を、スクールバスが自動運転で走行する実証実験を行っている。
LiDAR(レーザー光を照射して遠距離にある対象までの距離やその対象の性質を分析)やカメラの画像をディープラーニングでリアルタイムに解析することで、周辺環境を認識して障害物を避け、法定速度(40km)での走行を実現した。
このスクールバスでは画像解析の8割がAIによるもので、他の自動運転システムよりもAIの機能が占める割合が多い。
AIによる解析の高速性が、今後の自動運転の実用化に向けて求められていくだろう。
ファッション関連の商品はアイテム数が多くなる。
商品画像を登録するだけでも労力がかかり、ましてや商品をモデルに着せて撮影するのは労力だけでなくコストもかかる。
その問題を解決するべく生まれたのが、実在しないモデルの全身画像を自動生成するサービスだ。
京都大学発のAIベンチャー、データグリッドが開発した、このサービスを利用すれば、モデルの画像が1秒で生成できる。
この記事では、AIの画像解析はどんなことができるのかを中心に紹介してきた。
活用事例を見ると、AI画像解析の守備範囲の広さがわかる。
もはや特別な機能ではなく、ビジネスに活用して、大きな成果を上げるフェーズに来たといえるだろう。
<関連URL>
ディープラーニング画像認識市場は2023年度まで年率95.1%で急成長、ミック経済研究所調べ | IT Leaders
https://it.impressbm.co.jp/articles/-/18623
総務省 ICTスキル総合習得教材-[コース3]データ分析-3-5:人工知能と機械学習 | 総務省[PDF]
https://www.soumu.go.jp/ict_skill/pdf/ict_skill_3_5.pdf
表・グラフ以外の画像:Shutterstock、ぱくたそ
今後はさらに活用の場が広がるだろう。
AI・人工知能活用を考えるビジネスパーソン向けに、AI画像解析のどのようなことができるのか、活用事例とともに紹介する。
AIによる画像解析とは?
画像認識自体の研究は、コンピューターが登場する前から行われてきた。
OCRでの文字読み取りや、顔認証も画像解析に含まれる。しかし子どもでも簡単にできるモノの識別は、コンピューターにとってはとても難しく、長い間日の目を見ることはなかった。
しかし2010年代に入ると、画像解析は技術革新のひとつとして大きな注目を集めることとなる。
その象徴的な出来事が2012年に開催された世界的な画像解析コンテストだ。この大会では、ディープラーニングを使った機械学習モデルが、他のモデルに圧倒的な精度で大差をつけて勝利した。
この出来事が画像解析の実用化に弾みをつけ、今では一般の人でもAIを意識することなく生活のなかで使っている。
画像解析が実用化されたのは、ディープラーニング技術の誕生、そしてハードウェアの進化が大きい。
ディープラーニングはAIの一種であり、機械学習に含まれる。機械学習は大量のデータから学習し、運用後も間違いを訂正していくことで、どんどん賢くなっていくという優位性が注目されている。
機械学習の中でもディープラーニングは、画像から猫を判断するときの特徴量、例えば次の画像で「1. 耳が2つあってそれは頭頂よりも上にある」「2. 顔の輪郭は丸い」といったことを人間が定義しなくても、データの中から特徴量を自律的に検出することで、高い精度を達成した。

AI画像解析には何ができる?
AI画像解析には、大きく分けて「分類」「検出」「生成」の機能がある。
分類
AI画像解析の基本となる機能で、画像に何が写っているかを識別する。
例えば次の写真では、「車」を識別したり、「都市」を識別したりと、撮影対象のものだけでなく、背景に写っているものや、どの場所にいるかを解析する。

検出
画像に何が写っているかだけでなく、画像のどの位置に対象物が写っているかを識別する。
また、画像に写っているさまざまなモノが、どのくらい遠くにあるのかを識別する。
例えば広いスペースの飲食店で、どの席が空いているかを判断するといったことに使われている。
また、画像から建物、歩道、道路といったように、映像に写っているエリアをカテゴライズして抽出することができる。
その場にいる人の個人情報を考慮する場合や、自動運転で走行ルートを決定する場合に利用されている。
生成
GAN(敵対的生成ネットワーク)はディープラーニングの進化系ともいうべきもので、架空あるいは実在の人物や動物を画像として生成できる。
実在の人物として生成するとフェイク画像として悪用される問題もあるが、AIが学習するために必要な画像データを大量に生成する際にも活用されている。
AIはどのように処理しているのか? AI画像解析の仕組み

それではAI画像解析の基本となる「分類」の仕組みを紹介しよう。
「画像に何が写っているか?」人間にとってこの問いに答えるのは簡単だ。だが、前にも触れたようにこれをコンピューターに置き換えると、とたんに難しくなる。
例えば猫を見分けるには、猫がどういう形をしているかを定義する必要がある。
「猫には耳が2つあってそれは頭頂よりも上にある」「顔の輪郭は丸い」と言葉で表すと簡単だが、コンピューターに反映させるには、耳はどんなものか、顔とはどんなものか、といったことについても逐一定義しなければならない。
この定義を人間が行ったらどうなるかを想像してほしい。膨大な作業量になるし、言語化できない部分があることがわかる。
そもそも私たちがモノを識別する時に、特徴を言語化しているわけではない。
幼いころに「これは猫だよ」などと教えてもらい、無意識のうちに猫の特徴を抽出して記憶しているのだ。それと同じようなことを実現したのがディープラーニングである。
どのように解析しているのかプロセスを簡単に見てみよう。
1. 事前に学習用データを用意
画像から何かを識別するには、パターンを抽出する必要がある。そのためには大量のデータが必要だ。
さらに、学習用のデータには、「猫」「犬」「イノシシ」のように画像にタグを付ける必要がある。
このように学習用データに正解を与える学習方法を「教師あり学習」と呼ぶ。そして正解をタグ付けする作業をアノテーションと呼び、大量データ一つひとつに行う必要がある。
2012年にGoogleが発表した研究では、タグ付けを行わずに猫を識別できたが、画像から何かを識別する場合、通常はアノテーションを行う必要がある。
2. 学習
事前に用意した学習用データを読み込み、タグで示すモノについて特徴的である部分を抽出し、組み合わせパターンによって猫向け、犬向けといった推論モデルをそれぞれ作成する。
3. 推論
学習データとは別の画像を入力し、どの推論モデルと一致しているのかを調べ、「猫である確率が90%」といった判定を行う。

このような手順を踏むと、例えば画像をアップロードしたら、タイプに応じて画像を自動的に分類したり、何が写っているかを識別したりすることができるようになる。
従来は学習で猫について「耳が2つあってそれは頭頂よりも上にある」「顔の輪郭は丸い」といった特徴的なパターンを抽出するのを人間が定義しなければならなかった。
しかし、ディープラーニングの登場により、画像を画素(ピクセル単位)にまで分解して輪郭や目や鼻の識別を高い精度でできるようになったのである。
実際にどんなことに活用されているのか
ディープラーニングの登場により、画像や音声などを解析する精度が高まり、活用範囲が飛躍的に広がった。
AIによる画像解析ではどのようなことに活用されているのだろうか。
蔵書点検
船橋市西図書館では、蔵書点検にAIの画像解析を活用しようとしている。
本棚をタブレットで撮影すると、棚別の蔵書データとマッチングし、点検を行うというものだ。
船橋市では、ICタグを取り付けて読み取る方法も導入しているが、各地域の公民図書館では1冊ずつバーコードを読み取っており、労力がかかっていた。
ICタグは1点ずつスキャンしなくても、一度に複数点数を読み取ることができるという利便性がある。
反面、ICタグの単価が高く、投資が回収できないケースもある。AI画像解析はこのICタグを代替えする機能としても期待されている。
自動運転
画像解析は人間の目の役割といっても過言ではない。
そのため自動運転には欠かせない技術だ。埼玉工業大学では、大学キャンパスとJR高崎線岡部駅までの公道を、スクールバスが自動運転で走行する実証実験を行っている。
LiDAR(レーザー光を照射して遠距離にある対象までの距離やその対象の性質を分析)やカメラの画像をディープラーニングでリアルタイムに解析することで、周辺環境を認識して障害物を避け、法定速度(40km)での走行を実現した。
このスクールバスでは画像解析の8割がAIによるもので、他の自動運転システムよりもAIの機能が占める割合が多い。
AIによる解析の高速性が、今後の自動運転の実用化に向けて求められていくだろう。
全身モデル画像の生成
ファッション関連の商品はアイテム数が多くなる。
商品画像を登録するだけでも労力がかかり、ましてや商品をモデルに着せて撮影するのは労力だけでなくコストもかかる。
その問題を解決するべく生まれたのが、実在しないモデルの全身画像を自動生成するサービスだ。
京都大学発のAIベンチャー、データグリッドが開発した、このサービスを利用すれば、モデルの画像が1秒で生成できる。
AIによる画像解析で“できること”
この記事では、AIの画像解析はどんなことができるのかを中心に紹介してきた。
- AI画像解析は古くからある技術だが、ディープラーニングの誕生によって実用化の幅が飛躍的に広がった
- AI画像解析は画像に写る何かを識別したり、その何かがどの位置にあるかを特定したり、その何かにそっくりな画像を生成したりすることができる
- 画像を解析するには、「データ準備」「学習」「推論」のプロセスが必要だ
活用事例を見ると、AI画像解析の守備範囲の広さがわかる。
もはや特別な機能ではなく、ビジネスに活用して、大きな成果を上げるフェーズに来たといえるだろう。
<関連URL>
ディープラーニング画像認識市場は2023年度まで年率95.1%で急成長、ミック経済研究所調べ | IT Leaders
https://it.impressbm.co.jp/articles/-/18623
総務省 ICTスキル総合習得教材-[コース3]データ分析-3-5:人工知能と機械学習 | 総務省[PDF]
https://www.soumu.go.jp/ict_skill/pdf/ict_skill_3_5.pdf
表・グラフ以外の画像:Shutterstock、ぱくたそ
WRITTEN by
山際 貴子
システムエンジニアとして独立系SI会社等4社を経験し、プロジェクトリーダーとして大規模プロジェクトの開発に携わる。その後、フリーライターとして独立。企業取材、インタビュー、コラム執筆等を中心に活動している。独自の視点から複雑な事象をわかりやすく解説することを得意とする。
AIのビジネス活用に関する
最新情報をお届け