ほろ酔い開発日誌

AI企業のエンジニアのブログです。機械学習、Web開発の技術的お話、ビジネスチックなお話、日常のお役立ち情報など雑多な内容でお送りします。

詳細な全身の2次元特徴点を推定するWhole-Body Pose Estimationの論文のご紹介

f:id:seishin55:20200801153959j:plain

はじめに

今回はECCV'20に採録された2D Pose Estimationの論文をご紹介します。 Pose Estimationのデータセットとしてよく使われるCOCOデータセットは身体の17点の2次元特徴点の位置を推定することが一般的ですが、今回の論文ではCOCOの画像に対して、顔・両手・両足に詳細なアノテーションを追加することでより詳細な2次元特徴点の推定を可能にしました。

また、そのデータセットで実際にPose Estimationを行い、既存の手法に対して大幅に精度向上したモデルであるZoomNetを提案しました。

続きを読む

Androidアプリのライブラリの作り方とGitHubでの管理

f:id:seishin55:20200712115204j:plain

はじめに

アプリケーション開発において、共通のパーツとして切り出して再利用性を高めたり、ロジックを切り出して責務を明確化して扱いやすくするために、コードをパッケージにまとめたくなります。

最近ではPythonを触ることが多いのでpipで管理できるようにしますが、Androidでも同様にライブラリにして管理できるようにしたいと思いました。

Androidでは、モジュールとしてライブラリを作成し、それをAARファイルへ変換し、Mavenレポジトリとしてアップロードすることで、それをライブラリとして読み込んで利用できるようです。管理ツールとしてGitHubを使うやり方で、それを実現します。

続きを読む

Bottom-Up型の2D Pose Estimationの最新手法HigherHRNetの紹介

f:id:seishin55:20200627190421j:plain

はじめに

今回は、CVPR'20に採録されたBottom-Up型の2D Pose Estimationについて紹介します。

[1908.10357] HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

2D Pose Estimationには大きく2つのパターンがあり、Top-Down型とBottom-Up型があります。Top-Down型は、はじめに人物を検出し、その検出された人物ごとに関節点を推定するというアプローチです。それに対して、Bottom-Up型は、全ての人物の関節点を推定して、その後に人物ごとにグルーピングするというアプローチです。

Bottom-Up型は全ての人物を一度に処理できるため、人物の数が増えても高速に推論することができるという利点があります。例えば、Pose Estimationとして有名なOpenPoseもBottom-Up型を取ります。しかしながら、Top-Down型のアプローチのほうが精度としては一般に高く出る傾向にあります。それもあってか、Bottom-Up型の論文よりもTop-Down型の論文のほうが最近は多いような印象があります。

続きを読む

Deep Metric Learning (深層距離学習)の動向と実は大して発展していなかった話

f:id:seishin55:20200620135650j:plain

はじめに

今回は、近年のDeep Metric Learning (深層距離学習)の発展を再評価して、論文で論じられている程のパフォーマンス向上が実際にはなかったことを実験的に示した論文を紹介しつつ、Deep Metric Learningについて紹介しようと思います。

続きを読む

画像ベースの仮想試着の最新手法 O-VITON [Amazon CVPR'20]のご紹介

f:id:seishin55:20200613182300j:plain

はじめに

今回は先日Amazonが公開し、CVPR'20にも採録された最新の仮想試着の論文について説明したいと思います。私自身、同系統の仮想試着の研究を行っていたので、周辺知識や個人的な見解も交えて説明をしたいと思います。背景が長いのですが、読むと仮想試着の研究について雰囲気がつかめると思います。

O-VITON [Neuberger+ CVPR'20] Image Based Virtual Try-on Network from Unpaired Data

注目ポイントは、以下の2点です。

  1. 学習に使うデータセットの条件が緩くなり、かつ、精度も既存手法に勝る
  2. 既存手法では特定のアイテムだけの着せ替え(例: トップスだけの着せ替え)だったが、複数のアイテムを一度に着せ替えられるようになった

(以下、説明では各論文から引用した画像を用います。)

以下が、結果の図です。「Query Image」の人物に「Reference garments」の服を着せて、「Result」の結果を生成しています。

f:id:seishin55:20200613150433p:plain

結果を見てもらえると分かるのですが、非常にきれいな生成ができていることが分かると思います。

続きを読む

PyTorchモデルをモバイルやエッジで利用するための方法の整理

f:id:seishin55:20200606193324j:plain

はじめに

最近では、Deep LearningのライブラリとしてPyTorchが利用される機会が多くなっています。私自身も以前はTensorflow/Kerasを利用していましたが、現状はPyTorchを使うことがほとんどです。

しかし、PyTorchは実装がしやすいものの、モバイルやエッジデバイスへのデプロイを考える上では不安な点が残ります。今回は、PyTorchを様々なプラットフォーム上で利用することを考えたときにどのような方法があるかを整理します。

続きを読む

多視点画像による3次元姿勢推定の最新手法Epipolar Transformersの紹介

f:id:seishin55:20200523172229j:plain

はじめに

先日公開された3次元姿勢推定の手法であるEpipolar Transformersを紹介します。Human3.6Mという3次元姿勢推定で一般的なベンチマークとして使われるデータセットにおいて、最高精度を達成しています。また、Hand Pose Estimation (手の骨格の推定)でも既存の手法の精度を超えています。

続きを読む