ほろ酔い開発日誌

AI企業のエンジニアのブログです。機械学習、Web開発の技術的お話、ビジネスチックなお話、日常のお役立ち情報など雑多な内容でお送りします。

Bottom-Up型の2D Pose Estimationの最新手法HigherHRNetの紹介

f:id:seishin55:20200627190421j:plain

はじめに

今回は、CVPR'20に採録されたBottom-Up型の2D Pose Estimationについて紹介します。

[1908.10357] HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

2D Pose Estimationには大きく2つのパターンがあり、Top-Down型とBottom-Up型があります。Top-Down型は、はじめに人物を検出し、その検出された人物ごとに関節点を推定するというアプローチです。それに対して、Bottom-Up型は、全ての人物の関節点を推定して、その後に人物ごとにグルーピングするというアプローチです。

Bottom-Up型は全ての人物を一度に処理できるため、人物の数が増えても高速に推論することができるという利点があります。例えば、Pose Estimationとして有名なOpenPoseもBottom-Up型を取ります。しかしながら、Top-Down型のアプローチのほうが精度としては一般に高く出る傾向にあります。それもあってか、Bottom-Up型の論文よりもTop-Down型の論文のほうが最近は多いような印象があります。

続きを読む

Deep Metric Learning (深層距離学習)の動向と実は大して発展していなかった話

f:id:seishin55:20200620135650j:plain

はじめに

今回は、近年のDeep Metric Learning (深層距離学習)の発展を再評価して、論文で論じられている程のパフォーマンス向上が実際にはなかったことを実験的に示した論文を紹介しつつ、Deep Metric Learningについて紹介しようと思います。

続きを読む

画像ベースの仮想試着の最新手法 O-VITON [Amazon CVPR'20]のご紹介

f:id:seishin55:20200613182300j:plain

はじめに

今回は先日Amazonが公開し、CVPR'20にも採録された最新の仮想試着の論文について説明したいと思います。私自身、同系統の仮想試着の研究を行っていたので、周辺知識や個人的な見解も交えて説明をしたいと思います。背景が長いのですが、読むと仮想試着の研究について雰囲気がつかめると思います。

O-VITON [Neuberger+ CVPR'20] Image Based Virtual Try-on Network from Unpaired Data

注目ポイントは、以下の2点です。

  1. 学習に使うデータセットの条件が緩くなり、かつ、精度も既存手法に勝る
  2. 既存手法では特定のアイテムだけの着せ替え(例: トップスだけの着せ替え)だったが、複数のアイテムを一度に着せ替えられるようになった

(以下、説明では各論文から引用した画像を用います。)

以下が、結果の図です。「Query Image」の人物に「Reference garments」の服を着せて、「Result」の結果を生成しています。

f:id:seishin55:20200613150433p:plain

結果を見てもらえると分かるのですが、非常にきれいな生成ができていることが分かると思います。

続きを読む

PyTorchモデルをモバイルやエッジで利用するための方法の整理

f:id:seishin55:20200606193324j:plain

はじめに

最近では、Deep LearningのライブラリとしてPyTorchが利用される機会が多くなっています。私自身も以前はTensorflow/Kerasを利用していましたが、現状はPyTorchを使うことがほとんどです。

しかし、PyTorchは実装がしやすいものの、モバイルやエッジデバイスへのデプロイを考える上では不安な点が残ります。今回は、PyTorchを様々なプラットフォーム上で利用することを考えたときにどのような方法があるかを整理します。

続きを読む

自然言語処理で活躍するTransformerを取り入れた物体認識モデルDETRの紹介

f:id:seishin55:20200530180018j:plain

はじめに

今回は、自然言語界隈に発展をもたらし、デファクトスタンダードとなったTransformerのモデルを物体認識に取り入れた論文(End-to-End Object Detection with Transformers 2020/05/26 on arXiv)を紹介します。

続きを読む

多視点画像による3次元姿勢推定の最新手法Epipolar Transformersの紹介

f:id:seishin55:20200523172229j:plain

はじめに

先日公開された3次元姿勢推定の手法であるEpipolar Transformersを紹介します。Human3.6Mという3次元姿勢推定で一般的なベンチマークとして使われるデータセットにおいて、最高精度を達成しています。また、Hand Pose Estimation (手の骨格の推定)でも既存の手法の精度を超えています。

続きを読む

物体認識モデルYOLOv3を軽く凌駕するYOLOv4の紹介

f:id:seishin55:20200516183526j:plain

はじめに

先月、YOLOv4が公開されました。位置づけとしては、物体認識のポピュラーなモデルの1つであるYOLO系統の最新版となります。結果がすごいのはぱっと見分かりましたし、内容も既存の手法をサーベイ・実験頑張って、精度上げていったんだなあくらいのさら読みはしていましたが、もう少しちゃんと読んでおこうと思い、読んでみたので紹介します。

続きを読む

論文管理アプリを乗り換えるために色々検討したまとめ

f:id:seishin55:20200516014009j:plain

はじめに

研究に関わる人であれば、何かしら論文を管理していると思うのですが、どのようにやっているのでしょうか?シンプルに、フォルダ管理とかエクセル管理とかでもできそうですが、論文管理用のツールはいくつもあって、私はそのようなツールを使っています。

続きを読む