from tika import parser

file_data = parser.from_file("extract-sample.pdf")  #  この部分でPDFを読み込み
text_ = file_data["content"]                        # テキストを抽出
print(text_)             # 確認

text  = text_.replace("\n\n","")        # 二重改行が多かったので置換して除去

with open("out.txt", "w", encoding="utf-8") as f:
    f.write(text)        # 日本語を扱うのでUnicodeを指定して書き込み

parserが呼ばれている行で変換が行われ，初回実行時にはインストール画面のようなものが出現します。その際には下記のようなログが出ますが気にしなくて良さそうです。

2022-04-24 16:34:20,224 [MainThread  ] [INFO ]  Retrieving http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.24/tika-server-1.24.jar to C:\Users\xxxx\AppData\Local\Temp\tika-server.jar.
2022-04-24 16:35:14,657 [MainThread  ] [INFO ]  Retrieving http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.24/tika-server-1.24.jar.md5 to C:\Users\xxxx\AppData\Local\Temp\tika-server.jar.md5.
2022-04-24 16:35:15,777 [MainThread  ] [WARNI]  Failed to see startup log message; retrying...

また，出てきた文書は見た目をベースに改行などのスペーシングも文字として認識されており，私の文書のケースだと二重改行が目立ったので事前にReplaceしておきました。これもPythonを使う利点ですね。

余談：ですます変換

DeepLの翻訳結果は基本的にですます調になり，たまにである調が混ざるという調整が必要なものになります。

WORDにはですます調を検知することはできますが，これを一括で変換してくれないので下記のサイトを使うのが今のところ一番楽そうです。

https://kanasys.com/tech/723

2022-02-27

時間波形のsin波のゲイン・位相の変位を計算する（Python/Numpy）

Python 数学

概要
下準備：時系列データ作成
直交性を用いた解法
別解
余談：Cross-Correlationで位相計算にずれが生じる

概要

システム同定などのシチュエーションで単一のsin波を入力し、出力される波形とのゲインと位相差を計算したい場面があったので作成しました。

波形がSin波に似通っている＆周波数がわかっているならば直交性を用いた解法が良さそうです。

下準備：時系列データ作成

時刻の作成ではnumpyのarangeとlinspaceと仲良くなると良いです。

import numpy as np
import matplotlib.pyplot as plt


N = 1000            # 1000 sample data
sample = 0.001 # 1ms
freq = 5              # 5Hz


# 時刻作成
t = np.arange(0,sample*N,sample)
# 位相ズレ付きのSin波を作成する無名関数
x = lambda phi: np.sin(2*np.pi*freq*t+phi )

# 信号作成
y1 = x(0)
y2 = x(1.3) # 1.3 rad/s ずれたsin波

f:id:ossyaritoori:20220227183859p:plain

直交性を用いた解法

ゲインと位相を知りたい信号が $A sin(\omega t + \phi)$ とすると、 $cos(\omega t)$ と $sin(\omega t)$ の直交性から下記のような式が導けます。

$F_1(t) = cos(\omega t)A sin(\omega t + \phi) \\ = Asin(\omega t)cos(\omega t)cos(\phi)+Acos(\omega t)cos(\omega t) sin(\phi) \\ = \frac{A}{2} sin(2 \omega t) cos(\phi) + \frac{A}{2}(1 + cos(2\omega t) ) sin(\phi)$

この $F_1(t)$ を十分長い時間で平均すると、 $\frac{A}{2}sin(\phi)$ の項のみが残ります。

同様に $sin(\omega t)$ ともとの信号の各時間での値をかけ合わせた数値 $F_2(t)$ を十分長い時間で平均すると $\frac{A}{2}cos(\phi)$ が残るのでこれらを用いてゲインと位相が計算できる、という手法です。

def get_mag_and_phase(y,x):
    """
    y: input signal
    x: lamda function
    """
    cos_ = x(0)
    sin_ =  x(np.pi/2.0)
    N=len(y)
    a = sin_ * y
    b = cos_ * y
    A,B = a.sum()*2/N ,b.sum()*2/N
    
    mag = np.sqrt(A**2+B**2)
    phase = np.arctan2(A,B) 
    return mag, phase

def calc_mag_and_phase(y1,y2,freq,st):
    """
    input: 
            - y*: signal
            - freq_dot_t: frequency[Hz] * samplingtime [s]
    """
    N = len(y1)
    w = 2* np.pi* freq
    time = np.arange(0,N*st,st)
    x = lambda phi: np.cos(w*time+phi)
    mag1, phase1 = get_mag_and_phase(y1,x)
    mag2, phase2 = get_mag_and_phase(y2,x)
    
    
    return mag2/mag1, phase2-phase1

print(calc_mag_and_phase(y1,y2,freq,sample))

プログラム内では入力と出力の2つの信号の他に一度sinとcosの波を作ってそことの差分からゲインと位相差を計算しています。

これの明確な欠点として、下記の2つが挙げられます。

入出力の信号に無限時間平均で0にならないノイズがのっていると誤差が発生する
入出力信号の長さが周期の整数倍でないと誤差が発生する

前者はRANSACのような繰り返し処理による外れ値除去、後者は周期の整数倍になるように信号の時刻をCropする手が挙げられます。

後者に簡単に対応すると下記のような感じでしょうか。

def calc_mag_and_phase2(y1,y2,freq,st):
    """
    input: 
            - y*: signal
            - freq_dot_t: frequency[Hz] * samplingtime [s]
    """
    N = len(y1)
    w = 2* np.pi* freq
    t_max = np.floor(N*st)
    N_ = int(t_max/st)
    time = np.arange(0,t_max,st)
    x = lambda phi: np.cos(w*time+phi)
    mag1, phase1 = get_mag_and_phase(y1[0:N_],x)
    mag2, phase2 = get_mag_and_phase(y2[0:N_],x)
    
    return mag2/mag1, phase2-phase1

別解

下記サイトに様々な手法が載っています。上記の手法とどう違うのか式を追えてないのですが、

blog.goo.ne.jp

余談：Cross-Correlationで位相計算にずれが生じる

確か波形のズレを調べるだけならCross-Correlationから波形のズレが測れるはずだよな、と思い下記のコードを試してみました。

from scipy import signal

corr = signal.correlate(y1,y2,method='auto')
lags= signal.correlation_lags(len(y1), len(y2))
plt.plot(lags,corr)
amax = corr.argmax()
amin = corr.argmin()

print((lags[amax])*sample*2*np.pi*freq)

結果は 1.2566370614359172 となんとも惜しい値。相互相関の計算では時間軸上で-∞から+∞までの積分を想定しているため繰り返し数が足りないのでは、というお話でした。

stackoverflow.com

他にも位相相関も試してみましたが似たような問題で正しい値が出なかったので注意です。

def phase_corr(sig1,sig2):
    N = len(sig1)
    fft_sig1 = np.fft.fft(sig1)
    fft_sig2 = np.fft.fft(sig2)
    fft_sig2_conj = np.conj(fft_sig2)
    
    R = fft_sig1*fft_sig2_conj
    R/=np.absolute(R)
    r = np.fft.fftshift(np.fft.ifft(R).real)
    ar = np.unravel_index(r.argmax(), r.shape)
    
    plt.plot(r)
    return ar[0]-N/2, r[ar]

2021-12-08

PytorchのPretrained Modelを使ってSegmentationを行う個人メモ

Python 機械学習 pytorch

はじめに
- 実行環境
torchvisionのモデルを使ったsegmentation例
参考・その他
- 参考になりそうな記事たち
- 超初心者の抱えていた疑問と回答

はじめに

本記事はあくまでML初心者の筆者の個人メモです。

pytorchの出来合いのモデルを使って画像認識タスクのうちSegmentationを行うことを目標にします。

実行環境

環境が汚れにくく、実行も高速なGoogleColabを使用します。

必要なデータはwgetなどでDLしてきても良いですし、下記のコマンドで簡単にGoogleDriveとも接続できるので簡単で便利です。

# mount drive
from google.colab import drive
drive.mount('/content/drive')

torchvisionのモデルを使ったsegmentation例

pytorchで使用できる既製のモデルはいくつかありますが、ひとまずtorchvisionで使えるモデルを使ってsegmentationを行っていきます。

pytorch.org

先に作例を示すと某所から借りてきた星野源氏の下記写真から人物の部分のみを抜き出すことができたりします。

f:id:ossyaritoori:20211205164710p:plain — 星野源氏の写真

f:id:ossyaritoori:20211205165400p:plain — 人物の領域の抜き出し例（マスク未Normalize）

1. モデルを選んでロード

はじめに、欲しい機能を実現するモデル（と学習済み重み）を選びます。
モデルはCNNのネットワーク構造、学習済みの重みはどのデータセットで学習したかを表します。

torchvisionで使用できるモデル
- FCN ResNet50, ResNet101 FCNについて参考
- DeepLabV3 ResNet50, ResNet101, MobileNetV3-Large DeepLabについて参考
- LR-ASPP MobileNetV3-Large
モデルの学習済みパラメータ
- Pascal VOC on COCO

学習済み重みをどのデータセットで学習したかにはきちんと気を配る必要があり、例えばtorchvisionのモデルは人等を含む20クラス分類でしか学習していないのでそこにない物体を検知・抽出するには新たに転移学習をする必要があります。

下記では試しにFCNのresnet50を選んで試してみます。

import torchvision
# 試しにresnet50を用いる
model = torchvision.models.segmentation.fcn_resnet50(pretrained=True) # pretrained = Trueとすることで学習済みのモデルがセットされた状態になる。
model.eval() # モデルを評価用に切り替える。逆に学習するときはmodel.train()とする。おまじないと思って良い。

2. モデルのパラメータを確認

モデルを選んだら次は下記のパラメータを事前に確認しておきます。これは後述の画像を入力するときに必要になります。

モデルの入力となる画像のサイズ
学習時の正規化項（mean, std）

f:id:ossyaritoori:20211205173540p:plain — 詳しくはこのあたりを参照にしてください

今回のFCNのresnet50の場合、

入力の画像サイズ：224x224
正規化項：mean = [0.485, 0.456, 0.406] and std = [0.229, 0.224, 0.225] （範囲が0〜1であることに注意）

となります。

3. 画像の読み込みとモデルへの入力

以上の情報をもとに画像をモデルへとmodel(img)と入力すれば結果を得られるのですが、ここで前処理と型変換が問題になってきます。

よくあるNumpyの画像が[縦、横、RGBチャンネル数]のnp.arrayとなっているのに対し、今回使うsegmentationのモデルでは[バッチ数, カラーのチャンネル数, 横, 縦]という並びのTensorになっていなければいけません。

実際のコードでは同じ画像を下記の形式で行ったり来たり初学者にはとてもconfusingです

numpyのarray（OpenCVと連携する用）
PILのimage （pytorchのTensorとの相性よし）
pytorchのTensor（modelに入力する用）

PILとtorchvision.transformsを用いた前処理

一番簡単かつ便利な手法で、torchvisionのtransformsを用いることで簡単に前処理を実装することができます。

具体的には下記のようなコードで前処理を書くことができます。

from torchvision import transforms
from PIL import Image

# 前処理用
preprocess = torchvision.transforms.Compose([
    transforms.Resize((224,224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

# load image
img = Image.open("img.png")

# Get Normalized image
img_tensor = preprocess(img) 

# バッチサイズにあたる次元を一つ追加
img_input = img_tensor.unsqueeze(0)

# 推論
output = model(img_input)

途中のpreprocessでは画像のリサイズやTensor形式の変換、画像の正規化を定義しています。そしてこのオブジェクトに直接PIL形式の画像を与えることで任意の変換を行うことができます。

先程述べた、下記のパラメータをきちんと反映させていることを確認してください。

入力の画像サイズ：224x224
正規化項：mean = [0.485, 0.456, 0.406] and std = [0.229, 0.224, 0.225] （範囲が0〜1であることに注意）

他のtransformsに関しては公式か下記が参考になると思います。

qiita.com

numpyを用いた際の前処理

一応numpyを使っても前処理はできるのですがtorchvision.transformsが便利すぎて素直に変換したほうが良いです。

# PIL Image -> numpy array
np_img = np.array(pil_img)

# numpy array -> PIL Image
pil_img = Image.fromarray(np_img))

なお、この場合でもuint8かfloat32かどうかや、RGBかBGRかは気を使う必要があります。

nixeneko.hatenablog.com

4. 結果の解釈

サクッと飛ばしましたがモデルへの入力はmodel(x)のように計算できます。 model.forward()やそのままmodel.predict() でもできることがあるようですが違いは追々調べます…

出力結果がどの結果に属するかのマスクになるのですがこちらもTensor形式なのでnumpy arrayかPIL Image 形式にして図示する必要があります。

tzmi.hatenablog.com

今回はなるべくPILへと変換します。何度も言いますがtransformsが楽なので。

可視化の際には公式のチュートリアルと同様にsoftmaxで正規化すると良いです。

pytorch.org

マスクの作成

from torch.nn.functional import softmax

# torch.Size([1, 21, 224, 224]) -> torch.Size([21,224,224])
output_ = output['out'].squeeze()
# normalize
normalized_masks = softmax(output_, dim=0)

可視化

def visualize_tensor(tensors):
  n = len(tensors)
  plt.figure(figsize=(24, 5))
  for i in range(n):
    img = transforms.ToPILImage()(tensors[i])
    plt.subplot(1, n, i + 1)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(img)
  plt.show()

visualize_tensor(normalized_masks)

可視化した結果が下記のとおりです。VOCでは１番目が背景、１６番目がPersonとなっていますがそれに該当する箇所がハイライトされていることがわかります。

f:id:ossyaritoori:20211207233331p:plain — 21クラスの分類結果

draw_segmentation_masksを使った可視化

draw_segmentation_masksというTensorを引数にとる関数があるっぽいので試してみました。

pytorch.org

一見便利そうですがTensorを引数にするのがちょっと癖があって難しいなと思いました。numpyならマスキングは非常に簡単だと思います。

import torch

wid,hei = img.size
reshape_tensor = transforms.Compose([
    transforms.ToPILImage(),
    transforms.Resize((hei,wid)),
    transforms.ToTensor(),
    ])  

img_to_tensor = transforms.Compose([
    transforms.ToTensor(),
    transforms.ConvertImageDtype(torch.uint8)
])

person_mask = reshape_tensor(normalized_masks[15]) > 0.5
bg_mask = reshape_tensor(normalized_masks[0]) > 0.5

person_img = torchvision.utils.draw_segmentation_masks(img_to_tensor(img), person_mask)
bg_img = torchvision.utils.draw_segmentation_masks(img_to_tensor(img), bg_mask)

visualize_tensor([bg_img, person_img])

f:id:ossyaritoori:20211208003947p:plain — 閾値0.5での切り抜き結果

numpyを使うパターン

numpyの方は変換さえできればstraightforwardなのでさっくり書くにとどめます。

# tensor to numpy
out_np = reshape_tensor(normalized_masks[15]).detach().numpy().copy()

mask = (out_np > 0.5)
mask = cv2.cvtColor(mask.astype(np.uint8), cv2.COLOR_GRAY2RGB)

masked = img_np * mask

参考・その他

とりあえず書き溜めておきます。汚ければ後で消すかもしれません。

参考になりそうな記事たち

大量の記事を斜め読みしたのでどれがどの参考になったかちょっと忘れてしまったのですがこれは確実に読んだというのを下記に記しておきます。

超初心者の抱えていた疑問と回答

とりあえず動かしていくにあたって感じたが疑問と現時点での自分の理解を書いておきます。

modelの入力に入れるTensorのサイズがよくわからない。なぜ四次元？
- segmentationに関して言えば[バッチ数, カラーのチャンネル数, 横, 縦]という次元になっている参考

2021-10-28

夫婦共働きにおける家計管理どうしてますか？〜我が家のケース〜

雑記

はじめに
目指す運用
- 前提
- 家計管理に求めるもの
家計管理サンプル
- 共有口座
- 家のための支払いの集計
わからないこと
- 個別口座と共有口座の貯蓄の比率
- 個別口座情報の共有（全体の支出をどう集計するか？）
おわりに

はじめに

現在の日本にて夫婦共働きという家庭は結構あるかと思います。

しかし、肝心な家計管理の手法については下記のようなまとめサイトばかりで実際どのようにやりくりしているのかといった情報が少ないように思います。

www.smbc-card.com

この記事はひとまず自身のケースを備忘録として公開して、あわよくば他の方の情報も聞きたいという趣旨のもと書かれています。

目指す運用

前提

大前提として、

夫婦共働き
年収や労働時間に極端な差がない

こととします。また、ちゃんと話していませんが家計管理の目的は「支出の管理と貯蓄」にあるものとします。

家計管理に求めるもの

とりあえず家計管理のシステムに求めるのは下記の2点です。

貯蓄や日常生活の支出については明確に管理したい
私費や趣味に使ったお金はある程度相手からわからないようにしたい

また、原則として以下のような思想のもとやりくりを考えています。

必須なもの・面倒なものは自動化
それ以外は人の手で調整できる余地を残す

家計管理サンプル

とりあえず、我が家でやっていることを下記に記します。

共有口座

f:id:ossyaritoori:20211027001659p:plain

個人で持つ口座の他に共有口座を一つ作って、そこから家賃などの固定費を支払うようにしています。

入金額はお互い相談して決めますが、固定費より多めに入れることで貯蓄用の口座としても振る舞えるようにしています。

良い点

年ごとに決まった固定額を入れるだけなので管理が楽。
個人の細かな出費を共有しなくても良いので気楽。

課題に感じる点

結局、共有口座よりも個別口座にお金が溜まっている（いくら入れるか問題）。
相手の個別口座や資産の状況についてあまり把握できない。
- 年1で年間の収支を共有するイベントをするのが良いと思うがまだやってないのでわからない。

貯蓄用と固定費用の口座は分けるという意見もあるようですが、口座を増やすと管理がめんどくさそうなので今のところはやっていないです。

家のための支払いの集計

食べ物の買い出しなどを始めとする「家のための買い物」はお互いが気づいたときにそれぞれ行うためどうしても出費に差が出てしまいます。

会社での経費申請のように購入時のレシートをもとに集計して支払いの差額を可視化するようにしています。

f:id:ossyaritoori:20211027003118p:plain

※ Zaimの採用理由（クリックして展開）

ちゃんと検討したわけではありませんが、下記のような理由でZaimを採用しました。

著名なアプリで信用できると思った
Money forwardをすでに個人で使っていた
集計結果をcsvでダウンロードする機能が無課金でできる（PCでの扱いが楽）

Tips

共有Gmailアカウントを使うことで双方のデバイスから経費登録できる。
Zaim上でどちらの支払いか区別するためにカテゴリを2つに絞る。（例：夫の支払いは全て「車」カテゴリとする）

良い点

レシートを撮影するだけで全て登録できるので慣れれば早い

課題

個人の収支管理（Money forward）と二度手間な感じがする
物品を確認することをしないので悪意があれば容易に経費申請しまくれる（脆弱）

わからないこと

個別口座と共有口座の貯蓄の比率

大体の場合、個別口座と共有口座のそれぞれで貯蓄をしていくこととなるかと思いますがこれをどちらに振るべきかわかっていません。

共有口座はどちらかの名義で作られることが多いかと思いますが、場合によっては口座名義人へのパートナーからの「贈与」として税務署に目をつけられるケースもあるようです。（もっとずっと先の話な気もする。）

diamond.jp

style.nikkei.com

個別口座に貯めるとするとお互いにどれくらい貯めるかなどの合意をきちんと取る必要があるのが大変そうに感じます。

個別口座情報の共有（全体の支出をどう集計するか？）

今まで話したとおり、お互いに個別管理の口座には突っ込まないのが前提になっていますが、とはいえ家計全体の収支やその内訳は把握しておきたいわけで年１などで決算報告などをする必要があるイメージでいますがこのあたりを具体的にどうやるかまだ決めていません。

最低限、

収入と支出額、投資口座の金額
支出の内訳（カテゴリ毎）

は知りたいはずですがうまいこと細かい情報にマスクしつつ知りたい情報を共有する仕組みがあればいいなと思います。

調べると、今はOsidoriというアプリが無料でそのあたりの機能をそろえているそうなので気になっているところです。

www.osidori.co

おわりに

ということで家計管理＠我が家のケースをご紹介しました。

共有口座とレシートで家計での経費管理をすることでそれなりに公平そうな仕組みにはできていそうですがもっと良い方法があるなら知りたいです。

一つ確実にオススメできるのは夫婦で何かと外部とやり取りする際、共有のGoogleアカウントがかなり便利（メール・TODOの共同編集やアプリ連携など）ということです。

2021-08-28

オドメトリを連結している別の座標系に移す時の座標変換計算（ROS）

ROS 数学行列

概要
tfを使った解法
自分で計算するときの数式
まとめ
参考文献

概要

下記のようなシチュエーションのオドメトリ変換を考えます。

Bodyに固定したセンサでとったodometryをbase_linkでのオドメトリに変換するのが目的です。（ROSでよくあるシチュエーションだと思います。）

f:id:ossyaritoori:20210828003827p:plain

注意：速度変換の部分に自信がないです。詳しい方訂正・コメントお願いします。

tfを使った解法

ROSを使う人なら位置変換に関しては普通にROSのtfを

/base_link(q_0) -> /sensor_frame(q_0) -> /sensor_frame(q_c) -> /base_link(q_c)

のような感じでつないでlookupTransformで解決すれば位置の変換が取得できるとお思いになるかと思います。一方で、速度（twist）の解決は私の知る限りサポートされていないように思います。

一応、lookupTwistというのがあるのですがこれはlookupTransformの結果を数値微分しているっぽいのであまり正確な値は期待できません。

また、複数のセンサがある場合などは複数の経路ができてtf treeの構造を壊しかねないのでエスケープのために余計なリンクをたくさん定義することになります。

自分で計算するときの数式

以上の課題を解決するために自分で計算していきます。

位置の変換

同次行列をつないでいけば、base_linkの座標系で見たOdometryのPoseは

$\displaystyle \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} R_c & t_c \\ 0 & 1 \end{bmatrix}\begin{bmatrix} R_o & t_o \\ 0 & 1 \end{bmatrix}\begin{bmatrix} R_c & t_c \\ 0 & 1 \end{bmatrix}^{-1}$

で計算できます。これを全て計算すると下記のようになります。

$\displaystyle \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} R_c R_o R_c ^\top & -R_c R_o R_c ^\top t_c + t_c + R_c t_o \\ 0 & 1 \end{bmatrix}$

ここで、 $R_o,R_c$ が可換の時、具体的にはyaw回転しかしない自動車などのアプリケーションでカメラを水平に構えた時などは

$\displaystyle \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} R_o & - R_o t_c + t_c + R_c t_o \\ 0 & 1 \end{bmatrix} \mbox{(R_oとR_c が可換のケース)}$

とすることができます。

どこかが違うtwistの変換（Pose変換の微分で解く）

~~Poseの変換がわかったので上記の式を時刻qで微分することで、Twist変換に変換することができます。（よね？）~~

なんか上記の仮定が間違っている気がしてきました。一応途中式は残しておきます。結果が少し異なるのですが何が違うのかちょっと自信がないので

何かがおかしい気がする導出

記述量削減のため $\frac{dR_x}{dq} = \tilde{\omega_x} R_x, \frac{dt_x}{dq} = v_x$ と記述することにします。ここで $\omega_x$ は角速度で、 $\tilde{\omega_x}$ はその交代行列です。この辺の話は面白いのでぜひ参考文献をご覧あれ。

$R_o,t_o$ のみが時変なので微分は下記のように計算できます。

$\displaystyle \begin{bmatrix} \tilde{\omega} R & v \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} R_c \tilde{\omega_o} R_o R_c ^\top & -R_c \tilde{\omega_o} R_o R_c ^\top t_c + R_c v_o \\ 0 & 1 \end{bmatrix}$

角度の関係は

$\displaystyle \tilde{\omega} R = \tilde{\omega} R_c R_o R_c ^\top =R_c \tilde{\omega_o} R_o R_c ^\top$

を解いて

$\displaystyle \tilde{\omega} =R_c \tilde{\omega_o} R_c^\top$

となります。角速度の関係は参考文献[2]から $\omega = R_c \omega_o$ と簡単な形に求まります。

並進速度は下記の感じになります。

$\displaystyle v = -R_c \tilde{\omega_o} R_o R_c ^\top t_c + R_c v_o$

また、R_o R_c が可換のケースでは下記のようになります。

$\displaystyle \tilde{\omega} = \tilde{\omega_o} \\ v = - \tilde{\omega} R t_c + R_c v_o \\ \mbox{(R_o R_c が可換のケース)}$

並進速度の第一項は回転に伴うモーメントのような項ですね。

twistの変換（多分こっちが正しい。）

twist（速度・加速度）の変換に自信がなく結構調べたのですが調べる際によく出る例として下記の質疑があります。参考文献[4]のスライドがいい感じだと思われます。

physics.stackexchange.com

要約すると座標Aで見た速度を座標A'で見たときにどうなるかを表す式は

$\displaystyle \begin{pmatrix} v_{A'} \\ \omega_{A'} \end{pmatrix} = \begin{pmatrix} R_{A'A} & \hat{t}_{A'A}R_{A'A} \\ 0 & R_{A'A} \end{pmatrix} \begin{pmatrix} v_{A} \\ \omega_{A} \end{pmatrix}$

とかけるというものです。

自分の変数に書き下すと下記の通りになります。vは並進tを時間微分したものです。

$\displaystyle \begin{pmatrix} v \\ \omega \end{pmatrix} = \begin{pmatrix} R_c & \tilde{t}_cR_c \\ 0 & R_c \end{pmatrix} \begin{pmatrix} v_{o} \\ \omega_{o} \end{pmatrix}$

ここで、 $\tilde{\omega}$ は角速度ベクトルの交代行列であり、 $\dot{R_x} = \tilde{\omega_x} R_x$ のように微小回転行列を表せます。この辺は結構面白いのでリー代数や三次元回転についての記述を参照してください。（参考文献1）

展開すると並進速度は外積の性質などを用いて、

$\displaystyle v = \tilde{t}_cR_c \omega_o + R_c v_o\\ = t_c \times R_c \omega_o + R_c v_o\\ = - \omega \times t_c + R_c v_o\\ = - \tilde{\omega} t_c + R_c v_o$

とかけます。

導出

導出の元になる数式は下記のようになっています。

$\displaystyle \begin{bmatrix} \tilde{\omega} & v \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} R_c & t_c \\ 0 & 1 \end{bmatrix}\begin{bmatrix} \tilde{\omega}_o & v_o \\ 0 & 1 \end{bmatrix}\begin{bmatrix} R_c & t_c \\ 0 & 1 \end{bmatrix}^{-1}$

角度について展開すると

$\displaystyle \tilde{\omega} =R_c \tilde{\omega_o} R_c^\top$

となります。角速度の関係は参考文献[2]から $\omega = R_c \omega_o$ と簡単な形に求まります。

並進速度は下記のように書けます。

$\displaystyle v = -R_c \tilde{\omega_o} R_c ^\top t_c + R_c v_o = -\tilde{\omega} t_c + R_c v_o$

補足

交代行列について

$\omega = \begin{bmatrix} r , p , y \end{bmatrix} ^\top$ の時、

$\displaystyle \tilde{\omega} = \begin{bmatrix} 0 & -y & p\\ y & 0 & -r\\ -p & r &0 \end{bmatrix}$

この行列は下記の性質を持ちます。

$\displaystyle \tilde{\omega}^\top = - \tilde{\omega}$

$\omega = R_c \omega_o$ の導出

スマートな解釈としては参考文献[3]の式（8）あたりを見てもらうと良いですが、実は以下の2式をゴリゴリ成分計算することでも求まります。

$\displaystyle \tilde{\omega} =R_c \tilde{\omega_o} R_c^\top$

f:id:ossyaritoori:20210828131106p:plain — rpyの角度から算出する三次元回転行列（'sxyz'）

まとめ

ということで機体から $R_c,t_c$ の位置に取り付けられたセンサのオドメトリ $R_o,t_o,\omega_o,t_o$ から得られる機体のオドメトリ $R,t$ は

$\displaystyle R = R_c R_o R_c ^\top \\ t = -R_c R_o R_c ^\top t_c + t_c + R_c t_o \hspace{5mm}= -R t_c + t_c + R_c t_o\\ \omega =R_c \omega_o \\ v = -R_c \tilde{\omega_o} R_c ^\top t_c + R_c v_o \hspace{5mm} = - \tilde{\omega} t_c + R_c v_o$

で表されます。上から順に計算するなら右側の別解を使ったほうがスムースかと思われます。

なお、回転がYawしかないような特殊ケースでR_o,R_cが可換の場合は

$\displaystyle R = R_o \\ t = - R_o t_c + t_c + R_c t_o \\ \omega =R_c \omega_o \\ v = - \tilde{\omega} t_c + R_c v_o$

となります。

正直Twistの速度の変換は下記の数式と異なるためどこか間違えている気がしないでもないのでご指摘よろしくおねがいします。

参考文献

フォーマット適当ですが下記の文書が参考になります。

[1] 金谷先生「3次元回転: パラメータ計算とリー代数による最適化」

3次元回転: パラメータ計算とリー代数による最適化

作者:健一, 金谷
共立出版

Amazon

[2] 角速度ベクトルと回転行列の時間微分【力学の道具箱】 | スカイ技術研究所ブログ

[3] ベクトルの成分表示と座標変換【力学の道具箱】 | スカイ技術研究所ブログ

[4] http://www.eeci-institute.eu/pdf/M5-textes/M5_slides4.pdf

2021-07-27

matplotlibのインタラクティブなプロットを作る覚書（スクロールでズーム、ドラッグで移動）

Python GUI

背景
サンプルコード①：スクロールで拡大縮小、ドラッグで移動
サンプルコード②：スクロールで左右ズーム、Ctrl押しながらのスクロールで上下ズーム
- key_press_event を使ったフラグ管理と注意点

背景

オレオレGUIを作る際にインタラクティブなPlotがしたいという動機です。

インタラクティブなPlotについては下記が結構ボリュームがあって良いと思います。

qiita.com

サンプルコード①：スクロールで拡大縮小、ドラッグで移動

下記StackOverflowの議論からコードをもらってPython3用に改変しました。

stackoverflow.com

動作は下記の２つで、それぞれ関数が割り当てられています。

スクロールで拡大縮小
クリック＆ドラッグで移動

from matplotlib.pyplot import figure, show
import numpy

class ZoomPan:
    def __init__(self):
        self.press = None
        self.cur_xlim = None
        self.cur_ylim = None
        self.x0 = None
        self.y0 = None
        self.x1 = None
        self.y1 = None
        self.xpress = None
        self.ypress = None


    def zoom_factory(self, ax, base_scale = 2.):
        def zoom(event):
            cur_xlim = ax.get_xlim()
            cur_ylim = ax.get_ylim()

            xdata = event.xdata # get event x location
            ydata = event.ydata # get event y location

            if event.button == 'down':
                # deal with zoom in
                scale_factor = 1 / base_scale
            elif event.button == 'up':
                # deal with zoom out
                scale_factor = base_scale
            else:
                # deal with something that should never happen
                scale_factor = 1
                print(event.button)

            new_width = (cur_xlim[1] - cur_xlim[0]) * scale_factor
            new_height = (cur_ylim[1] - cur_ylim[0]) * scale_factor

            relx = (cur_xlim[1] - xdata)/(cur_xlim[1] - cur_xlim[0])
            rely = (cur_ylim[1] - ydata)/(cur_ylim[1] - cur_ylim[0])

            ax.set_xlim([xdata - new_width * (1-relx), xdata + new_width * (relx)])
            ax.set_ylim([ydata - new_height * (1-rely), ydata + new_height * (rely)])
            ax.figure.canvas.draw()

        fig = ax.get_figure() # get the figure of interest
        fig.canvas.mpl_connect('scroll_event', zoom)

        return zoom

    def pan_factory(self, ax):
        def onPress(event):
            if event.inaxes != ax: return
            self.cur_xlim = ax.get_xlim()
            self.cur_ylim = ax.get_ylim()
            self.press = self.x0, self.y0, event.xdata, event.ydata
            self.x0, self.y0, self.xpress, self.ypress = self.press

        def onRelease(event):
            self.press = None
            ax.figure.canvas.draw()

        def onMotion(event):
            if self.press is None: return
            if event.inaxes != ax: return
            dx = event.xdata - self.xpress
            dy = event.ydata - self.ypress
            self.cur_xlim -= dx
            self.cur_ylim -= dy
            ax.set_xlim(self.cur_xlim)
            ax.set_ylim(self.cur_ylim)

            ax.figure.canvas.draw()

        fig = ax.get_figure() # get the figure of interest

        # attach the call back
        fig.canvas.mpl_connect('button_press_event',onPress)
        fig.canvas.mpl_connect('button_release_event',onRelease)
        fig.canvas.mpl_connect('motion_notify_event',onMotion)

        #return the function
        return onMotion


fig = figure()

ax = fig.add_subplot(111, xlim=(0,1), ylim=(0,1), autoscale_on=False)

ax.set_title('Click to zoom')
x,y,s,c = numpy.random.rand(4,200)
s *= 200

ax.scatter(x,y,s,c)
scale = 1.1
zp = ZoomPan()
figZoom = zp.zoom_factory(ax, base_scale = scale)
figPan = zp.pan_factory(ax)
show()

出力は下記のようになります。

f:id:ossyaritoori:20210726210806p:plain — サンプルとして用いる散布図グラフ。ホイールで拡大縮小、ドラッグで移動ができます。

ズーム動作

関数の最初にzoom用の関数を定義して、下記のコードでコールバック関数として渡しているのがわかります。

fig.canvas.mpl_connect('scroll_event', zoom)

そして、受け手の関数では変数eventから得られるスクロールの上下に関する情報をもとに図の拡大縮小を行っています。

ドラッグ動作

一方ドラッグ動作では、クリックされたときと離されたとき、マウスをドラッグしたときの動作にそれぞれ関数を割り当てて、コールバックを呼んでいます。

# attach the call back
        fig.canvas.mpl_connect('button_press_event',onPress)
        fig.canvas.mpl_connect('button_release_event',onRelease)
        fig.canvas.mpl_connect('motion_notify_event',onMotion)

その他の動作

つまり、どんなイベントがあるかだけ把握すれば適切なコールバック関数を渡してあげることでいろいろな動作ができるということです。

では、実際にどんなイベントがあるかについては下記公式ページを参照してください。

matplotlib.org

次のサンプルではkey_press_eventを使います。

GUI動作は組み合わせで行うことが多いのでサンプルコードのようにクラスを定義してその中でどのボタンがホールドされているかなどの変数を保持しておくと捗ると思います。

サンプルコード②：スクロールで左右ズーム、Ctrl押しながらのスクロールで上下ズーム

先程のコードを時系列Plot用に改良しました。

主な動作としては下記の通りになります。

スクロール：X軸のみズーム
Ctrl+スクロール：Y軸のみズーム
ドラッグ：並行移動
「r」キー：描画範囲リセット

from matplotlib.pyplot import figure, show
import numpy
import matplotlib
matplotlib.use('TKAgg')

class ZoomPan:
    def __init__(self,ax):
        self.press = None
        self.cur_xlim = None
        self.cur_ylim = None
        self.x0 = None
        self.y0 = None
        self.x1 = None
        self.y1 = None
        self.xpress = None
        self.ypress = None

        self.ctrl_press = False

        self.ax = ax
        self.orig_xlim = ax.get_xlim()
        self.orig_ylim = ax.get_ylim()


        self.zoom_factory(ax,base_scale=1.1)
        self.ctrl_key(ax)
        self.pan_factory(ax)

    def zoom_factory(self, ax, base_scale = 2.):

        def zoomX(event,scale_factor):
            cur_xlim = ax.get_xlim()
            xdata = event.xdata # get event x location
            new_width = (cur_xlim[1] - cur_xlim[0]) * scale_factor
            relx = (cur_xlim[1] - xdata)/(cur_xlim[1] - cur_xlim[0])

            ax.set_xlim([xdata - new_width * (1-relx), xdata + new_width * (relx)])
            ax.figure.canvas.draw()

        def zoomY(event,scale_factor):
            cur_ylim = ax.get_ylim()
            ydata = event.ydata # get event y location
            new_height = (cur_ylim[1] - cur_ylim[0]) * scale_factor
            rely = (cur_ylim[1] - ydata)/(cur_ylim[1] - cur_ylim[0])

            ax.set_ylim([ydata - new_height * (1-rely), ydata + new_height * (rely)])
            ax.figure.canvas.draw()

        def zoom(event):
            if event.button == 'down':
                # deal with zoom in
                scale_factor = 1 / base_scale
            elif event.button == 'up':
                # deal with zoom out
                scale_factor = base_scale
            else:
                # deal with something that should never happen
                scale_factor = 1
                print(event.button)

            ####### Switch zoom X or Y #########
            if self.ctrl_press:
                zoomY(event,scale_factor)
            else:
                zoomX(event,scale_factor)

        fig = ax.get_figure() # get the figure of interest
        fig.canvas.mpl_connect('scroll_event', zoom)

        return zoom

    def ctrl_key(self,ax):
        def onPress(event):
            #print(event.key)
            if event.inaxes != ax: return
            if event.key == "control":
                self.ctrl_press = True
            elif event.key == "r": # reset zoom
                ax.set_xlim(self.orig_xlim)
                ax.set_ylim(self.orig_ylim)
                ax.figure.canvas.draw()

        def onRelease(event):
            #print(event.key)
            if event.inaxes != ax: return
            if event.key == "control":
                self.ctrl_press = False
        
        fig = ax.get_figure() # get the figure of interest

        # attach the call back
        fig.canvas.mpl_connect('key_press_event',onPress)
        fig.canvas.mpl_connect('key_release_event',onRelease)

    def pan_factory(self, ax):
        def onPress(event):
            if event.inaxes != ax: return
            self.cur_xlim = ax.get_xlim()
            self.cur_ylim = ax.get_ylim()
            self.press = self.x0, self.y0, event.xdata, event.ydata
            self.x0, self.y0, self.xpress, self.ypress = self.press

        def onRelease(event):
            self.press = None
            ax.figure.canvas.draw()

        def onMotion(event):
            if self.press is None: return
            if event.inaxes != ax: return
            dx = event.xdata - self.xpress
            dy = event.ydata - self.ypress
            self.cur_xlim -= dx
            self.cur_ylim -= dy
            ax.set_xlim(self.cur_xlim)
            ax.set_ylim(self.cur_ylim)

            ax.figure.canvas.draw()

        fig = ax.get_figure() # get the figure of interest

        # attach the call back
        fig.canvas.mpl_connect('button_press_event',onPress)
        fig.canvas.mpl_connect('button_release_event',onRelease)
        fig.canvas.mpl_connect('motion_notify_event',onMotion)

        #return the function
        return onMotion


fig = figure()

ax = fig.add_subplot(111, xlim=(0,1), ylim=(0,1), autoscale_on=False)

ax.set_title('Click to zoom')
x,y,s,c = numpy.random.rand(4,200)
s *= 200

ax.scatter(x,y,s,c)
scale = 1.1
zp = ZoomPan(ax)
show()

key_press_event を使ったフラグ管理と注意点

コントロールキーを押しているか管理するためにkey_press_eventを使っています。

キーが押されたらフラグを立てて、キーを話したらフラグを下ろすという２つのコールバックを定義しています。その他に「r」を押した際に描画範囲をリセットする機能も同時に書いています。

ハマったバグ
Macで開発しているときにハマったのがOS Xのバックエンドだとcontrolキーが押されたかチェックできない問題です。

python - Close pyplot figure using the keyboard on Mac OS X - Stack Overflow

上記の質疑のようにバックエンドをTKAggに変えてことなきを得ました。ちょっと画質が荒くなる感じがしてあまり好きではありませんが。。。

import matplotlib
matplotlib.use('TKAgg')

これ以外にもキーの同時押しのときはバックエンドによって出てくる値が変わるなどこのあたりは結構気をつけることがありそうです。

2021-07-23

スマホ外付けの望遠レンズで月は撮れるか（OpenCVで実倍率を検証）

カメラ画像処理

概要
スマホと外付けレンズ
参考：一眼レフで撮るとこうなる
まとめ

概要

スマホの外付けレンズというのが果たして実用に堪えるのか前から気になっていたので夏休みに買ってみて検証してみました。

先に所感をまとめると以下のとおりです。

クリップは固定に不安
望遠とマクロはそこそこ楽しい
真面目にやるなら三脚は必須
中華のズーム倍率は信用してはいけない

また，一応スマホでも月は撮れます。

f:id:ossyaritoori:20210723185405p:plain — Pixel4，3.7倍と望遠レンズ（約10倍）で撮影した上弦の月。

スマホと外付けレンズ

検証に用いたのは下記のレンズキットです。

7 in1 スマホ用カメラレンズ HD22倍望遠レンズ付きスマホレンズ㍜セットスマトフォン用カメラレンズトリプルレンズキット 0.62倍広角 25倍マイクロレンズ 235°魚眼ミニ三脚収納バック付き iphone XR 11 X XSmax 8 8p 7 7Pシリーズ、Samsung、galaxy Android タブレットなど対応

Selvim

Amazon

自称望遠22倍，マクロ，広角，魚眼レンズを備えているということでした。

また，スマホとしてPixel4とHuaweiのNova3を用いました。

レンズを使ってみての感想

100円レンズだと曇ったり周辺がぼやけたりするそうですが，全般的にレンズをつけて著しく画質が劣化するということはなかったです。

ただ，広角も魚眼レンズもほしい場面があまりなく後述のクリップの手間を考えても持ち運んで気軽にスマホにつけるというような運用ではないと思いました。

レンズ	おすすめ度	感想
広角	△	広角で撮りたいシーンが自撮りくらいしか思いつかない。
魚眼	✕	ちゃんと魚眼になるけど何に使うのか不明。
マクロ	◎	スマホでマクロ撮影できるのは意外と楽しい。位置合わせも楽。
望遠	○	ちゃんとセッティングすれば結構遊びがいがある。が，準備がだるい。

f:id:ossyaritoori:20210723190338p:plain — 昔買ったルースをマクロで撮影。生活感のない撮影対象が他になかった。

クリップの使用感

商品写真の通り，クリップにレンズをはめてスマホのカメラと位置合わせをすることで撮影ができます。これは正直慣れが必要で，

位置合わせが難しい（特に望遠レンズ）
望遠レンズ着用時は自重でズレが起きやすい

という問題があるため，特に望遠レンズで「正しくはめて」「正しく目標物に向ける」というプロセスが非常に撮影において時間がかかります。

もう少しきちんとした三脚があるとこのあたりの安定度が全然違うので，望遠レンズを使う方は今後のカメラ購入も見越して用意しておいたほうがいいと思います。

三脚スマホ三脚リモコン付きビデオカメラ一眼レフカメラミニ三脚さんきゃく 3WAY雲台 4段階伸縮 360回転収納袋付きiPhone/Android スマホ等対応…

XXZU

Amazon

冒頭の画像はセッティングに5分程度かかっており，初めての場合はもっと掛かると思ったほうが良さそうです。

望遠倍率が表記と違う問題

商品説明では22倍ズームとあるのですが正直そんなにズームしている感じはしませんでした。口コミでも倍率が低めとあったのでOpenCVを使って確認してみます。

Gistソースコード

特徴点のマッチングを用いてレンズの有無の画像の間の倍率を計算すると大体9.72倍と出ました。 22倍とは…

f:id:ossyaritoori:20210723183532p:plain — 望遠レンズなし（左）と有り（右）。SIFT特徴点のマッチング結果を線で示しています。

この手の商品あるあるとして，1つのコア技術の製造元に対して外装をちょっと変更していろんな業者が売るという構造になっている事が多いので他の似た製品でも望遠レンズの倍率はせいぜい10倍弱になっているというのはあると思います。

製品仕様くらいはきちんと記述してほしいです。

参考：一眼レフで撮るとこうなる

いろいろあってSONYのα6400というカメラを手に入れました。

ソニーミラーレス一眼 α6400 ダブルズームレンズキット SELP1650 F3.5-5.6+SEL55210 F4.5-6.3 SEL55210 ブラック ILCE-6400Y Bソニー一眼カメラケースボディケースブラウン LCS-EBE T

ソニー(SONY)

Amazon

で、これで月を撮るとこんな感じになりました。

f:id:ossyaritoori:20210723010837p:plain — α6400の付属レンズで撮った月（3.8倍、JPEG画質）。一眼レフはやはり違った。

一番感動したのは手ブレ補正か倍率低さのおかげか三脚なしの手持ちでちゃんと撮影できたことです。スマホの設定だと基本的に露光が長くなるので三脚なしはありえないのでこのあたりの撮影の手間は断然こちらの方が楽でした。

ちなみにコンデジで撮ると下記のような感じになります。

ossyaritoori.hatenablog.com

まとめ

ということで今回の所感です。

安い外付けレンズでもスマホで月を撮れるが設備投資（特に三脚）が必要。
マクロと望遠意外は特に用がなさそう。
望遠倍率だいたいサバ読んでる。
一眼レフはいいぞ。

はじめに

参考サイト

抽出手順

環境設定

抽出と後処理

余談：ですます変換

概要

下準備：時系列データ作成

直交性を用いた解法

別解

余談：Cross-Correlationで位相計算にずれが生じる

はじめに

実行環境

torchvisionのモデルを使ったsegmentation例

1. モデルを選んでロード

2. モデルのパラメータを確認

3. 画像の読み込みとモデルへの入力

PILとtorchvision.transformsを用いた前処理

numpyを用いた際の前処理

4. 結果の解釈

draw_segmentation_masksを使った可視化

numpyを使うパターン

参考・その他

参考になりそうな記事たち

超初心者の抱えていた疑問と回答

はじめに

目指す運用

前提

家計管理に求めるもの

家計管理サンプル

共有口座

家のための支払いの集計

わからないこと

個別口座と共有口座の貯蓄の比率

個別口座情報の共有（全体の支出をどう集計するか？）

おわりに

概要

tfを使った解法

自分で計算するときの数式

位置の変換

どこかが違うtwistの変換 （Pose変換の微分で解く）

twistの変換 （多分こっちが正しい。）

補足

まとめ

参考文献

背景

サンプルコード①：スクロールで拡大縮小、ドラッグで移動

ズーム動作

ドラッグ動作

その他の動作

サンプルコード②：スクロールで左右ズーム、Ctrl押しながらのスクロールで上下ズーム

key_press_event を使ったフラグ管理と注意点

概要

スマホと外付けレンズ

レンズを使ってみての感想

クリップの使用感

望遠倍率が表記と違う問題

参考：一眼レフで撮るとこうなる

まとめ

どこかが違うtwistの変換（Pose変換の微分で解く）

twistの変換（多分こっちが正しい。）