画像処理に関してはワタクシは「C言語による実践画像処理」(うろ覚え) 1990年代後半により、画像をメモリに取り込んでポインター使って演算するという手法は20年以上前から知っている。
80年代前半で画像処理を研究する大学の近くに住んでいたのだ(笑)それがなにか?
で、画像処理に関してはOpenCVを10年ぐらい前に知り。技術展示会の某大学のブースでデモを見て、これ、面白いじゃん、じゃーオレも!! と思ったのだった。
ただ、問題はPCの性能だ。その大学がデモで使っていたPCはオレが当時持っていたPCより高性能だったし。
ところが今では俺んちのPCもCore-i5で・・・ってか、普通だし。デスクトップPCに高性能グラボーを入れてGPU使って高速演算・・・というのは10年ぐらい前に技術展示会で知った。そこではPCにグラボーを3枚ぐらい入れて。デスクトップPCね。改造しまして。当然、電源は3KWクラスのものになり。発熱がすげーぜ。
そんなの自分ちで稼働しません。俺んち20A契約でしてん(笑)
というわけで画像処理はパワーが必要だ。パワーとは電力のパワー、知力としての頭のパワー、そして根気のパワー、その他だ。
で、OpenCVは1.*はCインターフェースだったが今はサポートは終わっていてC++だ。
VC++でOpenCVを使う場合には・・・・ OpenCVのDisplay機能を使うのではなくVC++のGraphicsを使うという場合にはFormatの変換が必要になる。VC++ってのは、C++/CLIであってMicrosoftは2000年代の後半には積極的に宣伝していたのだが2010年代ではGUI作るのに推奨しなくなちまった(笑) C++/CLIはね、記述ではC,C++,C++/CLIという混在が可能なんだよ。
それがどしたの?
というわけだが、OpenCVをPythonで使うのも流行っているようだ。Pythonは簡単だからね、使うのが、学習するのが、マスターするのが・・・・という宣伝がある。
だが、オレとしてはPythonだろうがC++/CLIだろうが、使いこなそうとすれば難しいのだよ、ちみぃ!! って気分。
というわけでオレがあまり扱ってこなかった音声処理に注目だが、ざっと本を眺めて・・・・たいしたことやってない。だってーーー入門なんだもの。
そこで方針変更で。音声処理のコードを動かしつつ、音声処理用のモジュールについて知る、ってことにする。
OpenCVで顔検出は簡単にできる。ならば、音声処理のライブラリで・・・どういうのがあるのか知らないが、家のドアフォンが鳴ったのを検出とか、カミナリが鳴ったのを検出とか、隣んちで夫婦喧嘩が始まったの検出とか・・・・そういう音の特徴をだね。。。。。てへてへ。
これは応用としてノートPCを擬似的なAIロボにするのに役立つ。ノートPCは目があり、耳があり、口があり、そしてテレパシー能力がある。通信機能とも言う。
家の見守り神様ソフトを作りたい。
帰ると、家の見守りソフトが、何時何分にドアフォンが鳴ったので画像見てね、何時何分に大きな音がしたけどカミナリではないようなのでベランダ確認してね、
室内でモノが動いたので写真撮ったけど、何なのかは確認してね、
外出時は室内の変化があればメールで知らせるのだぜ。
というような簡易的なAI機能を実装したい。オレにできるか。できるよ。そんなの、ソフトを寄せ集めれば実現できる…・きがする。
で、そういう高望みの前に、上の本でhstackの次の音声再生が思惑通りに行かないのでドンづまっている。
だって、その著者が作ったプログラムなんで仕様とかさ、解説ないに等しいし(笑) コード読んで見るけどね。
なんだか、入門って書いてあると、多少はつたないところがあっても許される・・・と出版社は考えているのではあるまいな? コロナ社!! 本造りに手抜きがあったら、ますます売れなくなるのだぜ…・・わら 草 稲 ムギ