Pepperエンターテイメントロボットアプリの作り方

よしもと所属の、髙橋征資さんとシンキョンホンさんによる、エンタメに特化したものづくりを行うエンタメーカーユニット、バイバイワールドによる Pepper エンターテイメントロボットアプリの作り方ワークショップに参加してきました。バイバイワールドは、Hello World の先を行くユニットです（なんのこっちゃ？）。2013年1月から Pepperアプリの開発を始め、ちょうど2年経ちます。その、Pepperアプリの第一人者達が、惜しげもなくノウハウをさらしてくれました。

・パフォーマンスとインタラクションという概念。・リズムに乗せて動かすのは難しい。動かすたびにタイミングがずれることがある。・ビデオはMP4でなるべくサイズが小さくなるようにしている。1280x800。Pepper のタブレットは解像度が高くないので、これくらいでも違和感がない。音は無し。・音素材はOGG。MP3くらい軽い上にChoregrapheの中でも鳴らせる。・ボックスを分けてダンスを作ると、ボックス間に0.何秒のレイテンシが生じる。・ボックス間のレイテンシはPepperのバージョンによって差がある。・ダンスのような長いものは一個のタイムラインにする。テーマソングは2分、4000フレームくらい。・キリのいい数を一拍とすると作りやすい。テーマソングは25フレームが一拍。・FPSを変更する。通常は25。30にすると、少し速くなる。・既存の曲に合わせる場合、FPSを調整してできるだけ近づけた上で、最後は曲の速度を調整する。キリのいい数字を音楽の一拍目にしたい。・タイムラインが3000フレームくらいなると、動作レイヤが重くなる。モーションレイヤはテンポをキープしてくれる。・パフォーマンス系は、常にコンテを描く。・台本を読み込んでコンテを描く。・歌系は五線譜のタイムフレーム版みたいなのを作る。時間軸のある絵コンテ。・Pepperを頷かせる動作を大量に配置したタイムフレームを用意して、同時にピッピッピッピと音を鳴らせる。頷きに手などの動作を入れれば絶対に合う。・カーブで見たときに、極力きれいな動きになるようにしている。ダンスなので。・間合いがちょっと狂うだけで、相当気持ち悪い。・顔認識に失敗しても、相手は演技しているので、ランダムに表情の点数を付けている。・終わった後に表情を認識すると、落ち着いた後なので、常に認識させて最もいい値を採用している。・逆光だと顔を認識しづらい。子供も認識しづらい。背が低くカメラに収まらない、声が小さい。目線を下げると、かなり見つけやすい。・子供相手のワークショップをやるときは、そもそも声が小さく認識できないことが多い。Pepperのマイクが上についているので、上方向からの声の方が認識しやすい。顔を落とし、腰を落としても厳しいので、タッチパネルでも先に進めるように作った。・音は、二文字、三文字は聞き取りにくい。少ない文字だと誤認識が増える。イントネーションのある言葉の方が認識しやすい。架空の言葉は認識しづらい。・音楽を流すと、認識率が下がると思う。音は無い方がいい。・Pepperとしゃべるにはコツがある。ソフトウェア的に、マイクに指向性を持たせている。目の前から話すと認識率が上がる。・「いいえ」は使わないようにしている。「やりますか？」「いいえ」よりも「やりますか？」「いいよ」と人は答えがち。「いいえ」は「いいよ」などと混同される。・感情認識ボックスは無い。Pythonで作る。表情認識と音声認識から配列を受け取って、分解して作っている。・表情認識の失敗要因：人がいない、顔が見つけられない、解像度が低い。・この例はゲームなので、深層心理までは追わない。音声は本当の感情を取れるようになっているが、それをゲームに使うとみな点数を取れなくなるので、表情7、音声3にした。・ロボットUIはテクノロジーの進化に大きく依存。ロボットUXはテクノロジーだけでは実現できない。・紙でプランを作る。それをビヘイビア+システムに落とす。・ピッチ132、スピード100、テキスト「おハヨーゴザイマーアーッ酢」、自作のおじぎ。テクノロジーじゃない。努力。・早口言葉1億倍は、音楽編集ソフトで作っている。・Pepperはお役立ちロボットではない。その場を和ませて、楽しませて終わらせる。ロボットであるとともに、ゲーム機的な側面もある。・最初のころは1アプリ1月で作っていた。最近は、2〜3分のパフォーマンスなら3、4日で作る。ライブラリがかなり充実してきている。インタラクティブなアプリは1ヶ月、少なくとも2〜3週間は欲しい。・バグもある。これをやると落ちやすい、というのがある。・モーターが熱くなって動かなくなることがある。・実機を触って特性を把握した上で、できるだけバーチャルで作る方が効率がいい。・始めて作った5分くらいのアプリは、2人がかりで1ヶ月。SBショップなどで動かす場合は、危なくないように、などの配慮が必要。・1次審査はストーリー、コンセプト重視。モーションは、後で作り込めばいい。・「わたしはxxです」は「わたしは、xxです」と発音される。間を入れたくない場合はカタカナにするといいことが多い。・「スマホ」は「ス↑マホ」と発音されるので、全部漢字にしている。カタカナにすると平たく読む。経験としては。・タグを使うこともできるが、多用すると初音ミク状態、ロボットボイスになる。・よくあるバグ。コピーとかできなくなる。SDKを再起動すれば直る。・Qichat の日本語で、アスタリスクは使わないほうがいいとアルデバランのエンジニアが言っていた。・Sayボックスで歌わせるには、がんばる。あるいは、録音したものを流す。自分で歌ったものを流しても、結構わからない。ああ、歌うとこんな声なんだな、と受け取られる。そのうちボーカロイドPepperが出る。・Say の調整は本当に時間がかかる。吉本ロボット研究所では専用の部隊がいる。・今は、一人で作るというのはほぼなくなっている。・タブレットも、ローカルでウェブページを作ってからPepperで試すほうが効率がいい。・Pepperタブレットのキーボードは隠されている。ソフトウェアキーボードは出せない。JSで書くしかない。・JSからもSayできる。・既知のバグ：タブレットがリフレッシュされない。激しいことはやらないほうがいい。最低でも50msくらいあける、余裕をみて200ms空ける。タブレットが落ちる。

【2015/01/17 16:00〜18:00 @3331 Arts Chiyoda】