GoogleHomeで複雑な手順を通知する方法の検討(雑記)
手順が複雑な操作が必要なものについて、音声のみのガイダンスで目的を達成しようとするとなかなか難しい。
メラビアンの法則によると、純粋な話し言葉の要素だけで相手に伝わる情報量(影響度?)は7%程度らしい。
GoogleHomeにて複雑な操作を実現する際にのアプローチはどんなものがあるか検討する。
案1 ピラミッド型会話モデルで目的を達成する
通常の会話処理をそのまま複数回にわたって、ユーザーとやり取りし、目的を達成する。いわゆるアーキネーターのような感じ。
理屈ではどんなことも実現できそうだけど、何段階目かの会話でユーザーが嫌になりそう。
VUIエンジニアが、嫌にならないような会話の組み立て方を行うことで、ストレスなく実現できる?疑問。
案2 表示可能なデバイスと連携し、複雑な手順を表示する
表示情報に頼る。モニター付きスマートスピーカーを利用するorスマートフォンなどに通知を飛ばし処理を引き継ぐ。
音声のみ比べて多く情報を表示でき、選択結果の受け取りをまた会話にすることができればかなり複雑なことに対応できる。
公式:画面表現を含んだ応答の記事
Responses | Actions on Google | Google Developers
公式:複数のデバイスをまたがる会話について
Surface Capabilities | Actions on Google | Google Developers
案3 ユーザーアカウントに紐づいたメールアドレスに複雑な手順を記載する
音声でGoogleアカウントにサインインできるため、サインイン情報を取得し、ユーザーのメールに詳細情報などを記載する。
実際には案2とやってることはほぼ同じで、シームレスさが落ちるため実装としてはあまり良くない。
あえて挙げるなら、スマートフォンを持ってない人へも対応できる点がメリットか?
でも設置のためにスマートフォンがそもそも必要なような…。
その他
案がそんなにあげられなかったので、既存アプリの調査結果を記事に反映させる。
メモ
Googleのガイドラインによると、ユースケースとしてそもそもVUIに適切かを検討する必要がありそうだ。
https://developers.google.com/actions/design/principles#_2
機械的に延々とリストの内容を読み上げたりするとか、多くの選択肢を説明してその中から一つ選んで下さいとか言われても、人間には対応できない。
そのため、VUIではシンプルな処理しか対応すべきでないか?というと、多分そうでもない。
あらゆる操作の入口として会話からスタートする、というアプローチはあっていいと思う。
Google "Assistant"というように、それ自体は実処理をせず、何かしらの高度な操作・情報へのアクセスへの橋渡しとして働かせることが本来に近いのかもしれない。
とするとVUI専用アプリを作成して何かしますよ、というのは一時的なものなのかもなあと感じる。
アプリ開発者向けGoogleHomeの応答速度改善ネタ(メモ書き)
GoogleCloudPlatformのCloud Functionsにてasia-northeast1リージョン(東京リージョン)が使えるようになったようだ。
fishさんが早速試していた。
早速試してみた。us-centralと比較すると平均2倍くらい速いレスポンス。初回リクエストに関しては10倍くらい違った。 #cloudfunctions pic.twitter.com/I7yv06GfQj
— fish (@canoefishing) June 27, 2018
これはFirebase Functionsもキテルのかなと思ったが、全然そんなことはなかった。
(既存はus-central1だが、新規プロジェクト立ち上げてリージョン指定してもそのままだった…)
一応現時点でも、Fullfillment指定をGCPにして応答を返すようにすれば、GoogleHomeアプリへ速度的な恩恵を受けることができると思う。
また以下の方の記事ではGCPならcold start速いよとの記載があるので、トータル速度的には結構有利になりそうだ。
matthewayne.com
応答速度で壁になってるアプリがあればこれで突破できるかもしれない。という案。
参考
公式
Cloud Functions Locations | Cloud Functions Documentation | Google Cloud
リージョン毎の対応機能リスト(あんま更新されてなさそう)
Global Locations - Regions & Zones | Google Cloud
Cloud Functions とFirebase Functions
Google Cloud Functions と Firebase | Firebase
その他
性能評価しようか悩んだが、firebaseでもそのうちリージョン対応しそう。(そのうちがいつなのかは分からないが…。)
いずれにせよ、なんか今だけ通用するネタになりそうなのでやめた😐
ActionsSDK v2対応: 非同期処理の書き方(雑記)
インテント受け取り後に、非同期処理をPromiseチェーンで処理を書くと、下記のエラーが出てどうにも動かない。
No response has been set. Is this being used in an async call that was not returned as a promise to the intent handler?
Promiseそんなに習熟してないので、コードが悪いのかと延々と検証していたが、
一番短いコードでも動かなかったので何だこりゃと思って調査した。
原因
Google公式によると、v2での非同期処理はインテントハンドラに返さないとダメということだ。
参考リンク:v2移行ガイド
Actions on Google Node.js Client Library Version 1 Migration Guide | Actions on Google | Google Developers
重要な部分の引用
Additionally, async tasks now have built-in direct support in the library. To perform an async task, you must return a Promise to the intent handler. (さらに、非同期タスクにはライブラリ内の組み込みの直接サポートが追加されました。 非同期タスクを実行するには、インテントハンドラにPromiseを返す必要があります。)
くそー、何回も読んだページだけど、全然理解して無かったということか…。
その他の参考記事
StackOverFlow
stackoverflow.com
サンプルソース
app.intent('actions.intent.MAIN', conv => { return handleConversation(conv) }) function handleConversation(conv) { // Promiseを返す return ( Promise.resolve(conv) .then(checkUserData) // .then(SuperFunc) // .then(UltraFunc) // .then(DragonFunc) .then(conv => { conv.close('デバッグです') return }) .catch(err => { console.log('handleConversation', err) conv.close( 'アプリに問題が発生しました。後ほどもう一度お試しください。終了します。' ) return }) ) } function checkUserData(conv) { return new Promise(resolve => { // 何らかの処理 resolve(conv) }) }
動くと嬉しい。
Node-REDでスマートスピーカーアプリを作ろう!に行ってきた(雑記)
4/28 に行われた【渋谷】Node-REDでスマートスピーカーアプリを作ろう!【Google Home】に行ってきた内容のメモ
まとめ
詳細
敬称略
イベントスタート(イントロダクション by 高馬)
スマートスピーカー市場について by SmartHacks 山本
※編集注 : 以前の[http://VUIビジネス活用セミナーの内容と同じ感じ。差異のみメモした。
- SmartHacksではアプリもリリースしてますよ
- 「俺の資産スキル」莫大な資産があるように通知してくれる。彼女の前でイキるのに最適です!
- スマートスピーカーは Amazon alexa / GoogleHomeがメインプレイヤー。
- FBも開発中的な話あったけど、しばらく出なそう。
- 今年度のスマートデバイスは世界出荷台数5630万台と予想。合計出荷台数トータル1億台行くのでは?
- スマートスピーカーではAmazon / Googleで 7:3ぐらいの比率。
- ただし、アシスタントAIという観点だと、Google 4億台以上。圧倒的に逆転する。
- 各社開発ツールのオープン化
- A社・G社それぞれ、自社ではできないサービスにつなげていきたい思惑?ハード/ ソフトのハブとして機能していく狙いか。
- 海外情報。音楽/リラクゼーションツールが最も人気。開発者の方は参考に。
- Alexa Voice Service : 自社製品にAlexaを入れられる。
- これから音声コントロール領域が広がっていく。冷蔵庫など。なんでも。
ハンズオン
その他
Dialogflow - NodeRED - Twitterを組み合わせた成果物。
音声認識simulator経由でのツイート。
Dialogflowからこんにちは!
— kbn1053 (@kbn1053) 2018年4月28日
NodeREDで計算したBMIは20.8です。 #スマートスピーカー勉強会
各社のサービスを渡り歩く感じ、ものすごい最先端なことやってる感ある。
一方で、しっかりしたチュートリアルや、メンターが居ないと、各社サービスの連携を勉強するのは難しいとも感じる。
本で一気に学ぶのもいいけど、初学者は頭からっぽでハンズオン行くのも良いよ。
講師や参加者と協力してはぐれメタル倒そう。
VUI LT! IoTLTスピンオフ企画に行ってきた(雑記)
4/27 VUI LT! IoTLTスピンオフ企画に行ってきた内容のメモ
Lineキャラクターがローソンの棚卸してる。
まとめ
- VoiceUIは活版印刷発明同等の歴史の転換点かもしれない
- スマートスピーカはいいけど、AI感は無いよね
- 「スキル/アプリ」 をユーザーがわざわざ起動させる、という壁を超えなきゃいけないかも
- Unibo強烈。すげー世界になってきた。
詳細
敬称略
スポンサーLT by LINE株式会社
- clovaを使ってLT
- 動物ダジャレアプリ
- 英語翻訳アプリの紹介
- 連続で翻訳処理可能
- オフィス広いしビリヤードとかあるよ
- clova開発者募集してます
- IFTTTのThat側対応してる
- Push通知はclovaの下側にあるLEDが光る
メモ
- IFTTTのPUSH通知は若干通知が遅い
- 連続翻訳は便利そう
LT1 Yoshua @ HoloAsh VUIが与える人間の意思決定の影響について
- 自然言語処理が専門
- nVidiaの人と会話したときの音声認識面白情報
- 対応言語の優先度1位は英語(当たり前)
- 2位は意外にもアラビア語
- 軍事的な意味
- 日本語は優先度低い…
- 人類の歴史の転換点を考える
- 今のスマートフォンは脳のworkingメモリの限界を超えている
- 大量のPush通知 / メールの未読
- 脳の処理の大部分を言葉の処理で消費してしまっている:今のUIの限界
- VUIによって解放される?
- VUIはもっと便利になるべき
- あるタクシー会社の料金を調べるとか、どの会社に頼むとか細かい命令をするVUIは違う
- 「タクシーを呼んで」だけで配車されるようになるのがあるべき形
- (VUIが実現できる今こそ)情報を再定義する必要がある
(懇親会にて)
- ワーキングメモリの適正量ってありますか?
- (Yoshua)具体的な量は分からないが、参考として短期記憶の例で考えると10個の記憶をやろうとしたときに覚えられるのはせいぜい3個。3個までが無理のない領域かも。
- (Yoshua)脳波データは結構解析進んでて、何かに集中して考えている内容(見ているもの)の脳波を読み取って、そのデータを元に他の人に同じものを見せることはできるよ。いわゆるテレパシーは実現可能だよ。
- (Yoshua)めっちゃ好きな人見てるときは、おでこのあたりの血流で判断できる。
- 手の血管ではだめ?
- (Yoshua)おでこの所ですね!
- 手の血管ではだめ?
- (Yoshua)緊張しいるときに右手を動かすのと、リラックスしているときに右手を動かすのは全然脳波が違う。難しい。ドーパミンとかの物質が関係しているので脳波だけでは限度がある。
メモ
- 素晴らしいLT。個別のアプリで専門処理が分断されているのがAI感が薄い理由なのかも
- 例えば保険会社のVUIアプリが複数ある場合は、そのアプリを利用して高度な比較や判断を行って、ユーザーにこうしましょうと提案するようなメタアプリこそが本来のアシスタントであるべきかも
- ワーキングメモリのが3が適正という話を聞いて、ある部族の計量語が3パターンしかないという記事を思い出した(参考記事)
LT4 NISHIZONO@クレスコ スマートスピーカ栄光と挫折の事件簿
- Alexa申請で弾かれても丁寧なアドバイス貰えるよ
- 発話テスト中に職場の人うるせえ。開発には静かな環境が必要だ。
- スピーチコンでエモーショナルな発話ができる
- 権利関係が難しいスピーチコンのmp3を使ったスキルの申請
- テスターコメントの利用など、めげずに色々やったら認可された
- 申請には諦めない心が必要
メモ
- スマートスピーカー守り神
LT5 伊藤さやか@unerry IFTTTでISS"が頭上を通過するときにGoogle Homeにハラショーと言わせる!(仮)
- 宇宙ネタやろうぜ!
- IFTTTにけっこうあるよ。3分で作りな。
- 国際宇宙ステーションは一日に15.5回頭上に来るよ!
- Alexaが勝手に通知するよ。スパシーバ!
- さらっと流したけど、Alexaのpush通知実現。リマインダーAPIを経由させるといけるぜ。
メモ
- LTでクイズやれる人は
狂強者
LT3 ちゃんとく at dotstudio アレクサ、あと何分?で遅刻知らずのライフハック
- ぐだぐだ始業してるのはよくねえ
- シャキシャキ仕事しよう!
- 学校のチャイム音を鳴らそう
- チャイム音full版は結構長い
- スキル名「10時だよ!全員集合」スキル
- alexaのmp3再生はフォーマット決まってるので注意だ
- Alexaのスピーチコン面白いのあるので遊ぼう
- スマートスピーカー同士の掛け合いはできるか!?
- できるし、clovaは話しかけてないのに割り込んでくるのですごい(こわい)
メモ
- ちゃんとくさんLT遅刻という矛盾あり
- GoogleHomeの発話でGoogleHomeのウェイクワード読み上げさせるとちゃんと反応するという小ネタ持ってるけど、応用先が無い…
LT6 のびすけ at dotstudio 電子工作でVUIを作ってみるチャレンジ"
- VUI自作したぜ
- Groveの発話認識モジュールあるよん。超高性能…と思う
- M5stack/ESP32とかだと電圧低下しちゃう。ESPrつかうとよいよいよい
- しかしWake Wordほぼほぼ無理でした…
- 心折れたカウンターも作った…
- 一応Youtubeのプロモ動画のwakewordを利用すると認識率高い…
- M5(ファイブ)Stackですのでよろしく
- 次回IoTLT 5/29よろしく!
メモ
- のびすけさんの動画面白すぎる。負のカリスマ有。
スポンサーLT LINE株式会社 スポンサーLT
- Clova の内部処理について話すよ
- 音楽再生時のフローはこんな感じ
- 要望を常に受け付けてます!
- Alexaのあれないの?とかの要望募集中です
- APIエキスパート認定制度あり
- 認定されればAPIなどの先行体験できるよ
- またはline社就職してくれれば先行体験できるよ
メモ
- Line社求人絶賛募集中だそうです。
LT7 田中みそ 5分でGoogle AssistantアプリをAlexaスキルに移植してみる…!
- 機器トラブルのため動画にてアテレコで解説
- ポイントはzipでintentをexportして、みそツールにかけることでAlexaにインテントが取り込まれるぞ
- Alexaでいらないものも取り込まれるので消そう
- 5分未満でテスト実行完了!
メモ
- 解説早すぎてメモも追いつかず。誰かがTAS動画に似てると言ってた。
LT8 國原 at WHITE 自分の位置によってGoogle Homeに発話、家電操作およびLINEメッセージ送信(Google Home + Raspberry PI + 赤外線モジュール + LINE Messaging API on iOS)
- 日本史語呂合わせ / 音感オーケストラ作りましたよ!
- 国内ローンチアプリ!大企業と同格に紹介されて誇らしい
- スマートスピーカーってAI感ねーな
- 3rd party機能の制約のせいもあるかも
- ザッカバーグが理想のAIについての記事書いてたので、面白いので見てね
- 自分の生活を便利にするSmart Lifeという考えを元に色々進めてます
メモ
- スマートスピーカーってAI感ねーなはある。ユーザーがアプリを「起動する」っていうのが良くないかも。
- 勝手に必要なのを起動してくれ感。
LT9 ymd @ Cookpad VUIとスマートキッチンについて
LT10 根岸 @CYBIRD キャラクター音声によるボイスコミュニケーション設計
メモ
- VTuberLTとか面白そうだなー。
- GoogleHome公式の合成音声より若干格が落ちる?voice roidとかとの性能比較はどうなのだろうか。
- 合成音声戦国時代感ある。
LT11 もっちゃん アプリ難産だったけど嫁のおかげて無事にアプリをリリースできた話
- 田中みそさんの記事で開眼
- 作り方は分かったけど、アイデアが出ない…
- 奥さんのアイデアが光明
- アプリ名がきちんと認識できるものにしないといけないのは注意
- 変わった名前はうまく変換されないので…
- マイクオープン時にたくさんのキーワードを入力されると途中で閉じられることがある
- また同音異語の「計量」が「軽量」に認識され易かった
- 外部データ利用はデータ元にきちんと問い合わせよう
メモ
- SmartHacks山本さん曰く、スマートスピーカ魂が熱い人とのこと。
LT12 わみ Unibo×Node-Red話
- Unibo作ったっすよ!
- NodeREDで自分でカスタムできるよ
- ロジックを外部サービス(ネットワークの向こう)に出していこう。
- デバイスに閉じ込めたりするcloseだとつまんねーよ。
LT13 山本@SmartHacks 僕とVUIの出逢い(初のVUILTなので胸熱なお話し)
- アイアンマンのJARVIS大好き。アレを目指すべきでしょう
- ビジュアル情報+音声が理想UIの回答に近い
- 「わくわくする」というイメージが大切。新しいサービスを作るときはそれが必要と感じる。
- わくわく=好奇心がキーワード
- 好奇心が必要なのは生存戦略のため。人類史で食糧不足の時に貝を食べ始めて人口を維持できた例。
- 今日聞きに来ている人はわくわくを作るパイオニアですよ!
- 次回のLT担当も募集します!よろしく!
メモ
- アイアンマン1良いっすよね…。天才が苦労してプロトタイプ手作りしてるシーンがすごい好き。
懇親会
- ピザ・ビール・ソフトドリンクなど
- ジャンケン大会で勝者3人にclova進呈。
- 会場のうらやましい!という声に「自腹で買えw」という応答あり
- VUI界隈で積極的に活動されてる方がスタッフやられていて頭が下がる
- Yoshuaさん話が面白くてファンになりました。事業頑張ってください!
その他
LTのみのイベントは初参加。
発表時間の5分とかなり短いうえ、各LTのテンションの起伏差がありかなり刺激が強い。常用注意。
全体を通してカオス感があって面白かったです。
あとのびすけさんは単体でカオス。
AI音声アシスタント ビジネス活用セミナーに行ってきた(雑記)
4/25に行われた「スマートスピーカー・AI音声アシスタント ビジネス活用セミナー & VUI体験ワークショップ」に行ってきた。
万世カツサンドにホイホイつられてしまった…!
まとめ
- VUIでキャラクターと会話したいというのは日本独自の市場
- 開発者はVUIアプリで「ユーザーに楽させる」ということを意識すべき
- 画面付きアプリ処理をベタ移植してもゴミ
- imajoさんのblog記事にもそんな内容あり
- 画面付きアプリ処理をベタ移植してもゴミ
- 山本さん渾身のオススメスキルは「ピースフルヨガ」
詳細
敬称略
株式会社ISAOについて
【セミナー】スマートスピーカー・AI音声アシスタントの市場動向 by SmartHacks 山本
- 最近スマートスピーカー使ってます?音楽聞くだけになってないっすか?
- 世界市場だとAmazon / Googleの2強。 Amazonが強い
- スマートスピーカーを改めて考えてみる。ハードウェア単体では大したことやってない。"スピーカー"はそんなに持ち上げなくてもいい。
- 人と対話モデルを通してエンドポイントと繋がれる、というところが大事
- facebookも独自デバイスで参入するかも?
- 海外の記事によると2018年は世界で5000万台ぐらいスマートスピーカー出荷されるのではないか
- デバイスに最も対応している音声認識システムは…GoogleAssistant!やはりAndroidに標準搭載は強力。4億台対応してる計算。
- 音声認識デバイスについての各社の戦略は異なっています。これからの動向に影響あるかも。*2
- 国内アプリの最近の状況。4月時点で1000アプリあります。増えてきてます。
- 海外アプリの人気ジャンルの分析(オフレコ)
- スマートスピーカーアプリ開発の収益モデルを考える。
- 企業アプリはブランディング・販路拡大を目的としたものが多い
- 良くできているVUIアプリ
- VUIで10個のリストから選択するとか、旅行チケットの情報調べるため、何度も会話のキャッチボールするのは、正直ダルい。
- VUIで「検索結果が1000件です」、と言われてもね…
- 細かく難しいことの実現よりも、「それを使ってユーザーがいかに楽になるか」を達成できるアプリが良いものと考える
- そんな中で今一押しはAlexaの「寝たまんまヨガ~ピースフル・ヨガ~」ですね~😊*3
- 次点はGoogleHome「うんこカウンター」
- VUIで10個のリストから選択するとか、旅行チケットの情報調べるため、何度も会話のキャッチボールするのは、正直ダルい。
【セミナー】アメリカ生活で見つけた、スマートスピーカーの普及と日本の未来予測 株式会社ISAO 中嶋
- アメリカに長期出張してました。Alexa好き!自宅ではGoogleHome/ Alexa両方使ってます
- ホームコントロール・音楽はAlexa 検索はGoogleHomeに任せてます
- 英語の勉強もかねて英語モード使ってますよ
- CESデータによると、スマートスピーカーのピークは2019年でそのあとは微減するのではないか?(5500万台程度で落ち着く)
- (編集注:アメリカの普及想定値?全世界、インドとか含めるともっとすごくなると思うけど)
- 米国では(スマートスピーカー所持の?)4人に1人はオンラインショッピングで利用したことがあるようだ
- 普及感は、アメリカだと各部屋1台になるんじゃないかな?
- 日本は2年後に一家に一台ぐらいになるのでは。
- 海外でのスマートスピーカー入手方法について
- 良く安売りされている。定価で買うことは少ない。割引率はAmazonが強い。
- スーパーマーケットとかで普通に売られているのは面白い。身近感がある。
- 海外のみのスマートスピーカーの紹介
- スキル開発者のマネタイズについて
- 報酬プログラム。優れたスキルに報酬あり。金額は秘密らしい。
- スキル内課金。TVと連動したクイズアプリの課金率がかなり高いというデータも。
- マネタイズについては先行している海外でもかなり実験中。amazonも手探りなのでは。
- 子供とスマートスピーカー。命令口調(動詞先行)になりがちで、道徳的にどうなのか問題視され始めている
- 日本だとあまりそんな感じにはならなそう。
- Alexa海外の最近の情報
- 募金が可能になってます。Amazon Payという。
- Skillテンプレートというものがあり。(ノンプログラムで)非公開の自分用アプリが作れるよ。
- Alexa開発者は「音声入力がどこでも可能になる」を目指している
- 日本人は「人前で音声検索するのは恥ずかしい」と考えている人は多い
- 一方、音声入力ネイティブ世代(平成10年生まれ)は、フリック入力とかしている方がありえないという意見も
(質疑など)
【ワークショップ体験】VUIデザイン (音声ユーザーインターフェース) を作ってみよう by 株式会社ISAO 中嶋
- デザインスプリントでのVUI設計
- テーマは「飲み会を盛り上げるAlexaスキル」or 「会社の受付に置くGoogleHomeアプリ」
- 各チームの成果物
- 飛び込み営業撃退アプリ
- 飲み会の会話を分析し、シチュエーションに合った音楽を流してくれるスキル
- コンパで相槌を打ってくれるスキル
- 飲み屋のトイレ空き情報を教えてくれるスキル
- 設計のポイント
- なるべくやり取り少ないほうが良い
懇親会
ミーティングルーム(?)がかなり特殊でゲーム機とかダーツ、アイマスのPOPあったりしてなかなか素敵な場所。
お酒の種類がやけに豊富。社員は給料天引きで飲めるらしい。2杯目以降は高いとかなんとか。