音声メモ+自動文字起こしガジェットSenstoneはホントに使いものになる?…ベータテストレビュー


現在日本のクラウドファンディングプラットフォームGreen Fundingですでに目標金額を大幅に上回る支援金額を集めている「Senstone」。Green Fundingのプロジェクトページでは「AI搭載」とか「世界最小クラスのAIデバイス」適当なことが書いてあるが(後述)実際に使えるのだろうか?現在私がテストしているベータ版を使用した感想を記そう。



まず何故私がSenstoneのベータ版をテストしているのかというと、これはKickstarterプロジェクト時に出資しているからだ。私は今年初めからベータテスターとしてSenstoneを使用している。



何故出資したか


そもそもSenstoneに出資した理由は、音声メモが保存されると同時に自動で文字起こしされる点と、この機能が物理的なスイッチで可能になる(専用デバイスである)という点だ。そんなのどうでもいいからSenstoneが使える者かどうか知りたいという方は読み飛ばして頂きたい。

・メモを取りたい

現在は主にウェブライターとして生計を立てているのだが、記事執筆やブログ執筆、さらには仕事の合間に行うアート活動などでも、日常生活の中でも、メモを取ることの重要性を認識している。正確には「認識していた」。一時は片時もペンとメモ帳を手放さないメモ魔だったのだ。

インタビューや記事構成のアイデア、仕事に関係のあるアイデアが浮かんだとき、手元にパソコンがないときに書かなければいけないメールの下書きをしたり。買い物の時だって、お店に行き目の前に膨大な数の商品が並ぶ中で何を買う必要があるか思い出すよりも、家の中で冷蔵庫や棚を開けて買う必要があるものをメモ帳にリストにしたり、急に買わなければいけないものを思い出したりしたときにメモに書き込んだり。ふと気づいた、たわいもない、だけど面白いことがらを書いたりなど、常にメモを取っていた。

何故今の私がそうではないのかというと、ペンとメモ、視覚と腕の動きを必要とする「メモ取り」の物理性に不便さを感じたからだ。

・音声メモの文字起こしアシスタントが居てくれたら…

『ツインピークス』シリーズでクーパー捜査官が「ダイアン」宛てにカセットテープに録音している様子や、『X-ファイル』でスカリー捜査官が検死中に残すテープ録音をする様子を見たことがある日ともいるだろう。それらだって医者が診療中に行う音声録音や、取材記者や研究者などがインタビューを録音したものなども、後に記録として残す際には誰かがそれを文字に起こしているのだ。

それらの多くは録音者自らやるのでない限りは音声起こし/文字起こしなどを専門にする者が行っているし、ほかならぬ私もアルバイトで研究者の録音データから日本語と英語の文字起こしをした経験がある。お金があればただテープレコーダーとかICレコーダーとかを持ち歩いて、ボタン一つで録音したものを秘書に文字起こししてもらうとかできるだろうが、そんなお金の余裕はない。

最近ではスマートフォンで音声による文字入力がある程度使えるし、きっとスマホアプリで録音して文字起こしできるヤツがあるだろう、などと思っていたのだが、これが以外に見つからない。音声入力は可能であっても、音声データは残らないものがほとんど。現在の音声入力の精度がそこまで高くないことからすると、下手をすると元の音声データが無いことで、文字となったデータが元のアイデアの形を留めず、自分自身でもそれが何であったか思い出せない状況が考えられる。

パソコン用のソフトで1万円くらいするものなどは録音も残したまま文字起こす機能があるものもみかけたが、ロバート・A・ハインラインが『夏への扉』で書いたような「口述した文章がタイプされる」ライターにとって夢の機械(うろ覚えだけど)はまだ無いようだ。

・ボタン一つで

そんな中で登場したSenstoneは、録音データを残しつつ、文字起こししてくれるという夢のデバイスだ。だが私の出資を後押しした理由の一つは、この機能が「ボタン一つで」可能であるという点だ。

万能化してきたスマートフォンは、その利便性と引き換えに物理感覚を奪ってきた。スマートフォンを用いるには視覚の集中が必要とされるし、画面を見てアプリを開く前に、まずスマホをアンロックする必要があるという手間が掛かる点もある。コンパクトデジタルカメラはその一方で、電源を押して起動して、シャッターを押すという、カメラそのものを見なくとも被写体を常に視点に入れながらデバイスの起動~撮影までが可能だ。Senstoneもこれに似て、Senstoneというデバイスを手に取り横にあるスイッチを押すだけで「録音~スマホへのデータ同期~文字起し」の一連のプロセスが行われる。

この集中性はペンとメモ帳を用いたメモ取りよりも優れていると私は考えた。なぜなら、私によくあった状況は寝ようとしているときに突然よいアイデアがひらめいて、それを書き留めようとするのだが、枕元にあるペンとメモをまず探すために電気をつけて、目が明るさに慣れて、メモ帳をめくりページを探して(こうする間に目に入ってくる文字情報も気を紛らわせる要素だ)、そしてアイデアを書き留める、というもの。その過程の長さもさることながら、記録する行為の間に余計な情報が多く入ってきてしまい、アイデアを忘れることもあった(後に私は電気をつけずにメモを取るようになったのだが、後で見返して読めるレベルの文字を書くことはできなかった)。また、スマートフォンに録音するというのも一つの手だが、目をディスプレイの光に慣らすのは同じことだし、これはアンロックの際に見える通知の数々も気を散らす要素であり、結局録音後寝付けなかったり、録音したものを後で確認するのが億劫だったりした。

だがSenstoneなら、目で見る必要すら無く、ボタンの一押しでアイデアを記録する事が出来るのだ…。

これらが出資した理由だ。



ベータ版を試して



スマホにアプリをインストールし、デバイスをBluetoothで接続、アプリでアカウントと文字起し/ディクテーション言語の設定をすればすぐに使える。現在ベータテスト中に使用できる言語は、日本語、英語、ドイツ語、オランダ語、中国語(官話/Mandarin)、ウクライナ語となっている。将来的にはスペイン語、イタリア語、台湾語、フランス語などにも対応予定のようだ。このディクテーション言語の設定は重要で、録音する前に設定しなければ、録音したものは設定されている言語で文字起しされてしまうのでおかしな文字起し文章になってしまう。そのため、複数の言語を同時に用いたり、録音ごとに言語を変えるような環境での使用には(少なくとも今のところは)適していない。だが、単一の言語での録音に限ればこれは問題ではないだろう。

使い方は至って簡単。Senstoneのボタンを押すだけ。

音声データはSenstoneデバイスに録音され、それがスマホアプリに同期される。そしてスマホ側がネット経由で文字起しをして、作成された音声メモを表示してくれる。Senstoneデバイスへの録音そのものにはスマホを必要としない。なので、スマホが手近になくてもSenstoneさえあれば録音できる。Green FundingのページによればSenstoneデバイス自体には68分の録音が可能なストレージ、平均4日間使用可能なバッテリーが内蔵されている。なのでスマホのバッテリーがなくてもとりあえずSenstoneに録音し、後でスマホと同期できるのだ。

私は現在SenstoneをiPhone 5で使用している。古いスマホだが、Senstoneアプリは利用でき、Senstoneデバイスとの同期も問題無い。アプリの速度、同期、文字起しの速度も十分実用的なレベルだ。スマホに同期されたデータはクラウドにも同期されて保存される。



・肝心の文字起し

出資しようか迷っている人が一番気になるのは文字起しの品質だろう。これは個人的には実用レベルだと考えるが、より文字起しの精度を高めるには工夫も必要となるのも事実だ。

例えば、よりはっきりとしゃべればそれだけ正しく認識される率が高まる。それと同時に、考えながらしゃべるときに生じる言いよどみは誤認識の元となる。複数人で話していて一部の人の声が他の人の声よりも小さい場合は大きい声の部分だけ文字起こしされる。

一般的でない外来語は苦手だし、特に外来語や地名などを本来の言語の発音で言ってしまうと、それを無理矢理日本語で聞き取ろうとして変な言葉に起こされる。

例えば、「かみがなくてもろくおんめもがつくれることはとてもすばらしいことだ」と録音すると「髪がなくても録音メモが作れることはとても素晴らしいことだ」などと文字起こしされたり、「とくにばらんすがよくおいしいたべものというわけではない」との録音が「特にバランスが横美味しい食べ物というわけではない」といった風に、漢字変換で間違った変換がなされたり、自分が発音したつもりの言葉が誤認識されたり(それを文字起しシステムの誤認識と考えるか、自分の発音が客観的に聞いて「誤発音」であるか、は難しいところだが)することもある。精度が高くなるに越したことはないが、漢字変換に関してはどんな優れた現存するIMEでも間違った提案をすることはあるし、文脈から判断できるという点で格段に有意であるはずの人間だって、会話の中で正しく聞き取れても同音異義語で間違える可能性はあるし、どれだけ文脈があったとしても発音が類似した関連していそうな意図されない単語として認識してしまうことはある。

また現在のベータ版では、日本語では、言いよどみや、録音中の間などは考慮されず、句読点のないひと続きの長い文章となってしまう。ただSenstoneの予定としては完成版には自動句読点機能やイントネーション分析機能がつくとしているのでこのような点は解決されるだろう。

なお文字起しのサービスはGreen Fundingによれば1か月300回の音声録音まで無料で、それ以降は「1回の使用に$0.008(おおよそ1円)使用料が必要」となるとされている。しかしSenstone社によれば、これらの数字は全て想定であり、300回無料というのは「30日x1日1分の録音10回」で計算したもの。また、現在ベータで用いられているspeech-to-textサービスは、日本版では変更される可能性もあり、この使用料も最終的なものではないとのことである。



・アプリ

アプリには4つのタブがあり、音声メモ一覧が表示される「NOTES」、音声入力したToDoリストが表示される「TODOS」、文字起こしされた音声メモ内を語句入力で検索できる「SEARCH」、そして設定一覧「SETTING」となっている。

・NOTES


「NOTES」はSenstoneの肝だ。このタブには、文字起こしされたメモ内容が、録音日時、録音場所、録音時の気分、ハッシュタグなどと共に一覧表示されている。


(画像は編集画面になっているが、文字起し内容は一切編集していない。句読点こそ無いがここまでできればたいしたものだ)

それぞれのメモをタップすれば、録音音声を再生、文字起こしされた内容を編集、ハッシュタグや位置情報の添付、文字起こしされた内容や録音音声のシェア、削除などが可能だ。


NOTESタブの右上には、「位置情報」みたいなアイコンと「設定」みたいなアイコンがある。「位置情報」アイコンをタップすれば、地図が表示されると共に、地図にピンがついているのが見える。それぞれのピンが録音が行われた場所を示している。これにより、「いつ旅行に行ったか覚えてないけど、金沢に行ったときどんな録音したっけ?」という時などにも簡単に録音を探し出せる。



「設定」アイコンの方は実は「フィルター」で、「最終作成」、「最終更新」、「最終閲覧」などで並び替えができるほか、メモ中に使用されたハッシュタグの一覧が表示されており、これを押すことでそれぞれのタグのついたメモをすぐに探すことができる。また、ここでは「気分」でメモを仕分ける(後述)こともできる。

Hashtag機能はカタカナ発音で「ハッシュタグ」と言い、その後にハッシュタグとしてつけたい言葉を言えばハッシュタグがつく。注意しないといけないのは、日本語では「ハッシュタグ」と言った以降に話されたものは、録音終了もしくは次のハッシュタグが来るまで一つのハッシュタグとなってしまうこと。英語だと文字起こしされる際に、単語間にスペースが入るので、例えば「hashtag Japan how much was that thing」などと録音すれば「#Japan how much...」という風にハッシュタグが自動的にその直後の単語で区切られる。だが日本語の文字起しでは、語と語の区切りがシステムで認識されないため、「ハッシュタグうどん きょうのうどんは美味しかった」などと録音しても「#うどん今日のうどんは美味しかった」とハッシュタグ以降が一つの長いハッシュタグとなる。そのためハッシュタグのタグを言い終わり録音を終えるか、次のハッシュタグを入れない限りは想定したハッシュタグをつけることはできない。これは難しいかもしれないが改善してほしいところ。

現在のところ、録音時の「気分」を認識する機能は役に立たない。これは想像になるが、現状ではいずれかの言語でのイントネーション情報を基にそれに対応した「気分」に仕分けがなされているためではないかと思われる。将来的には「イントネーション分析」機能などが予定されていることもあり、個人の音声中のイントネーションを基にしてより性格に気分を認識できるよう改善されることが期待される。もしこれが機能すれば、日付、場所、文字起し内容、ハッシュタグのみならず、録音時の気分による検索が可能になる、先見性のある機能だと思う。

・TODOS

「TODOS」は、ToDoリスト、終了したToDoリスト、そしてリマインダのリストが表示される。これらは録音時にトリガーとなる単語を話すことで、自動的にToDo/リマインダが生成されるというもの。英語で使用する場合はうまく機能するのだが、日本語では今のところトリガーとなる単語が設定されていないため使用できない。将来日本語でも使えるようになれば嬉しいが、私自身に限って言えば、メモを文字起しする事がSenstoneを使う目的なのでこの機能はあまり使わないだろう。

・SEARCH


沢山のメモがあれば探すのも大変だ。だが、この検索機能では検索語句を入力することで、文字起こしされたメモとToDoリストの中から当てはまるものを見つけ出すことができる。もちろん、正しく文字起こしされていなければ何の役にも立たないが、一文字でも当てはまれば検索結果に出てくる。

・SETTINGS


設定では、スマホのカレンダーやEvernoteとの連携や、現在進行中のノート、位置情報付加機能のオンオフ、ディクテーション言語や、(ToDo、リマインダ、ハッシュタグなどの)ボイスコマンド一覧、SenstoneのLED表示の説明などを見ることが出来る。

・Senstoneのバッテリー


Senstoneデバイスの充電は専用のクレードルに載せて行う。デバイスとクレードルは端子同士が正しい位置に来るよう磁石で引き合うようになっている。クレードルはUSBポートに繋げて給電するしくみ。先に述べたように平均私用で4日間使えるバッテリーを搭載する。

私のメインのスマホはAndroidであり、ベータ版ではiPhoneでしか使えないこともあって、積極的に沢山音声メモを取ってはいない。なのでSenstoneデバイスのバッテリーの持ちについて語るのは難しいし、これがベータ版デバイスであるというのも注意して欲しいが、現状でも確かにバッテリーが満充電の状態から数日間放置してもまだ録音可能な状態であることは記しておこう。



まとめ:結局Senstoneは役に立つのか?



仕事用メモや、思いついたアイデアや俳句の記録、日記、映画を見た直後やデジモノを使用しながらレビュー用に音声メモを取る。そしてスマホにはそれが完璧ではないけれど文字起しされた状態で入っている。このような私の使い方では十分役に立つと断言できる。その時々の思考の流れを書くという自分以外の物理道具を体を動かして使用して記録する行為により阻害されることなく、思考の流れ出るままに記録して文字化することができる装置。ここまでの利便性を持って製品化に近づいているものを私はSenstoneの他にはしらない。

確かに日本語の文字起しは完璧ではない(英語で使った方が文字起し精度は高い)。だがそもそも完璧な音声認識サービスはどの企業も成し遂げることはしばらくは無理だろうし(その理由はFUZEで執筆した「「他言語を学ばなくてもいい日」は来ない。言語と機械翻訳を改めて考えてみる | アルゴリズム編」にも通ずる部分があるのでお読み頂ければと思う)、所詮ここで記録されるのはメモであり、これを世に見せる形に加工し、提出するまでには文章は二度三度読み返して修正、再構成されないといけないものだ。読み返して文章表現を修正すると同時に、認識ミスを修正すればいいだろう。

より正確に認識されるように、はっきりと話さなければ聞き取れないというのは、Senstoneのみならず生身の人間との会話とも同じこと。機械に聞き取ってもらいやすいように話せば人にも聞き取られやすいはず。Senstoneに正しく認識されるような発音に努めれば滑舌よく、よどみの少ないスムーズな会話に繋がるかもしれない。

またこれは語学学習にも役立つだろう。現状ではいちいちディクテーション言語設定を変更しなければならないというのは手間ではあるが、自分が学習する言語に設定して、その言語でのみ音声メモを取るのは、言語学習にも有用だ。日本語で考えてそれを頭の中で翻訳してから発話する、のではなく、「学習する言語で考えて、発話する」という言語習得に欠かせないと共に日本での外国語学習で多くの場合欠けている要素を使うのにも適しているはずだ。

だが、スマートフォンで音声による文字入力がある程度実用的なレベルになってきた現在、もしかしたら似たようなアプリがすぐに出てくる可能性もある。それでもわざわざSenstoneを使う理由はあるだろうか?

サービスの面では、もしかしたらSenstoneに替わるものが将来的に登場する可能性は否めない。しかし、今のところ、音声を録音し、録音データも保存しつつ、音声を文字に起こすことのできるスマートフォンで使用可能なサービスは私は知らない。物理性の面では、ボタン一つで録音ができるという点はいくらスマホが便利になった昨今と言えども追い越せない部分だ。スマートフォンの万能化は、内蔵するデータの重要性やスマホそのものの価値を上げたことにより、パスワードや指紋などでロックすべきものと化した。ボタン長押しでカメラを起動することができたり、音声コマンドでアシスタントを起動することはできるが、「物理的なボタンを一押し」という、視覚情報にすら頼らずに済む単一の行動で、録音、文字起こし、クラウドにアップロード、の一連の流れができてしまう利便性を追い越す製品がすぐに出てくることは考えがたいだろう。

そのためここでも私はSenstoneを使う理由はあると断言しよう。

なお、最後に再度、私がテストしているのはベータ版であり、上記のレビューもベータ版での経験に基づくものであることを強調しておく。



PS: 前述したGreen Fundingの語る「AI搭載」とか「世界最小クラスのAIデバイス」に関しては、元々のKickstarterプロジェクトではきちんと「AI systems in the Cloud」と、クラウド上にAIシステムがあると記してあり、デバイスにAIを搭載しているわけではない。これは、音声を分析して録音時の気分を自動タグ付けする機能や、将来的に付加される予定である自動句読点機能やノイズ分析、イントネーション分析などと言ったものを指して「AI機能」といっているようだ。デバイス自体は録音し、スマホにデータを受け渡すだけのはずだ。委託を受け海外プロジェクトを日本で展開する会社は最近増えてきているようだが、プロジェクト情報の正しさはプロジェクト元の信頼性にも関わってくる。「ボイスアシスタント」という表記も現在ボイスアシスタントと呼ばれている製品に存在する「音声による検索、受け答え」機能がSenstoneについていないことからも紛らわしいし、株式会社GROWにはもう少し気をつけて頂きたいところだ。


Source: Kickstarter, Green Funding

(abcxyz)

コメント