- おもしろネタ
- ITガジェット
- 168
- 27
- 242
iPhoneの「Siri」やAmazonの「Alexa」など、人間の音声を機械に認識させる行為が広く浸透してきている。
音声入力の精度は年々上がっており、インタビューの文字起こしなどでも十分活用できるレベルになっているという声も聞く。……本当に?
そこで今回は、どのくらいの精度なのか調べるために、音声入力を使用して1週間、日記をつけてみることにした。
はたして、どのくらいの日数で思い通りに操れるようになるのか?
音声入力は私、らむ屋敷が行う。声は小さめだ。
今回は、私物のこの2台で検証を行う。
調べたところ、以下の2つの精度がいいらしいので、両方とも試してみたい。
Googleキーボードの略で、音声入力が標準搭載されているキーボードアプリだ。Android端末はこちらを使うことに。
アプリの設定画面を開き、
音声入力の使用をオンにする。
入力は、Android標準のメモアプリであるGoogle Keepで行う。
キーボードがGboardの仕様になった。「マイクのマーク」をタップすると音声入力が可能な状態に。
iPhone端末では、iPhone標準のキーボードに搭載されている音声入力機能を使う。
標準のメモアプリを開き、
左下の「マイクのマーク」をタップすると、下に波形が表示され、音声入力できる状態になる。ちなみに、機種によってはマイクマークは右下に表示される。
私は5年ほど前から、毎朝ミックスナッツを食べる習慣があるので、「ナッツ日記」のようなものを記していくことにした。
ナッツは「夏」、アーモンドは「あぁもう!」といったように、違う言葉として認識されてしまうのではないかと予想する。
同じ言葉でも、滑舌やテンポで結果が変わるかもしれないので、音声入力はiPhoneとAndroidで同時に行うことにした。
カシューナッツから食べます。理由は、一番食べやすいからです。ほどよく柔らかいし、甘みが感じられます。アーモンド、クルミ、ピスタチオの3種類はパサパサしているし甘さも好みではないので、あまり単体では食べないです。 |
「し」が「市」、「甘み」が「奄美」、「甘さ」が「重さ」という具合に細かい誤認識があった。
ただ、思っていたよりも正確に認識されている印象。初回にしては上々の出来に見える。
Androidよりも誤認識や入力漏れがあった。特に序盤が酷い。「油は1番正しいからです」って、己の不摂生な食事を省みない人みたいでカッコいいな……。
また、予想通り、カシューナッツという認識が難しそうなワードは「歌詞も夏」と誤認識した。
あと、なぜか最初の一文だけ句点(。)が入力された。録音したデータを聞き直したところ、該当の箇所で小さく「まぁ」と言ってしまっていたので、それが影響しているのかも。
句点や読点(、)、ビックリマーク、クエスチョンマークなどの入力方法を調べて明日、試してみたい。
句読点や各種記号を入力する方法を調べてみた。
思ってたよりも網羅されてる! 他にも入力できる記号があり、「改行」と発声すると改行できたりもする。Gboardは一部、変換されないものがあったが、私が見つけられなかった可能性もある。
よく使う読点(、)は、iPhoneなら「てん」だけで入力されるようだが、今回はAndroidと同時に話しかけるので、両端末に共通する「とうてん」を使っていきたい。
暑い暑い!夏が来た。昨日からかなり暑くなってきて、淹れたての熱いコーヒーを飲むのが少し辛い。昨日も今日と同じくカシューナッツから食べる。マカダミアナッツ、ピーカンナッツ、ヘーゼルナッツを一気に口に含む。なんだかんだコーヒーとよく合う。一呼吸おいてから、アーモンド、クルミ、ピスタチオを口に含む。美味しい。 |
冒頭は「暑い暑い」と漢字にしてほしかったが、「暑く」と「熱い」は正しい漢字で変換されているのが何気にすごい。でも「なんだかんだ」は藤井隆になった。
「ビックリマーク」と発声したら、本当に「!」として認識された。でも読点が途中から「と10(テン)」に、そして句点(。)がそのまま「まる」と変換されてしまっている。これはよくない。
ナッツ名を無駄に多く言って混乱させようとしたが、ハキハキとしゃべるように心がけたおかげなのか、すべて正しく認識された。
ちなみに最終行の「。」が抜けているが、これは単純に言い忘れてしまったので自分のせいだ。
「今日と」→「京都」、「マカダミア」→「若田宮」と誤認識されたが、昨日と比べて良くなった気がする。
iPhoneも文頭のビックリマークは完璧(ただし半角)。Androidが誤認識してしまった「と10(テン)」なども正しく読点として認識できている。漢字/ひらがなは好みの問題もあるのでどちらでもよしとする。
3日目にして少し面倒になってきた。日記を毎日書いてる人、偉すぎる。
ふと思ったが、どうせなら「毎日ナッツ」ではなく「毎日スイーツ」にして、マリトッツォとかのスイーツを食べられるワクワクする企画にするべきだった。
今日も気温が高い。ミックスナッツはカシューナッツとアーモンドを軸に毎日全種類をおよそ1個ずつ食べてる。今日は、カシューナッツ、アーモンド、マカダミアナッツ、クルミ、カシューナッツ、ピーカンナッツ、アーモンド、ヘーゼルナッツ、ピスタチオの順番で食べた。体調のせいか、はたまたコーヒーの温度が原因かわからないが、今日はアーモンド、クルミなどの口の中がパサパサしがちなナッツを美味しく食べれた。 |
読点(、)は昨日と比べて修正できたが、句点が「。」に変換されずにそのまま残ってしまっている。
また、「ナッツ」→「夏」と、これまでAndroidで出ることがなかったナッツのミスが初めて出てしまった。
iPhoneでは句読点を完璧に操ることができた。たたみかけるようにナッツの名称を言っても、ほとんど正しく認識された。他の誤認識も1箇所だけ。
最後は発声までの間が空きすぎてしまったせいか、音声入力がそこで強制終了してしまった。
この日は朝からマリトッツォを調べていたが、どうやらセブンイレブンに「どらやきマリトッツォ」という商品があるらしい。最高に美味しそう。
マリトッツォを想いながら、真顔でナッツをほおばった。
今日はこの後所用ですぐ家を出ないといけないので、ゆっくり食べている時間がない。起きてからあまり時間が経っていないので食欲がないしコーヒーを用意する時間もなかったので、水で流し込む。カシューナッツ、アーモンド、マカダミアナッツ、クルミ、ピーカンナッツ、ヘーゼルナッツ、ピスタチオの順番で食べた。 |
昨日よりも話すテンポをゆっくりにして、一文一文を丁寧に区切るようなイメージで発声してみた。その効果が出たのか、これまでAndroidで苦戦していた句読点問題が大幅に改善どころか、完璧になってしまった。
唯一の誤認識は「クルミ」の箇所。昨日は「半」と認識されたが今日は「句」になった。なぜ漢字1文字なんだ……。
唯一の誤認識は1文字だけ。昨日は「マカダミアン」で、今日は「マカデミア」。iPhoneって、もしかしてマカダミアナッツが辞書に入ってない?
Android同様にほぼ完璧に近い結果になった。4日目にして、ほぼ意のままに操れるようになったと言えるのではないか……?
起きてすぐ、マリトッツォのことを考えた。相当食べたくなっている。
音声入力をかなり使いこなせるようになってきたので、5日目の今日は難度を上げてみたい。
ということで、唐突に「論語」の一節を読み上げてみた。
吾(われ)十有五(じゅうゆうご)にして学に志(こころざ)す。三十にして立つ。四十(しじゅう)にして惑わず。五十にして天命を知る。六十にして耳順(したが)う。七十にして心の欲する所に従(したが)いて、矩(のり)を踰(こ)えず。 |
なぜか「四十」の箇所だけアラビア数字で気持ち悪いが、ほぼ完璧に認識。すごい……。
「矩(のり)を踰(こ)えず」という一文、「超えず」や「越えず」といったよく使われそうな漢字ではなく「踰えず」を選択したということは、この一文を明らかにGboardが知っていたということだろう。恐るべし。
iPhoneは数字をすべてアラビア数字で返してきたが、明らかな誤認識は「従えいて」だけ。「越えず」と「耳従う」は漢字が異なるものの読めないことはない。
もしかしたら有名な文章などは、AIか何かに学習させているのかもしれない。
論語も、ほぼイケる。
ここ数日間、ずっと晴れている。
真ん中の雲がマリトッツォに見えてきた。
子曰く、これを知る者はこれを好む者に如(し)かず。これを好む者はこれを楽しむ者に如かず。どんなに知識がある人よりもそれを好きでやっている人には敵わないという意味の論語の一節だ。私は毎朝ミックスナッツを食べる生活を数年間続けているが、別にミックスナッツは全く好きではないし、むしろ嫌い。本当はパンとかご飯とかもりもり食べたい。ナッツそのものよりもリズムというか、朝にナッツを食べるという行為そのものが好きなんだろうなぁ。 |
部分的に少しだけ相違があるが、ほぼ完璧。
iPhoneは1箇所脱字が気になるが、ほとんど問題なし。
「もの」「しかず」「かなわない」がひらがなになっているが、2日目では「美味しい」→「おいしい」だったので、iPhoneは「やさしい文章」を心がけているような気もしてきた。
論語の一節の直後に現代の日記的な内容を話しても、問題なく認識する。
最終日。
「別に、マリトッツォを我慢する記事じゃないよな」と急に我に返り、普通に買って食べた。ここ数日の我慢は一体なんだったんだ……。
音声入力の凄さは十分に分かったので、今日はさらに難度を上げてみることにした。
子曰く、ナッツナッツナッツ、カシューナッツ、吾(われ)十有五(じゅうゆうご)にして学に志(こころざ)す。三十にして立つ。四十にして惑わず。ヘーゼルナッツ。五十にして天命を知る。ピスタチオ。六十にして耳順(したが)う。アーモンド。七十にして心の欲する所に従(したが)いて、矩(のり)を踰(こ)えず。 |
すごい! 「40」だけアラビア数字なのは相変わらずだけど、ほぼ完璧!!
5日目の結果と同様、Androidでは文章を正しく論語の一節として認識していることがわかる。
論語部分は、5日目とまったく同じ結果。ナッツ部分は完璧。
子曰く、論語の一節の途中にナッツの話を入れても惑わず。
かなり衝撃を受けた。想像よりも精度が高かった。
今回は「どのくらいの日数で思い通りに操れるようになれるか」という検証だったが、結論としては、4日目(4回目)だった。
少し間違えてはいるものの、自分で入力する際も打ち間違えて、消して、打ち直してといった動作を繰り返しているので、むしろ音声入力のほうが優秀なんじゃないかとさえ思えてきた。インタビューの文字起こしでも間違いなく活用できそう。
ただ、誤認識されたときに修正するのが面倒だし、手入力の方が直感的に入力できて「謎の安心感」があるから、音声入力の導入はまだ様子見でいいかなとも思う。
では、音声入力でこの記事を締めくくります。
(編集:ノオト )
自分的には、生身の人間以外に話しかける事に、どうも照れの様なものを感じ、スマートスピーカー等も苦手です。
その内、テレパシー入力を期待します。
お疲れさまでした☆
どら焼きマリトッツォ食べた〜い
1日目の日記の文章だけ、自分でもやってみました。誤変換が無かったのは、なんでだろう…
音声入力は文脈も考慮されているようです
試す人(GoogleやAppleに送信)が増えると、精度が上がっていくので色々と試したいと思います
ドラえもん・骨川スネ夫・剛田武・源静香は正しく入力できるのに、野比のび太は「のびのびた」でした〜
>> mikeKing さん
ATOKのままでも音声入力は出来ますよ。 ATOKのキーボード入力画面の歯車マークをタップしてGoogle音声入力を選ぶと音声入力出来ます。gboadでも音声入力に切り替えるので同じ事かと>> mikeKing さん
ATOKのままでも音声入力は出来ますよ。 ATOKのキーボード入力画面の歯車マークをタップしてGoogle音声入力を選ぶと音声入力出来ます。gboadでも音声入力に切り替えるので同じ事かといろいろと精度が上がってるんだな。ハイテク。と感じました。
なかなか、うまくいかず苦労しています。
できるようになれば、短時間でできるようになるだろうけど
今は 修正時間が長くかかります。
早速やってみよっと思った
音声入力一度も試したこと無いわ
Googleに話しかけるのは恥ずかしいからレベル高し(笑)
いつもありがとうございます。
>> nru-10 さん
ViaVoice!懐かしい〜。当時と比べると、正に隔世の感がありますね〜。私はANDROID(個人用)とiPhone(会社用)の2種類を使い分けていますが、音声を使用する場合は、ANDROIDでは「Edivoice」というアプリが使いやすいと思います。
ちなみにiPhoneの音声アプリは優秀で会社のメールはすべて音声入力で送信・返信をしております。
また、iPhoneは音声しりとりがオススメです。
このコメントも音声入力で使ってます
音声入力の技術が進歩しているのですね、ここまで精度が高くなっているとはすごいです。
7日目の「六十にして耳順う」、凄いですね(゜Д゜)
携帯を使いこなせてなくて・・・
挑戦してみます
これからも身近な企画をよろしくお願いします!
やっぱり人間はなんとなく意味が通るように読み換えてしまうから、見つけられないところが出てしまうのかな
手を怪我してしまった場合などでも、かなり使えそうですね。
検証、お疲れ様でした!
依然、たった一言。電卓! と音声入力したら
最後まで 頑なに(円卓)と 変換され
負けました爆笑😂
文字入力してる時やネットサーフィンしてる時に誤ってSiriを起動して「よくわかりません」と言われイラッとしたり…
今回の検証、とてもおもしろかったし、大変参考になりました。
仕事で『手先が不自由だけどPCを触りたい』いう方と接する機会があり、この検証結果をお伝えしたいと思います。その方の社会参加の第一歩になればと思いました。
ありがとうございました♪♪
iPhoneのメモで音声認証 出来るの知りませんでした。
実際に私も検証してみたいと思います!