スタッフブログ
【iPhone・Android】音声入力で1週間日記をつけてみたら、精度の高さに圧倒された

【iPhone・Android】音声入力で1週間日記をつけてみたら、精度の高さに圧倒された

らむ屋敷
ライター: らむ屋敷
元営業マンのWebライター。将棋、サッカー、ランニングが好き。

iPhoneの「Siri」やAmazonの「Alexa」など、人間の音声を機械に認識させる行為が広く浸透してきている。

音声入力の精度は年々上がっており、インタビューの文字起こしなどでも十分活用できるレベルになっているという声も聞く。……本当に?

そこで今回は、どのくらいの精度なのか調べるために、音声入力を使用して1週間、日記をつけてみることにした。

はたして、どのくらいの日数で思い通りに操れるようになるのか?

検証方法

音声入力は私、らむ屋敷が行う。声は小さめだ。

▲Galaxy A8(Android)とiPhone 6

今回は、私物のこの2台で検証を行う。

調べたところ、以下の2つの精度がいいらしいので、両方とも試してみたい。

1. Androidアプリ「Gboard」

Googleキーボードの略で、音声入力が標準搭載されているキーボードアプリだ。Android端末はこちらを使うことに。

アプリの設定画面を開き、

音声入力の使用をオンにする。

入力は、Android標準のメモアプリであるGoogle Keepで行う。

キーボードがGboardの仕様になった。「マイクのマーク」をタップすると音声入力が可能な状態に。

2. iPhone標準の音声入力機能

iPhone端末では、iPhone標準のキーボードに搭載されている音声入力機能を使う。

標準のメモアプリを開き、

左下の「マイクのマーク」をタップすると、下に波形が表示され、音声入力できる状態になる。ちなみに、機種によってはマイクマークは右下に表示される。

1日目の日記

私は5年ほど前から、毎朝ミックスナッツを食べる習慣があるので、「ナッツ日記」のようなものを記していくことにした。

ナッツは「夏」、アーモンドは「あぁもう!」といったように、違う言葉として認識されてしまうのではないかと予想する。

同じ言葉でも、滑舌やテンポで結果が変わるかもしれないので、音声入力はiPhoneとAndroidで同時に行うことにした。

発声した内容

カシューナッツから食べます。理由は、一番食べやすいからです。ほどよく柔らかいし、甘みが感じられます。アーモンド、クルミ、ピスタチオの3種類はパサパサしているし甘さも好みではないので、あまり単体では食べないです。

初日は様子見で、短い文節で構成された日記にした。句読点や漢字、ひらがな、カタカナはそれぞれ「こう入力してくれるとうれしい」という理想の形。

では、入力結果を見ていこう。

Gboardの入力結果

「し」が「市」、「甘み」が「奄美」、「甘さ」が「重さ」という具合に細かい誤認識があった。

ただ、思っていたよりも正確に認識されている印象。初回にしては上々の出来に見える。

iPhone標準キーボードの入力結果

Androidよりも誤認識や入力漏れがあった。特に序盤が酷い。「油は1番正しいからです」って、己の不摂生な食事を省みない人みたいでカッコいいな……。

また、予想通り、カシューナッツという認識が難しそうなワードは「歌詞も夏」と誤認識した。

あと、なぜか最初の一文だけ句点(。)が入力された。録音したデータを聞き直したところ、該当の箇所で小さく「まぁ」と言ってしまっていたので、それが影響しているのかも。

句点や読点(、)、ビックリマーク、クエスチョンマークなどの入力方法を調べて明日、試してみたい。

1日目まとめ

  • 誤認識は自分の話し方にも問題がありそう
  • 途中で「あぁ」や「ええーっと」などのまぎらわしい発声を控える
  • ナッツを食べながら話してしまったので、“ながら入力”をやめてハキハキと話すよう心がける

2日目の日記

句読点や各種記号を入力する方法を調べてみた。

思ってたよりも網羅されてる! 他にも入力できる記号があり、「改行」と発声すると改行できたりもする。Gboardは一部、変換されないものがあったが、私が見つけられなかった可能性もある。

よく使う読点(、)は、iPhoneなら「てん」だけで入力されるようだが、今回はAndroidと同時に話しかけるので、両端末に共通する「とうてん」を使っていきたい。

発声した内容

暑い暑い!夏が来た。昨日からかなり暑くなってきて、淹れたての熱いコーヒーを飲むのが少し辛い。昨日も今日と同じくカシューナッツから食べる。マカダミアナッツ、ピーカンナッツ、ヘーゼルナッツを一気に口に含む。なんだかんだコーヒーとよく合う。一呼吸おいてから、アーモンド、クルミ、ピスタチオを口に含む。美味しい。
※公開は秋になりましたが夏に検証しました

Gboardの入力結果

冒頭は「暑い暑い」と漢字にしてほしかったが、「暑く」と「熱い」は正しい漢字で変換されているのが何気にすごい。でも「なんだかんだ」は藤井隆になった。

「ビックリマーク」と発声したら、本当に「!」として認識された。でも読点が途中から「と10(テン)」に、そして句点(。)がそのまま「まる」と変換されてしまっている。これはよくない。

ナッツ名を無駄に多く言って混乱させようとしたが、ハキハキとしゃべるように心がけたおかげなのか、すべて正しく認識された。

ちなみに最終行の「。」が抜けているが、これは単純に言い忘れてしまったので自分のせいだ。

iPhone標準キーボードの入力結果

「今日と」→「京都」、「マカダミア」→「若田宮」と誤認識されたが、昨日と比べて良くなった気がする。

iPhoneも文頭のビックリマークは完璧(ただし半角)。Androidが誤認識してしまった「と10(テン)」なども正しく読点として認識できている。漢字/ひらがなは好みの問題もあるのでどちらでもよしとする。

2日目まとめ

  • 句読点やビックリマークも音声入力できた
  • ただ、Androidは後半で句読点が認識されなくなった
  • 無意識に発声のスピードが徐々に上がってしまったのが誤認識の原因かもしれないので、もう少しゆっくり発声することを心がけたい

3日目の日記

3日目にして少し面倒になってきた。日記を毎日書いてる人、偉すぎる。

ふと思ったが、どうせなら「毎日ナッツ」ではなく「毎日スイーツ」にして、マリトッツォとかのスイーツを食べられるワクワクする企画にするべきだった。

発声した内容

今日も気温が高い。ミックスナッツはカシューナッツとアーモンドを軸に毎日全種類をおよそ1個ずつ食べてる。今日は、カシューナッツ、アーモンド、マカダミアナッツ、クルミ、カシューナッツ、ピーカンナッツ、アーモンド、ヘーゼルナッツ、ピスタチオの順番で食べた。体調のせいか、はたまたコーヒーの温度が原因かわからないが、今日はアーモンド、クルミなどの口の中がパサパサしがちなナッツを美味しく食べれた。

Gboardの入力結果

読点(、)は昨日と比べて修正できたが、句点が「。」に変換されずにそのまま残ってしまっている。

また、「ナッツ」→「夏」と、これまでAndroidで出ることがなかったナッツのミスが初めて出てしまった。

iPhone標準キーボードの入力結果

iPhoneでは句読点を完璧に操ることができた。たたみかけるようにナッツの名称を言っても、ほとんど正しく認識された。他の誤認識も1箇所だけ。

最後は発声までの間が空きすぎてしまったせいか、音声入力がそこで強制終了してしまった。

3日目まとめ

  • 句読点の入力は、AndroidよりもiPhoneの方が精度が高い
  • Androidでは、発声のテンポを意識的にゆっくりにしたほうがよさそう
  • たたみかけるようにナッツの名称を言っても、音声入力が大きく崩れることがない
  • 間が空きすぎると入力(音声の聞き取り?)が強制終了してしまう

4日目の日記

この日は朝からマリトッツォを調べていたが、どうやらセブンイレブンに「どらやきマリトッツォ」という商品があるらしい。最高に美味しそう。

マリトッツォを想いながら、真顔でナッツをほおばった。

発声した内容

今日はこの後所用ですぐ家を出ないといけないので、ゆっくり食べている時間がない。起きてからあまり時間が経っていないので食欲がないしコーヒーを用意する時間もなかったので、水で流し込む。カシューナッツ、アーモンド、マカダミアナッツ、クルミ、ピーカンナッツ、ヘーゼルナッツ、ピスタチオの順番で食べた。

Gboardの入力結果

昨日よりも話すテンポをゆっくりにして、一文一文を丁寧に区切るようなイメージで発声してみた。その効果が出たのか、これまでAndroidで苦戦していた句読点問題が大幅に改善どころか、完璧になってしまった。

唯一の誤認識は「クルミ」の箇所。昨日は「半」と認識されたが今日は「句」になった。なぜ漢字1文字なんだ……。

iPhone標準キーボードの入力結果

唯一の誤認識は1文字だけ。昨日は「マカダミアン」で、今日は「マカデミア」。iPhoneって、もしかしてマカダミアナッツが辞書に入ってない?

Android同様にほぼ完璧に近い結果になった。4日目にして、ほぼ意のままに操れるようになったと言えるのではないか……?

4日目まとめ

  • 一文一文を丁寧に区切るように、ゆっくりなテンポで話すとAndroidの句読点の認識率が大幅に改善した
  • 4日目にして、Android、iPhone両端末ともほぼ完璧な音声入力ができた
  • 2日連続で同じ単語を誤認識したので、苦手な単語類が存在するのかもしれない

5日目の日記

起きてすぐ、マリトッツォのことを考えた。相当食べたくなっている。

音声入力をかなり使いこなせるようになってきたので、5日目の今日は難度を上げてみたい。

ということで、唐突に「論語」の一節を読み上げてみた。

発声した内容

(われ)十有五(じゅうゆうご)にして学に志(こころざ)す。三十にして立つ。四十(しじゅう)にして惑わず。五十にして天命を知る。六十にして耳順(したが)う。七十にして心の欲する所に従(したが)いて、矩(のり)を踰(こ)えず。

Gboardの入力結果

なぜか「四十」の箇所だけアラビア数字で気持ち悪いが、ほぼ完璧に認識。すごい……。

「矩(のり)を踰(こ)えず」という一文、「超えず」や「越えず」といったよく使われそうな漢字ではなく「踰えず」を選択したということは、この一文を明らかにGboardが知っていたということだろう。恐るべし。

iPhone標準キーボードの入力結果

iPhoneは数字をすべてアラビア数字で返してきたが、明らかな誤認識は「従えいて」だけ。「越えず」と「耳従う」は漢字が異なるものの読めないことはない。

もしかしたら有名な文章などは、AIか何かに学習させているのかもしれない。

5日目まとめ

論語も、ほぼイケる。

6日目の日記

ここ数日間、ずっと晴れている。

真ん中の雲がマリトッツォに見えてきた。

発声した内容

子曰く、これを知る者はこれを好む者に如(し)かず。これを好む者はこれを楽しむ者に如かず。どんなに知識がある人よりもそれを好きでやっている人には敵わないという意味の論語の一節だ。私は毎朝ミックスナッツを食べる生活を数年間続けているが、別にミックスナッツは全く好きではないし、むしろ嫌い。本当はパンとかご飯とかもりもり食べたい。ナッツそのものよりもリズムというか、朝にナッツを食べるという行為そのものが好きなんだろうなぁ。

昨日とはまた違う論語の一節を読んだ直後にナッツの話をし、音声入力機能を惑わす作戦にした。

Gboardの入力結果

部分的に少しだけ相違があるが、ほぼ完璧。

iPhone標準キーボードの入力結果

iPhoneは1箇所脱字が気になるが、ほとんど問題なし。

「もの」「しかず」「かなわない」がひらがなになっているが、2日目では「美味しい」→「おいしい」だったので、iPhoneは「やさしい文章」を心がけているような気もしてきた。

6日目まとめ

論語の一節の直後に現代の日記的な内容を話しても、問題なく認識する。

7日目の日記

最終日。

「別に、マリトッツォを我慢する記事じゃないよな」と急に我に返り、普通に買って食べた。ここ数日の我慢は一体なんだったんだ……。

音声入力の凄さは十分に分かったので、今日はさらに難度を上げてみることにした。

発声した内容

子曰く、ナッツナッツナッツ、カシューナッツ、吾(われ)十有五(じゅうゆうご)にして学に志(こころざ)す。三十にして立つ。四十にして惑わず。ヘーゼルナッツ。五十にして天命を知る。ピスタチオ。六十にして耳順(したが)う。アーモンド。七十にして心の欲する所に従(したが)いて、矩(のり)を踰(こ)えず。


5日目と6日目の難しそうな部分をミックスして、論語の一節の途中にナッツの名前を無理やり挿入。

もし音声入力機能が「有名な文章を丸ごと暗記しているような仕組み」であれば、途中でナッツの名前が入ることで混乱が起きてしまうかもしれない。

果たしてどうなるか?

Gboardの入力結果

すごい! 「40」だけアラビア数字なのは相変わらずだけど、ほぼ完璧!!

5日目の結果と同様、Androidでは文章を正しく論語の一節として認識していることがわかる。

iPhone標準キーボードの入力結果

論語部分は、5日目とまったく同じ結果。ナッツ部分は完璧。

7日目まとめ

子曰く、論語の一節の途中にナッツの話を入れても惑わず。

1週間、音声入力日記をつけてみて

かなり衝撃を受けた。想像よりも精度が高かった。

今回は「どのくらいの日数で思い通りに操れるようになれるか」という検証だったが、結論としては、4日目(4回目)だった。

▲4日目の結果

少し間違えてはいるものの、自分で入力する際も打ち間違えて、消して、打ち直してといった動作を繰り返しているので、むしろ音声入力のほうが優秀なんじゃないかとさえ思えてきた。インタビューの文字起こしでも間違いなく活用できそう。

ただ、誤認識されたときに修正するのが面倒だし、手入力の方が直感的に入力できて「謎の安心感」があるから、音声入力の導入はまだ様子見でいいかなとも思う。

では、音声入力でこの記事を締めくくります。

画像

(編集:ノオト



おすすめ記事


267 件のコメント
68 - 117 / 267
毎日、日記は書いています。
音声入力であれば楽になるかも!
でも漢字書けなくなりそう😅
音声入力凄い。論語もいけるなんてビックリ。それをやろうと考えたmineoスタッフに拍手👏
音声入力でやってみたらこんな風になりました面白い記事をありがとうございました

>> hiroaou さん

辛い反応Simejiでやってみてるんですけども結構うまくいったと思いますとてもやりたい反応し水で打ってます
---
これ、iPhoneのSimejiで…思います。
とても上手くいったと思います。
最初の方が上手く行きました⁉️
もうはやくマリトッツォ食べて…笑
1週間、お疲れ様でした。4日めでほぼ音声入力完了する程とは驚きです。音声入力は脳の活性化にもなるから良いですね。最終日の論語……😂スタッフさんに感服!
たいへん興味深いお話でした。インフル予防接種の待ち時間を楽しく過ごせました。ありがとうございました!
「来るぞ、来るぞー!!!」って思ってた“マリトッツオ”の写真が見えた時は、思わず“ニヤリ”としてしまいました😁
「やっぱり、来たー!」って感じでした!
すごくスッキリしました!
次回も楽しみにしていまーす!!(≧∀≦)
興味深い記事をありがとうございます。
今まで音声入力は試したことがなかったのですが、意外にいけるのですね?
それにしても、「どらやきマリトッツォ」は美味しそうです。
検証お疲れさまです。初日のiPhoneの「油は一番正しい」で声出して笑ってしまいました😄また面白い検証お願いします🙋
世の中進化してるんですなあ。
勉強になりました。
ちなみに日記は基本的に単語の羅列にしています。(^^ゞ
凄いですね。勉強になりました。いい検証です。素晴らしいと思います。
Googleの音声認識はいい感じと思っています
興味深い内容!検証お疲れ様でした
Pixel 6シリーズにプリインストールされているレコーダーアプリがついに「日本語の文字起こしに対応し、加えて、機内モード(オフライン)状態でも文字を起こせるようになった」というからには、追加で検証していただきたいですね。
根気の要る実験と詳細な報告、ありがとうございましたーーーーっ🙋
進化してますね。昔買ったVALUESTAR NXにプレインストールされてた音声認識ソフト(名前失念)は全部漢字だらけの中国語みたいな認識しかされませんでしたからねぇ。
何事もやってみるべきですね。
数年前に検索を何度かチャレンジしてみましたが、まともに認識してくれず封印しました!

多少発展したかと思いきや
まだそんなレベルなんですね。

今後もスルーすると思います。

何これ.jpg

らむ屋敷さま
根気のいる長期間の検証本当にお疲れさまでした~~!!
大変参考になりました~~!!
私も最近は少し長いものは手入力する前に音声認識を使用するようになりました~~!!
Googleの音声入力は昔に比べて、正確性が格段に上がったと思います~~!!
これからも、もっと身近な道具としてもっと活用できるようになることを期待したいと思います~~!!

mineoゆずるね!上海支部長(自称)ひしぼんより!!
スマホの音声入力機能もすこいですね。

でも、テレビで見たアイフライテックの製品はもっとすごかった。 専用機との差は、仕方がないと思います。
実は音声入力でほぼ100%認識してくれないのは…
マイネオ なんですねー。マイネ王の際よく使います。
米ネオとなるので修正が非常に面倒です。手入力の時には単語登録していると簡単なんですが。

AIに覚えてもらえるぐらい、頑張ってくださいね〜(^_-)-☆
音声入力の技術ってすばらしいですよね!
顔文字とかいろんな特殊文字が自分で入力できるの楽しいかもね♪
(これも音声入力で入力してみました笑)
楽しい実験ですね。
音声でもボードでも間違えれば修正しないといけないので、
音声の方がキーを打つ手間がいらない分、楽チンコですね。

   / ̄ ̄ ̄ ̄\
 ``/  _   _ \
 /     (へ) (へ)  |
 |       (_人_)  |
/     ∩ノ⊃ /
|     \/_ノ´| |
\    /___ノ |
  \ /______ノ
退会済みメンバー
退会済みメンバーさん
ビギナー
まったくミスがなくなるのは何年後だろう。そのころには翻訳とかもバッチリになりそうですね。
おもしろそう!
1人の時に試してみます。
面白い企画ですね。
バイタルデータも同時に登録できると良いですね。
大変勉強になりました🤗
面白かったです(笑)!ひとりでしゃべるのが恥ずかしくてあまり音声入力使いませんが、試す価値ありだなあと思いました。
落ち込んでいる日記呟いても、誤字入力見たら気持ちが晴れそうですね!
面白いと思いました!
音声認識は何語が一番難しいんだろう(笑)
音声入力すごいびっくり、はぁー本当にちゃんと入るんですね。音声入力をコメントで試してみました。これからどんどん使っていきたいと思います。
音声認識は何語が一番難しいんだろう(笑)
SNSする人は投稿の速度も速くなって便利に使えそうですね。
音声入力を便利に使っているようで、逆に話し手が教育されている感じがしますねー。
気兼ねなく普通に話して正しいニュアンスで入力されるまであと何年だろう?
Googleさんは個人情報収集に余念がないから10年もしないうちに実現しそう。
退会済みメンバー
退会済みメンバーさん
ビギナー
読んでるうちに、カシューナッツやマカダミアナッツが食べたくなりました。

Gboardは、google 翻訳アプリに英語で話し掛けて自分の英語発音のチェックに利用していました。今回の記事を見たら、予想以上に日本語認識精度が高くて、普段の日本語メールや文章作成にも利用出来ますね。
一部、懐メロが入っていますが🤣ナッツなだけに。
ViaVoiceあたりで徐々に個人用途が出始まったと思う音声認識ですが、今は実用に耐えるレベルになりつつありますね。HAL9000並みでしょうか😅そこまで行くと怖い。
大変参考になります。ありがとうございました。
情報ありがとうございます。
退会済みメンバー
退会済みメンバーさん
ビギナー
改めて技術の進歩に驚きました!
スタッフさん検証お疲れ様でした。
音声入力の正確さに驚きました。
技術の進歩も凄いですね。
検証お疲れ様でした。
こーゆーくだらないけど為になるやつ好き
さいきんの音声認識のレベルってすごいですね!私はしゃべるより文字打ち込む方が好きだけど
アンドロイドとiPhoneでの検証面白かったです。最近iPad用のキーボードが壊れてしまい音声入力に挑戦しているところです。記号の打ち方も参考になりました。ありがとうございます。
検証お疲れさまでした。興味深く拝見しました。
音声認識技術はそこそこ使えるレベルになっていますね。
ただ、半角にしたり全角にしたり記号を入れたりとすると
キー入力との併用となりまだまだ煩雑ですね。
また、入力内容を最初から確認しなおし修正が必要となると
最初からキー入力を行うほうが楽に思えます。
両手が塞がっていたり外でひたすら音声入力でメモをし、
後で校正すれば良いかな。
音声入力が活躍する場面のアイデアが欲しいですね。
おもしろい😆私も音声日記つけようかな。
面白かったです。
コメントするには、ログインまたはメンバー登録(無料)が必要です。