じゆうちょう

自由帳です

「限界しりとり」の辞書を知る

f:id:timtom_qqq:20200527033514j:plain

※ 記事を書くにあたり「限界しりとり 辞書」で検索してみたところ、ショートカットに単語を登録する方法に関する記事がたくさん出てきますが、その辞書ではありません。ここでの辞書とはアプリが参照している辞書を指しています。

1. はじめに

しりとりのアプリでは大規模な辞書が用意されていて、あらかじめ登録されている単語は打ち込むことができ、登録されていない単語は打ち込むことができません。では、その辞書はどのように作られているのでしょうか?
 

2. しりとり辞書の作成手順

限界しりとりの辞書作成の手順は以下のようになっていると考えられます。

① 元となる大規模な辞書の準備

② しりとりに適切な辞書になるように整備

③ 定期的な単語の追加などのメンテナンス

① 大規模な辞書の準備

辞書は「mecab-ipadic-neologd」というものを使っていることがアプリから分かります。これは有名な辞書で、形態素解析(区切りなく書かれた文を品詞がついた単語に分割する処理)のために広く利用されています。
 
※ 専門的な話が理解できる方は、作成者による辞書の詳細や使い方の解説が上がっております。こちらをご覧ください。

② しりとりに適切な辞書になるように整備

上記の辞書の大きな特徴としては以下のことが挙げられます。
 
・単語の分割などの処理に用いるために作られているため、単語の網羅性が高い
・Web上のテキストデータを基にして定期的に自動更新が行われるため、新語や流行語に強い
 
新語や流行語に強いことはしりとりのアプリには適していると考えられます。しかし、網羅性を重視していること、自動で単語を追加しているということは、しりとり向けとしては余計な単語が登録されていることでもあります。
 
一般的に辞書を使用するようなサービスでそのまま上記の大規模辞書を用いることは少ないと思います。今回であればしりとりに対して適切な辞書になるように整備を行います。「ん」で終わるような単語の削除は当然ですが、公序良俗に反するようなNGワードの除外などを行う必要もあります。
 

③ 継続的な単語追加/削除などの辞書のメンテナンス

新語の追加については元となる辞書が週に2回も自動更新されています(実際に限界しりとりのアプリへの反映の頻度は不明)。さらにそのうえで、サービスとして(ここではQuizKnockとして)あった方が良いと考えられる単語を追加したり、登録されているけど不適切だと考えられる単語を削除したりなど、継続的に辞書のメンテナンスが行われます。
 
(QuizKnockさんのエンジニアの方々がよりよいアプリにするために辞書のメンテナンス作業を頑張ってる...はず。)
  

3. 辞書を観察する

実際に辞書をダウンロードして中身を見ていきます。

(辞書のダウンロードや検索の方法などはここでは触れません。)

 

地名の一部を見てみると以下のように登録されています

...

浜,1293,1293,9802,名詞,固有名詞,地域,一般,*,*,浜,ハマ,ハマ

樋之上,1293,1293,8676,名詞,固有名詞,地域,一般,*,*,樋之上,ヒノウエ,ヒノウエ

田原上,1293,1293,4231,名詞,固有名詞,地域,一般,*,*,田原上,タワラカミ,タワラカミ

東京,1293,1293,3003,名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー

...

このような単語の表記と品詞、読みの組が大量に登録されています。つまりしりとりのアプリでは、この後ろの読みの部分を抽出して、しりとり用に辞書を作成していることになります。総数は約六百万組ありましたので、限界しりとりで使われている辞書も数百万語程度の単語は最低でも登録されていると考えられます。

気になったので、「る8+」でよく使われている「ルイ〜世」 はどこからどこまで登録されているのかを見てみました。

・ルイキュウセイ(ルイ9世)

・ルイジュウサンセイ(ルイ13世)

・ルイジュウヨンセイ(ルイ14世)

・ルイジュウヨンセイノシ(ルイ14世の死)

・ルイジュウゴセイ(ルイ15世)

・ルイジュウロクセイ(ルイ16世)

・ルイジュウナナセイ(ルイ17世)

・ルイジュウハッセイ(ルイ18世)

9、13〜18世、そして「ルイ14世の死」が見つかりました。「ルイ14世の死」ってどんな世界史用語だよ..と思って調べたところ映画のようですね。思わぬところで勉強になりました。

www.moviola.jp

 

5. おわりに

本記事では限界しりとりに使用されている辞書の作成のされ方、実際に元となっている辞書について調べてみました。作成の手順については中の人ではないので確実ではないですが、一般的論に基づいて書いています。

  

気になるところや質問などあれば、気軽にどうぞ。 

それではまた!