ATOKの辞書を理解する

ATOKの辞書を理解する

IMEにはシステム辞書とユーザ辞書があるというのはたいてい誰でも知っていると思うが、ATOKの場合はもっと複雑である。
ATOKを使いこなすには辞書の運用についての知識があった方がいいので、ここに少しまとめる。

ATOK辞書の種類と特徴

ATOKの辞書群は、種類としては把握している限り4種類、あるいは5種類ある。
分類が定義されているようなものではないので、あくまでそれくらいあるという推測である。

一つはシステム辞書である。これは、いわゆるアプリケーションの側で最初から用意されている辞書で、ATOKの場合、ATOKのシステムがインストールされるフォルダに置かれている。かつては、この辞書も登録されている単語がどのようなものなのか閲覧できたり修正できたりしたのだが、ある時点からそれが出来なくなった。
システム辞書には、ATOKの変換の中心となる標準辞書の他、人名辞書や郵便番号辞書、単漢字辞書などがある。さらには、トレンド辞書、人文科学用語辞書、法律経済用語辞書、理工学用語辞書、町名住所変換辞書、などもこのシステム辞書の類であろうと思うが、記号辞書や文字コード辞書などもあって、ここに分類して良い物なのかは決めかねる。

二つ目は、オプション辞書とでも言うべき物で、プレミアム以上のATOK製品に付属している市販辞書のATOK用のもの、ジーニアス和英辞典の辞書だとか、四字熟語変換辞書、乗り換え案内駅名変換辞書、のようなものである。別売り(していないものも多い)辞書、のようなイメージのもので、これらもユーザが勝手に操作できない辞書であるので、システム辞書に近い性格のものである。
はてなキーワード変換辞書など、ATOKクラウドサービスに伴う辞書などもある。

三つ目は標準のユーザ辞書である。これは、後述する辞書セット毎に一つ作成されるもので、学習情報が自動的に登録されたり、ユーザが任意の単語を登録したりできる辞書である。さらにこのユーザ辞書には、二つの単語を関連付けて変換に応用させるための用例(AI用例)も登録されるようである。他のIMEでは基本となる標準辞書と、単語登録が出来るユーザ辞書の2つのみで構成されるが、そのユーザ辞書に相当するものである。
ユーザ辞書は、辞書ユーティリティで内容を閲覧し、単語の追加・削除、修正など自由に編集することができる。ユーティリティでは、他に単語や用例の一覧を出力したり、所定の形式のものをインポートしたりもできる。古い形式の辞書を変換したり、他の辞書の用語を統合したりも出来る。

四つ目は、ユーザが作成する辞書である。三つ目のユーザ辞書はシステムに標準で備えられている学習領域のようなものであるが、この四つ目の分類のユーザ作成辞書は、辞書自体の作成を任意に行えるという点での違いがある。システム辞書に対するオプション辞書のようなもので、特によく使う分野の用語を集めて特定の辞書として作成するような場合に有用である。これもユーザ辞書の形態であるので、単語や用例などを登録できて、辞書ユーティリティで自由に編集できる。

もう一つ、これも辞書に分類すべきか難しいが、省入力データというものがある。推測変換の候補として表示させることができる一連のデータ群で、概ね上記の辞書と同様にユーザが辞書ユーティリティを使って任意に用語を追加したり削除したりと言った編集が出来る。一覧の出力やインポートなども出来る。

辞書データファイルの拡張子は.dicであるが、省入力データは.darとなっていて、保存される場所も異なっている。一つ目と二つ目の分類の辞書はシステムで共通なので、ATOKがインストールされるプログラムのディレクトリ配下に置かれ、三つ目以降の分類の辞書については、ユーザのプロファイルフォルダ配下に置かれることになる。

辞書セットの考え方

四つの種類の各辞書は、複数まとめて辞書セットを作成することができて、それぞれのセット毎に変換操作ができるようになっている。辞書セットは最大10セットであるが、通常は5セットでの運用が想定されて、初期値として五つのセットが登録されている。最近のATOKでは六つ目もセットされている。
通常、辞書セット2~5は[F2]~[F5]キーに変換操作が割り当てられている。辞書セット6は、[Shift]+[F6]であるが、辞書セット7~10には初期値ではキー操作は割り当てられていない。辞書セット1は[Space]や[変換]キーでの通常の変換操作となる。辞書セット1に代えて一つを基本辞書セットに指定すると、標準の変換操作で変換が出来るようになるが、標準的には辞書セット1が基本となる。
辞書セット1には、標準辞書が設定されるが、このほか自分で標準的に変換に用いたい辞書をATOKのプロパティから設定する。辞書セット1のユーザ辞書は自動的に設定されるので、特に変更する操作は必要がないと思うが、辞書設定から他の作成辞書をユーザ辞書に指定することも可能である。

辞書セット2は、標準辞書に加えて人名辞書、単漢字など。辞書セット3は、郵便番号や住所変換があり、辞書セット4はカタカナ語英語や記号辞書などアクセサリ辞書セットとなっている。辞書セット5は、オプション辞書セットで、ATOKクラウドサービスのはてなキーワード辞書などが組み込まれているようだ。さらに最近では辞書セット6も設定されていて、部首変換や文字コード辞書などがセットされている。

これら辞書セットには、ユーザが任意でその他の辞書も組み込めるようになっているので、通常の変換操作で変換したい辞書については辞書セット1に組み込むようにすると良い。

辞書の種類と合わせて、これほどまでに複雑になっているIMEは他に無い。Google日本語入力もMS-IMEも辞書に関しては構成は単純である。

単語登録

辞書の運用と言って、真っ先に思いつくのはやはり単語登録で、これをどうやってやるかが変換効率の向上に大きく関わっている。今は標準の辞書やその他変換に関わるAI機能が向上して、必ずしもユーザ辞書への単語登録が必須ではなくなって来ている面もあるが、今なお単語登録は普通の変換では変換しにくい単語を変換させる有効な手段であることには変わりはない。

ATOKの単語登録は、文章入力の作業中にすぐにできるようショートカットが用意されていたりもするので、1語だけ登録する場合はこの方法によることが便利である。登録する単語を範囲指定して、[Ctrl]+[F7](自分は[Ctrl]+[7]でもできるようにしてある)を押下すると、その語を登録後として見出しとなるよみの入力や品詞を指定するだけである。
登録先は、辞書セット1のユーザ辞書である。

辞書ユーティリティ

辞書ユーティリティを使うと、予めテキストファイルに所定の書式で記述した複数の語を一気に登録してくれるほか、誤って登録した語や自動登録単語で不要なものの削除などの編集も出来るようになっている。
AI用例の出力ができるのであるが、用例については一覧表示をさせて編集することが出来ない。後述する省入力データの編集も、このツールを使って出来るようになっているし、確定履歴の編集もこのツールを使って行う。

辞書ユーティリティは、ATOKのメニューから辿って起動するが、起動のためのショートカットが初期値では用意されていない。頻度高く使うなら、これに割り当てておくべきでもある。自分は[Shift]+[Ctrl]+[F7]に割り当てた。単語登録のキーに近く、イメージしやすいと思ったからである。

辞書ユーティリティを起動すると辞書セット1のユーザ辞書か直前の作業時に開いていた辞書が開かれる。ファイルを開く操作により、目的の他の辞書を開いて編集することになる。
通常の単語登録先となるユーザ辞書の単語編集だけではなく、任意に作成した辞書の編集などもできる。システム辞書については、今はこのツールでは扱えないようになっている。

辞書を開くときに、その目的の辞書がどれなのかが分からなければ、中々辿り着くことが出来ない。特に、自分で作成した辞書が行方不明になることがあるのだが、これは標準のユーザ辞書があるフォルダか、辞書用のフォルダがユーザのプロファイルのフォルダを辿っていくと見つかるので、そこに置いておくことにするのが良い。それ以外のフォルダに作成した辞書を置くと、辞書名の一覧に表示されず、自分でファイルを探すことになる。

単語自動登録の抑制

標準の辞書などで変換が出来なかった単語は積極的に単語登録を行うべきであると考えるが、ATOKでは単語登録以外でも目的の語を変換するのに良い機能が用意されているので、その様な手段でできないか、まず試してみるのが良い。例えば、カタカナ語なら後変換を使うことで、一々単語登録をする必要がない。
学習設定が初期値の状態では、そうやって後変換した単語も自動登録もされる。正しく登録されると便利ではあるのだが、そうでもない単語が登録されていることも多く、自動登録単語が増えると邪魔になることも少なくない。
自動登録された単語は、ユーザ辞書に保存されるので、前述の辞書ユーティリティを使って自動登録単語を抽出して不要なものを削除するなどの作業を時々する必要がある。

そういう作業自体が面倒だと思うのであれば、最初から自動登録を抑制させるほうが良い。これは、ATOKのプロパティで学習の詳細設定で行うことが出来る。「一時」若しくは「しない」にしておけば、自動登録を抑制することが出来る。ただし、変換をし直した時などにAI機能が自動登録するかどうかを訊ねてくることもあって、その時に登録操作をしてしまったものなどは登録されることになる。

登録すべき単語

ATOKでは地名や人名など固有名詞も多く登録されているが、もちろん全てそれで間に合うというわけではなく、やはり単語登録を活用すべきという場合が少なくない。そのような語は今後いつ使うか分からないとしても、また使う可能性があるなら遠慮無く登録しておくべきである。
文法的には正しいのか正しくないのかは別にして、特定の地域での表現、住所の読みなども、標準辞書になければ登録しておいた方が良い。地名の略語なども、ATOK辞書には登録されていない場合があるが、地域的にそう呼ぶ場合の語なども登録対象とすべきである。
同様に、会社組織などでは組織内でのみ通用する語、略語や隠語なども登録しておく必要があるかも知れない。仲間内だけでよく使う語なども標準の変換が不可能ならば単語登録を活用すべきである。

単語登録はそういう名詞が中心になるとは思うが、自分の言い回しで表記が独特であるもの、例えば「笑う」を常に「ワラう」などとカタカナ表記をしたり、小説書きなどでもっと難しい表記の漢字を使ったりする特殊な変換をよく使用するならば「ワラ」を活用のある語でワ行五段活用動詞として登録しておくなども必要である。
複合語の表記などは特に、前の方だけ感じで後のほうは仮名書きにしたい場合にその候補がなかったり、あるいは逆に全て漢字にしたいとか、前の方の漢字を別の当て字表記にしたいとかいう場合もこれに相当する。
単一の漢字で送り仮名の有無も、変換候補だけでは不十分な場合があり、そういう場合も登録しておいた方が良い。

ブログなどで独特の表現を使うとか、独特の表記・表現を使う場合、独立語のようなものも登録しておくべきだし、キーボードから入力しづらい特定の記号なども、わかりやすい読みで変換できるように登録しておくのも良いと思う。

語群が多い場合

永く使えば使うほど、ユーザ登録辞書は前述の自動登録単語や、様々な種類の単語登録、さらには学習情報なども紛れて、ごちゃ混ぜの状態になる。
特定の群(たとえば会社で使う人名の語群)の固有名詞だとか、小説を書くときだけに使う特定表記の語群だとか、顔文字の集合体だとか、はっきりとある程度の数の語がそれらと分けられる場合は、別の辞書として作成することにして、通常のユーザ辞書と分けるほうが良いかも知れない。

辞書を分けて作成する利点は、辞書セットの操作で含めるか含めないかを容易に選択できるようになることや、PCを乗り換えるなど環境が変わるときにその辞書ファイルを抽出して移し替えることがユーザ辞書の乗り換えよりも確実で分かりやすくバックアップも用意である。PCの乗り換え等でなくても、たとえば会社の人名辞書なら他の単語を含まないので他人と共有がしやすいという点でも有用である。同じ組織で同じ辞書を共有できる。尤も、全員がATOKを使っている必要があるが。

より簡単にそういう語群を使いたい場合、使う頻度が特に高い場合、特に人名群が多い場合などに有用と思うが、省入力データを活用するという方法もある。推測変換の候補として表示されるので、人名などは姓を入力したくらいの段階で推測変換候補として表示され、そこから[Tab]キー操作で選択して変換することが出来る。

規制語対策

ATOKの最大の問題とされているのが、特定の語の辞書登録を規制して、それらの語が変換できないようになっていることで賛否両論がある。これは官公庁や公的機関、放送・報道関係など一部にとっては都合が良いものの、理解した上で学術的に用いるとか文学作品で用いるとかの場合は著しく不当な扱いということになる。変換辞書は、用語を網羅すべき辞書と同じものであるので、そういう規制は適正ではない。
同様の規制はMS-IMEでも行われているようであり、Webから辞書が作成されるGoogle日本語入力はそのような規制はされていないらしい。

そういう語群を用いたい場合は、単語毎に自分で登録するという方法もあるが、ネットで探せばいくつかそういう規制語の一覧とか、ATOK辞書用のデータもある。
こういうデータを活用して、ユーザ辞書に語群として一括で登録するという方法もあるが、こういう語を使うべきでない場合があるための選択肢としては、上記の要領で、別の辞書として作成しておくほうが良い。

ユーザ辞書の整理

ユーザ辞書は自動で登録される単語も増えていくので、時々整理した方が良い。
まず、自動で登録される単語は、制御をしていなければそればかり大量に登録されている可能性がある。たいていの語は辞書に登録したとしても二度と変換しないような語ばかりである。自分は、時々辞書を整理する時は、自動登録単語だけ抽出してだいたい全て一気に削除してしまう。それで問題が生じたり不便になったことは一度もない。ただ、分量が限られるなら、自動登録単語の中から、登録単語に変更しても良い物が稀にある。これは、そういう操作をすると登録単語になるが、たいてい品詞が間違っているので修正する必要がある。

自分で登録した単語に関しても、時間が経っているもので代々のATOK間で引き継いでいる場合などは、それらの単語が新しいATOKでは標準辞書に搭載されている場合も多いので、一度見直しをした方が良い。
具体的な手順は次のようなもの。

  1. 登録している単語を一覧に出力する。
  2. ユーザ辞書に登録された全ての単語を一旦全て削除する。
  3. ユーザ辞書に登録された単語がない状態で、出力した一覧の単語が標準辞書機能で変換されるかどうかを調べる。
  4. 変換できる単語は、出力した一覧から削除する。
  5. 変換ができず、今後も変換する可能性がある単語は、一覧に残しておく。
  6. 一覧に残った単語だけ登録しなおす。

時々、そういう整理をしたほうが辞書が軽くなるので良い。

ついでに、ATOKでは特に設定しない限りは確定履歴が残ることになるが、これもATOKプロパティから辿ったりして辞書ユーティリティで表示させてみると、ほとんど不要である履歴として残っているのであっさりと削除すべきである。特に共用のPC等の場合、確定履歴を辿ると他人でもどんな文章が入力されたかほぼ確実に復元できてしまうので、そういう場合は確定履歴が残ること自体が好ましくないのである。自分しか使用しないPCならばそういう問題はないので、必要に応じて確定履歴も変換に活用したら良い。

ATOKの学習情報は、効率的な変換にはもちろん有用なのであるが、ATOKのエンジンは初期値でも十分に高性能で誤変換が少なく十分に実用的であるので、時々は学習情報を完全にクリアにしてしまって、必要な登録単語だけの状態で鍛え直すのも悪くないと思っている。

複数PCでの共有

複数台のPCを使っている場合、その設定や辞書を共有する必要がある。バックアップを取ってそれを別の環境で復元するとか、辞書なら辞書、設定なら設定のファイルをコピーして共有するなどの方法があるが、基本的にはクラウドサービスのATOK Syncが便利である。
環境のマージや置き換えを簡単に行うことが出来る。
ただし、ATOK Syncも想定通りに動作しないことも多々あったり、環境設定の抽出作業に随分時間がかかったりと、そういう所は中々改善されていない部分もある。

具体例を挙げると、上記の方法でユーザ辞書の整理を行ったのに環境の同期をしたら生理前の状態に戻ったりする。整理後の環境をアップロードしても、別の環境でダウンロードしたらそれには置き換えられずに単にマージされてしまったりもする。
おそらく、サーバ側に登録されている環境を適宜削除したりしてリセットしないと、上手くいかないことがあるようなので、そういうこともあるということを踏まえて、元に戻したり再度設定したりする必要があることも踏まえて使用すべきである。

辞書データの在処

自分の環境では、次のような場所にそれぞれのデータが置かれている。

ATOK Tech. Ver.32の場合

ATOKのシステム辞書があるフォルダ
 C:\Program Files (x86)\JustSystems\ATOK32T31
オプション辞書類の所在
 C:\Program Files (x86)\JustSystems\ATOK\DIC
作成辞書の置き場として使っている場所
 C:\Users\(ユーザ名)\AppData\Roaming\Justsystem\ATOK\DIC
ユーザ辞書の在処
 C:\Users\(ユーザ名)\AppData\Roaming\Justsystem\Atok32

ATOK Tech. Ver.34(64ビットネイティブ)の場合

ATOKのシステム辞書があるフォルダ
 C:\Program Files (x86)\JustSystems\ATOK34
オプション辞書類の所在
 C:\Program Files (x86)\JustSystems\ATOK\DIC
作成辞書の置き場として使っている場所
 C:\Users\(ユーザ名)\AppData\Roaming\Justsystem\ATOK\DIC
ユーザ辞書の在処
 C:\Users\(ユーザ名)\AppData\Roaming\Justsystem\Atok34

上書きでアップデートしたせいなのか、まだ(x86)の付いたフォルダに一部辞書が置かれていたりするようだ。

一覧ファイルの形式

単語や用例、省入力データを一括登録したり編集したりする場合の形式は、ATOKのヘルプに詳しい。ただし、そのようなルールに則った作成が面倒である場合は、辞書ユーティリティから現在の登録語の一覧を出力するとその形式のテキストファイルができあがるので、それに加えたり編集したりするほうが簡単である。

一つ注意しなければならないのは、これらテキストファイルの文字コードはShift JISである必要がある点である。UTF-8などの文字コードだと、ATOKのツールでは認識されないのである。

2021-06-13
2024-02-03追記