Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

カタカナ表記揺れ #162

Open
msmhrt opened this issue Jul 25, 2017 · 8 comments
Open

カタカナ表記揺れ #162

msmhrt opened this issue Jul 25, 2017 · 8 comments

Comments

@msmhrt
Copy link

msmhrt commented Jul 25, 2017

master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。

元データは https://gist.github.com/msmhrt/4284054 にあります。

ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。

キャラクタ(21)、キャラクター(1)
コンピュータ(19)、コンピューター(1)
サーバー(163)、サーバ(1)
ハンドラ(13)、ハンドラー(9)
バー(11)、バッ(1)
パス(208)、パース(32)
パラメーター(19)、パラーメーター(1)
ファイル・ウィンドウ(1)、ファイルウィンドウ(1)
ファイル・バッファ(2)、ファイルバッファ(1)
フィルタ(69)、フィルター(8)
フィルタコマンド(29)、フィルターコマンド(2)
フォーム(5)、ホーム(2)
プラグインスクリプト(8)、プラグイン・スクリプト(1)
ヘッダー(23)、ヘッダ(1)
ポインタ(19)、ポインター(2)
メンバ(13)、メンバー(4)
モディファイア(4)、モディファイヤ(1)
リカバリ(20)、リカバリー(8)
リポジトリ(5)、レポジトリ(1)
ローカル(269)、ロケール(91)

@koron
Copy link
Member

koron commented Jul 25, 2017 via email

@msmhrt
Copy link
Author

msmhrt commented Jul 29, 2017

返信が遅れてすみません。

紹介できるようなコードではないのでお見せしたくないのですが、https://github.com/msmhrt/kanayure で、
python3 kanayure.py --root-dir="../vimdoc-ja-working" --exclude-dirs=".git,en" --exclude-files="digraph*.*,dict.yml" --boundary="\s*\n(?::>)?\s*(?:\|\s*)*" と実行しています。

--boundary=... は vimdoc で二行に分かれたカタカナを検出するためのおまじないです。

やっていることを大雑把に説明すると「モディファイア」からモー?・?ディ?ー?・?(?ファ|ハ)ー?・?[イィ]ー?・?[ヤア]ー?・? のような正規表現を生成して、この正規表現にマッチした「モディファイヤ」を表記揺れと見なす感じです。

もしどうしても CI に組み込みたいのでしたら、一から書き直して一度検出した偽陽性を弾く仕組みを追加することを強くオススメします。

経験上、IT 文書のカタカナの表記揺れは、長音(ー)と中黒(・)の有無によるものが半分以上を占めていますので、そこをチェックするだけでも結構改善するのではないかと思われます。

@uakms
Copy link
Contributor

uakms commented Jul 29, 2017

コマンドモディファイヤ (4) {motion.jax (3), windows.jax (1)} もお願いします。

長音については vimdoc-ja の issue で取り上げられてはいたものの、結論が出ずにうやむやになっていますね。こういう部分では、声の大きい Vimmer が必要かもです。

@msmhrt
Copy link
Author

msmhrt commented Jun 24, 2018

master ブランチで久しぶりに片仮名の表記揺れをチェックしてみましたのでご査収ください。

・元データは https://gist.github.com/msmhrt/fb5016cf72a02f5b6d9397a4698dc2ef にあり、カタカナ語を最初に検出した場所のリストもあります。

・ツールによる簡易チェックなので、「パースはパスの表記揺れ」のような誤検出も含まれていますがご容赦ください。

・複数語の分割には対応していないので、コマンドモディファイヤとモディファイアの表記揺れは検出できません。

・今回はチャネルとチャンネルのように、ナニヌネノが直後に続く「ン」の有無による表記揺れにも対応してみましたが、チャンネルとチャネル以外はそのような表記揺れはなかったらしく、チャンネルは既にチャネルに統一されているので検出されませんでした。

エミュレータ(13)、エミュレーター(2)
キャラクタ(21)、キャラクター(1)
コンピュータ(19)、コンピューター(1)
サーバー(166)、サーバ(1)
ハンドラ(13)、ハンドラー(9)
バー(11)、バッ(1)
パス(215)、パース(33)
パラメーター(19)、パラーメーター(1)、パラメータ(1)
ファイル・ウィンドウ(1)、ファイルウィンドウ(1)
ファイル・バッファ(2)、ファイルバッファ(1)
フィルタ(69)、フィルター(8)
フィルタコマンド(29)、フィルターコマンド(2)
フォルダ(5)、フォルダー(1)
フォントファミリ(5)、フォントファミリー(1)
フォーム(5)、ホーム(2)
プラグインスクリプト(8)、プラグイン・スクリプト(1)
ヘッダー(23)、ヘッダ(1)
ポインタ(19)、ポインター(2)
メンバ(13)、メンバー(4)
モディファイア(4)、モディファイヤ(1)
リカバリ(20)、リカバリー(8)
リポジトリ(5)、レポジトリ(1)
ローカル(272)、ロケール(91)

@mattn
Copy link
Member

mattn commented Jun 25, 2018

ありがとうございます。ローカルも気を付けた方が良さそう(ローカルディレクトリなど)ですね。

@h-east
Copy link
Member

h-east commented Jun 25, 2018

チャンネルは既にチャネルに統一されている

現時点では「チャンネル」に統一されています。 #276
(本日夕方以降に「チャネル」に統一予定)

@uakms
Copy link
Contributor

uakms commented Jun 25, 2018

かつて統一したことのあるものがまた……
香り屋の KoRoN さんに無償で nvcheck を作成してもらう前だったかしら?
dict.yml に記述漏れだったのかも。

@msmhrt
Copy link
Author

msmhrt commented Jun 25, 2018

現時点では「チャンネル」に統一されています。 #276
(本日夕方以降に「チャネル」に統一予定)

おっと失礼しました。

かつて統一したことのあるものがまた……

dict.yml はチェック対象から除外しましたが、もし他に除外すべきファイルから誤検出しているようでしたらお知らせください。

後は、2 行にまたがっているカタカナ語の扱いが nvcheck と異なるかもしれないくらいでしょうか。

こちらは前処理で \s*\n(?::>)?\s*(?:|\s*)* にマッチした文字列を取り除くようにしていますので、

:> ことに関してです。例えばいままで見ていた(編集していた)内容がスクリ
:> ーンに残っていますよね。そして前に行った ls などのコマンドの出力が

から「スクリーン」を抽出できますが、インデントは考慮していないので、

クレジットカード
   クレジットカードでの送金には PayPal を使ってください。詳しいこ

から「クレジットカードクレジットカード」を誤抽出しています。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants