Hatena::Grouprekken

murawaki の雑記

2010-01-29

Japanese POS tagset

英語を書くときに、日本語の文法用語の翻訳にいつも困る。そこで訳語の試案を書いてみるテスト。JUMAN の品詞体系。未完成。気が向いたら埋める。

もちろん言葉をうつしただけでは通じないので適切な説明を添える必要がある。また、どうせ無理に訳しても通じないので、日本語特有の部分は日本語をそのまま翻字すればいい。

英語を扱う論文の場合、例として treebank の品詞を説明なしに載せていたりする。読者が知っていることが前提になっているから。日本語の品詞は知らないのがデフォルト。だから同じことをやったら読者に拒否反応を起こされそう。しかし、あくまで雰囲気をつかんでもらうための例であって、本質ではないので、長々と説明するのも変。加減が難しい。

二段階の品詞体系 (part-of-speech)

  • 特殊 special
    • 句点 comma
    • 読点 period
    • 括弧始 open parenthesis
    • 括弧終 closed parenthesis
    • 記号 sign
    • 空白 white space
  • 動詞 verb
  • 形容詞 adjective
  • 判定詞 copula
  • 助動詞 auxiliary verb
  • 名詞 noun
  • 指示詞 demonstrative
    • 名詞形態指示詞 nominal demonstrative
    • 連体詞形態指示詞 prenominal-adjectival demonstrative
    • 副詞形態指示詞 adverbial demonstrative
  • 副詞 adverb
  • 助詞 particle
    • 格助詞 case particle
    • 副助詞 adverbial particle
    • 接続助詞 conjunctive particle
    • 終助詞 final particle
  • 接続詞 conjunction
  • 連体詞 prenominal adjective
  • 感動詞 interjection
  • 接頭辞 prefix
  • 接尾辞 suffix
  • 未定義語 undefined
    • その他 other
    • カタカナ katakana
    • アルファベット alphabet

注記:

  • 単数形で統一
  • サ変名詞verbal noun とするのは不適切。verbal noun は動詞で、屈折により名詞として使われるもの。サ変名詞は名詞で、動詞としても使われるもの。
  • 人名は personal name が多い気がするが、組織名などとあわせて person name とする
  • 連体詞の訳が微妙
  • カ変、サ変などは k-irregular verb とかにすればいいのかもしれないが、無理せず kahen でいいと思う。

活用型 (conjugation type)

活用形 (conjugation form)

  • 語幹 stem
  • 基本形 plain form
  • 未然形 imperfective form
  • 意志形 volitional form
  • 省略意志形 volitional short form
  • 命令形 imperative form
  • 基本推量形 plain tentative form
  • 基本省略推量形 plain tentative short form
  • 基本条件形 plain conditional form
  • 基本連用形 plain continuative form
  • タ接連用形
  • タ形 ta-form
  • タ系推量形 type-ta tentative form
  • タ系省略推量形 type-ta tentative short form
  • タ系条件形 type-ta conditional form
  • タ系連用テ形 type-ta continuative te-form
  • タ系連用タリ形 type-ta continuative tari-form
  • タ系連用チャ形 type-ta continuative cha-form
  • タ系連用チャ形2 type-ta continuative cha-form 2
  • 音便基本形
  • 音便推量形
  • 音便省略推量形
  • 音便条件形
  • 音便条件形2
  • 文語基本形
  • 文語未然形
  • 文語連用形
  • 文語連体形
  • 文語条件形
  • 文語音便条件形
  • 文語命令形
  • (文語巳然形)
  • ダ列命令形
  • ダ列基本連体形
  • ダ列特殊連体形
  • ダ列基本推量形
  • ダ列基本省略推量形
  • ダ列基本条件形
  • ダ列基本連用形
  • ダ列タ形
  • ダ列タ系推量形
  • ダ列タ系省略推量形
  • ダ列タ系条件形
  • ダ列タ系連用テ形
  • ダ列タ系連用タリ形
  • ダ列タ系連用ジャ形
  • (ダ列文語未然形)
  • (ダ列文語連用形)
  • ダ列文語連体形
  • ダ列文語条件形
  • デアル列基本形
  • デアル列命令形
  • デアル列基本推量形
  • デアル列基本省略推量形
  • デアル列基本条件形
  • デアル列基本連用形
  • デアル列タ形
  • デアル列タ系推量形
  • デアル列タ系省略推量形
  • デアル列タ系条件形
  • デアル列タ系連用テ形
  • デアル列タ系連用タリ形
  • (デアル列文語未然形)
  • デス列基本形
  • デス列基本推量形
  • デス列基本省略推量形
  • デス列タ形
  • デス列タ系推量形
  • デス列タ系省略推量形
  • デス列タ系条件形
  • デス列タ系連用テ形
  • デス列タ系連用タリ形

semialtsemialt2014/08/11 16:49冒頭しか見てないのですが、句点(。や.)と読点(、や,)の訳語が逆ではないでしょうか?

2010-01-23

接続詞から見る日本語の付属語の独立性

日本語の接続詞はかなり変わっていて、付属語の独立性の高さを示しているのではないかという話。いい加減な議論。そして未整理。

前提。すべての接続詞について議論するわけではない。ここで扱う接続詞は (1) 接続助詞や判定詞 (『基礎日本語文法』の区分) に由来する。(2) 文と文を接続する。たとえば以下のようなもの。「かといって」、「が」、「けど」、「けども」、「けれど」、「だから」、「だが」、「だけど」、「だって」、「で」、「ですから」、「では」、「でも」、「と」、「とすると」、「とはいえ」、「なので」、「なのに」、「ならば」、「にもかかわらず」。

そもそも接続詞の由来は多様。たいていは、歴史的には、他の品詞形態素やフレーズが接続用法で固定して使われるようになって成立している。だから元の品詞によって分類できる。指示詞 (+付属語) 由来の「それで」、「そのうえ」。動詞表現由来の「したがって」など。名詞表現由来の「おまけに」、「ゆえに」など。

接続詞が接続する単位もいろいろ。語と語を接続する、「AやB」 (実際には接続助詞に分類される) など。今回扱うのは文接続。文頭に立つ。

どこが変わっているか。付属語 (列) が単独で使われていること。「とすると」や「にもかかわらず」の存在を考慮してより正確に言うと、本来自立語に後続する付属語 (列) が自立語なしに使われていること。そもそも付属語とは何かという問題もあるが、ここでは厳密に定義しない。

変わっていることを示すために他の言語を考える。モンゴル語。そもそも日本語ほど文頭に接続詞を立てない気がするが、いくつか抜き出してみる。

  • 「が」、「けど」、「だが」、「だけど」、「でも」にあたるのは тэгсэн ч гэсэн。直訳しにくいけど、「そうしても」みたいな意味。
  • 「だから」、「ですから」にあたるのは тэгэхээр。「そうするように」、「そうすると」。
  • 「とはいえ」は гэсэн ч гэсэн。これはそのまま。あるいは тийн байвал。「そうであれば」。
  • 「で」はニュアンスが難しいが、тэгээд。「そして」、「それから」。

適当に挙げてみたが、共通するのは тэгэх (そうする)、тийн (そうだ)、гэх (言う) のような自立語に由来すること。純粋な付属語が文頭に立つ例が思いつかない。そもそもほとんどの付属語は、前の自立語の影響で形が変わる。たとえば тэгэхээр-хээр の場合、-хаар/-хээр/-хоор/-хөөр という変異形をもっており、どれが基本形というわけでもない。そんな感じだから、自立語なしに使うという発想がそもそもなさそう。日本語の場合、連濁を除くと、付属語が形を変えることはまずない。思いつくのは、動詞のタ形ぐらい。

しかし、よく考えてみると、日本語の接続詞の構成要素に対応するモンゴル語は付属語的でない気もしてくる。「だから」や「なので」の「だ」や「な」は判定詞、つまりコピュラだが、モンゴル語の場合、コピュラはデフォルトでは何も置かない。「AはBだ」は「A B」となる。否定や過去のように色がついてはじめて、бишбайсан が後ろに付く。このうち、биш は、後置詞という扱いになっているけど、名詞的な性格を残している。例えば、бишгүй (なくない) で「沢山の」という意味になる。そして байх は (補助) 動詞。「とはいえ」のような引用の「と」は、гэж。これは動詞 гэх (言う) の活用形。やはり動詞的な性格を残している。こういう風に摩耗しきっていない自立語が文法的に使われるのは、付属語が従属的すぎて転用しにくいからだろうか。

他の言語はどうか。韓国語について、以前留学生に聞いてみた。そういう表現はないとの答えを得た。難しい質問なので意図がちゃんと伝わったか怪しいけど。日本好きの韓国人が、戯れにそういう日本語直訳の表現を使うことはあると付け加えた。残念ながら具体的に何と言うのかは覚えていない。

補足。よく考えたら、付属語が独立して文頭に立つのは接続詞に限らない。「だね」、「だよね。」とか、最近よく聞くようになった「ですよねー。」など。モンゴル語だと、この用法でも、間投詞の затийм を使う。やはり付属語ではない。