pythonコード百科事典

コピペですぐ使えるPythonコードをご紹介

Pythonで日本語のよみがなを取得する方法

Pythonで日本語のよみがなを取得するには、以下のような方法があります。

MeCabを使う

MeCabは、日本語の自然言語処理を行うためのツールです。MeCabを使えば、日本語のテキストからよみがなを抽出することができます。

まず、MeCabをインストールする必要があります。以下は、pipを使ってMeCabをインストールする例です。

pip install mecab-python3

次に、以下のようにして、MeCabを使ってよみがなを取得することができます。

import MeCab

# MeCabのタグを解析するための関数
def parse_mecab_tag(tag):
    # タグをカンマで分割する
    elements = tag.split(",")

    # 原形を取得する
    surface = elements[0]
    # よみがなを取得する
    reading = elements[7]

    return surface, reading

# MeCabの解析器を作成する
tagger = MeCab.Tagger()

# テキストを解析する
text = "日本語のよみがなを取得する"
result = tagger.parse(text)

# 結果を行ごとに分割する
lines = result.split("\n")

次に、解析結果を行ごとに処理して、よみがなを取得します。

for line in lines:
    # 空行はスキップする
    if line == "":
        continue

    # タグを解析する
    surface, reading = parse_mecab_tag(line)

    # よみがなを出力する
    print(reading)

このようにして、MeCabを使って日本語のよみがなを取得することができます。

janomeを使う

janomeは、MeCab同様、日本語の自然言語処理を行うためのライブラリです。janomeを使えば、日本語のテキストからよみがなを抽出することができます。

まず、janomeをインストールする必要があります。以下は、pipを使ってjanomeをインストールする例です。

pip install janome

次に、以下のようにして、janomeを使ってよみがなを取得することができます。

from janome.tokenizer import Tokenizer

# Tokenizerを作成する
t = Tokenizer()

# テキストを解析する
text = "日本語のよみがなを取得する"
tokens = t.tokenize(text)

# 結果を処理する
for token in tokens:
    # よみがなを出力する
    print(token.reading)

このようにして、janomeを使って日本語のよみがなを取得することができます。

これらの方法を使えば、Pythonで日本語のよみがなを取得することができます。