全文検索のテストデータ作成にWikipediaのデータを利用してみました。
はじめにこんにちは。SHIFT DAAE 開発グループ所属のsakuraiです。
今後の案件で全文検索を利用する予定があり、技術調査を行う際に大量のテキストデータをうまく作成できないかと考えました。
せっかく調査するなら出来る限り自然なデータを利用したい! ということで
Wikipediaの日本語データを利用してテストデータを作成してみました。
今回はMySQLに登録するまでに実施したことをまとめようと思います。
日本語Wikipediaのダンプデータの取得ウィキペディア