2020年03月一覧

【pythonで自然言語処理】日本語版・word2vecで分散表現した単語を2次元に可視化する

前回、英語版のword2vecで分散表現した単語を2次元に可視化する方法を書きました。 今回は、その日本語版でpythonを使ってjanomeによる日本語の形態素分析、word2vecによる分散表現、PCA(主成分分析)による次元圧縮(N次元から2次元へ)を施し、単語を2次元の図にプロットする方法を解説します。

pythonのseleniumでjavascript(ajax)、iframeが使われたページのスクレイピング方法

スクレイピングを使うと、自動でWEBサイトのデータをダウンロードできるので、情報を取り出すのが楽になります。 しかし、Javascript(ajax)など非同期に読み込まれるサイトではうまくデータが取れないこともあります。 seleniumを使うと、Javascript(ajaxによる非同期処理)による後からデータが読み込まれるタイプのサイト、iframe処理が施されたサイトでもスクレイピングが可能になります。 この記事では、seleniumを使い、javascriptによる非同期読み込み、iframe対策が必要になるサイトのスクレイピング方法を紹介します。

スポンサーリンク
PR




PR