2010年11月8日月曜日

◆IEのWebページをテキストで取得する

ブログ投稿記事をWordで文法チェックしようと思い立ち、まずはWebページからテキストを取得してみた。
とりあえず文字の少ない以下のページから取ってくる。
20101115175734

ソースはこんな感じ。

$shell = New-Object -com shell.application
$windows = $shell.windows()
$IE = $windows | ?{($_.name -eq "Windows Internet Explorer") -and
                    ($_.locationName -eq "bing")}
$doc = $IE.Document
$doc.IHTMLDocument2_body.innerText

結果は、

Bing のツアー | MSN | HotmailBing をホーム ページに設定する | サインイン | 日本 | 設定Bingウェブ画像動画ショッピングニュース地図その他詳細
情報設定すべて表示日本語のページのみを表示ここはアルゼンチンにある、氷でできた洞窟です。
南極にほど近いこの場所では、見事な氷河が楽しめます »このそばにはアルゼンチン最南端の街があります。
世界最南端の標識を見てみる? »ここには「世界の最果て」列車が走っています。
小さなかわいい列車です »この地域の氷河は、南極、グリーンランドに続いて 3 番目に大きなものです。
上からその大きさを確かめよう »◄►©「アルベアルの氷の洞窟」アルゼンチン -- Science Faction/SuperStockアルベアルの氷の洞窟冷たい幻想の世界アルゼ
ンチン氷河を見ながら 1 杯いかが今日は七五三!巷の話題は?この行事にまつわる最新ニュースを調べてみようGo to Bing in English© 2010 Microsoft
| プライバシー | 使用条件 | ヘルプ | ご意見ご感想

いい感じ。
OnMouseで表示される文字もあるので意外と文字数が多い。

IEを使わずに直接ダウンロードしても良いのだが、今回はIEの扱い方の練習と言う事で。

あとはこれをWordに持っていってチェックするだけだ。

0 件のコメント:

コメントを投稿