HYT MachineWorks

やったこととか思いついたことをメモしておくブログです。

正規表現

ファイルサーバや、ドライブのフォルダの容量を調べるツールを作ってみた(Python3 windows10)

Pathlibって使っていますか? Pythonからファイルを扱うライブラリです。 docs.python.org 使わない理由が無いと言われますが、今まで困ってなかったのでというか、わざわざsubprocess使ってコマンドを実行してやってました。 ですが、フォルダ容量を調査し…

自然言語処理100本ノックをWindows/Python3で 第9章: ベクトル空間法 (I)を解く

自然言語処理100本ノックとは、 東北大学の乾・岡崎研究室にて公開されている自然言語処理の問題集です。 www.cl.ecei.tohoku.ac.jp 前回に引き続いて第九章をこなしました。

自然言語処理100本ノックの第9章ベクトル空間法 (I) 第80問~第85問を1/10サンプリングのデータをThinkPad X1 (2011)で解いてみた

自然言語処理100本ノックの第9章ベクトル空間法 (I) 第80問~第85問とは、 東北大学の乾・岡崎研究室にて公開されている自然言語処理の問題集で、その中で唯一この章だけ問題の注釈として なお,問題83を素直に実装すると,大量(約7GB)の主記憶が必要にな…

urllib3を使ってWikipediaから国名一覧を取得してJSONで保存する Python3 windows10 64bit

Web スクレイピングの例としてWikipediaから情報収集をする ここでは、英語版wikipediaの国の一覧と海外領土・自治領の一覧からhtmlを取得して国名の一覧を取得することを目的にする。 それと、これは自然言語処理100本ノックの81問で使用する国名リストの取…

自然言語処理100本ノックをWindows/Python3で 第6章: 英語テキストの処理を解く

自然言語処理100本ノックとは、 東北大学の乾・岡崎研究室にて公開されている自然言語処理の問題集です。 www.cl.ecei.tohoku.ac.jp 前回に引き続いて第六章をこなしました。

自然言語処理100本ノックをWindows/Python3で 第3章: 正規表現を解く

自然言語処理100本ノックとは、 東北大学の乾・岡崎研究室にて公開されている自然言語処理の問題集です。 www.cl.ecei.tohoku.ac.jp 前回に引き続いて第三章をこなしました。

Pythonの正規表現で、括弧に囲まれた括弧を取る方法

カッコに囲まれたカッコとは <あか<abcdef>さたな><はま<abcdef>やらわ> みたいな文から <あか<abcdef>さたな> <はま<abcdef>やらわ> を取り出したいと言うことです。簡単そうに見えてハマったのでメモ。</abcdef></abcdef></abcdef></abcdef>