因為資料量很大,而且分析方式很多種,所以在清資料前就要先想好等下要用什麼方式來分析資料,才能知道資料要往哪個方向處理.畢竟不同的資料分析方式吃的資料格式不太一樣,對一些極端值的敏感度也不同,得想清楚再出發.(不過實務上很少一次就OK的啦,通常都是邊做邊想邊調整.)
因為最近很愛KNN所以想把每個單詞當成feature來跑model,所以第一步先清理可怕的html資料.
靠網路上神人大大的碼,就可以簡單移除HTML標籤
from HTMLParser import HTMLParser
import re
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()
要把function套用到pandas的欄位上要用
apply
方法: 同時也順便去除分行和數字(因為數字切詞通常沒有意義所以一起去掉了)
處理完後就會看到比較清爽的模樣
(待續…)
沒有留言:
張貼留言