粗大メモ置き場

個人用,たまーに来訪者を意識する雑記メモ

Google PatenetをPythonでパースして簡単にアウトラインを把握する

特許のアウトライン読み込みの効率化のためのメモ。Notebookに下記を貼り付けるだけでいい感じにParseできる。 Google Patentとパーサの仕様に依存するので動かなくなっても御愛嬌。

依存解決

!pip install googlepatentscraper

実行内容

# WidgetでGooglePatentをParseする
from googlepatentscraper.document import Document
from google.colab import widgets
import ipywidgets as widgets
from IPython.display import display, HTML, clear_output

url_box = widgets.Text(
    value='',
    placeholder='Google PatentのURLを入力してください',
    description='URL:',
    disabled=False
)
display(url_box)

# ボタンを押して実行
def on_button_clicked(b):
    with output:
        clear_output() # 過去の出力をクリア
        url = url_box.value
        number = url.split("/")[-1]
        patent = Document(number)
        text = patent.data["description_alt"]
        display(HTML(f"<textarea rows=20 cols=100>{text}</textarea>"))

button = widgets.Button(description="取得")
output = widgets.Output() # 出力ウィジェットを作成
button.on_click(on_button_clicked)
display(button, output) # ボタンと出力ウィジェットを表示