特許のアウトライン読み込みの効率化のためのメモ。Notebookに下記を貼り付けるだけでいい感じにParseできる。 Google Patentとパーサの仕様に依存するので動かなくなっても御愛嬌。
依存解決
!pip install googlepatentscraper
実行内容
# WidgetでGooglePatentをParseする from googlepatentscraper.document import Document from google.colab import widgets import ipywidgets as widgets from IPython.display import display, HTML, clear_output url_box = widgets.Text( value='', placeholder='Google PatentのURLを入力してください', description='URL:', disabled=False ) display(url_box) # ボタンを押して実行 def on_button_clicked(b): with output: clear_output() # 過去の出力をクリア url = url_box.value number = url.split("/")[-1] patent = Document(number) text = patent.data["description_alt"] display(HTML(f"<textarea rows=20 cols=100>{text}</textarea>")) button = widgets.Button(description="取得") output = widgets.Output() # 出力ウィジェットを作成 button.on_click(on_button_clicked) display(button, output) # ボタンと出力ウィジェットを表示