2k1
  • Home
  • Programming
  • System
  • Design
  • Applications
  • Tech
No Result
View All Result
  • Login
2k1
  • Home
  • Programming
  • System
  • Design
  • Applications
  • Tech
No Result
View All Result
2k1
No Result
View All Result

Làm thế nào để tìm lại những trang web hay mà mình đã từng truy cập

Nguyen Pham by Nguyen Pham
06/05/2021
in Blog
Reading Time: 4 mins read
A A
0

Chúng ta cần làm như sau:

1. Lấy dữ liệu từ google

​ Chúng ta sử dụng google takeout để lấy dữ liệu lịch sử của mình
image.png
​ Tiếp theo chúng ta làm theo hướng dẫn của google takeout. Khi hoàn tất chúng ta sẽ nhận được email thông báo từ google. Chúng ta vào link đính kèm email sẽ được như sau:
image.png
​ Giờ chúng ta sẽ tải xuống toàn bộ lịch sử web chúng ta truy cập.
​ Lưu ý: Dữ liệu này sẽ là dữ liệu từ lúc bạn tạo tài khoản google tới lúc hiện tại này. Nếu không thì nó sẽ tích từ lần bạn xoá dữ liệu lịch sử lưu trên google lần cuối.

2. Sử dụng google colab để lọc dữ liệu

​ Mình sử dụng luôn google colab để xử lý đống này.
​ Thêm thư viện

import pandas as pd
import warnings
warnings.filterwarnings('ignore')
import seaborn as sns
import matplotlib.pyplot as plt

​ Upload file BrowserHistory.json và đọc nó.

actress = pd.read_json('BrowserHistory.json')
actress.head()

image.png
Lọc dữ liệu

df = pd.DataFrame(actress['url'],columns=['url'])
df[df.url.str.contains('.*github.*')].to_json(\"rex.json\",orient='split')

​ Kết quả là một danh sách các url có từ github trong đó

3. Xử lý trùng lặp và lấy dữ liệu mình cần

​ Mình mở file rex.json bằng sublime text và bắt đầu sửa.
​ Đầu tiên chúng ta sẽ format lại đinh dạng để dễ nhìn hơn
image.png
​ Lấy những url github thoả mãn bằng regex
image.png
​ Tiếp là loại bỏ toàn bộ trùng lặp bằng một công cụ online https://codebeautify.org/remove-duplicate-lines
​ Lúc này dữ liệu đã được loại bỏ trùng lặp nhưng vẫn chưa được như ý. Tôi muốn lấy những repository github thôi thì phải làm sao.
Công cụ tôi nghĩ ngay là excel
image.png
​ Giờ chúng ta chỉ giữ lại những cột cần dùng và nối chuỗi lại để được kết quả.
image.png
​ Chúng ta có thể sử dụng công cụ loại bỏ trùng lặp trong excel để loại bỏ những dữ liệu trùng
Đây là kết quả cuối cùng
image.png
​ Như vậy chúng ta đã lọc được theo ý mình lịch sử những trang mà mình truy cập.
Cách làm trên thực sự không phải là hoàn hảo nhưng do mình vừa search vừa làm nên nó có chút lộn xộn. Sau này khi học nhiều hơn mình sẽ update những cách tối ưu hơn 😄
Để xử lý những cái trên hiệu quả và thông minh hơn chúng ta nên học thêm về:

  • Pandas
  • Python
    Ngoài ra nếu với lượng dữ liệu nhỏ bạn hoàn toàn có thể dùng Excel để xử lý lọc dữ liệu bằng những hàm có sẵn.
Previous Post

Cách tạo một phần mềm quản lý tài chính mà không cần code.

Next Post

Sửa lỗi RVM không hoạt động trong bash

Related Posts

Tối Ưu Hóa Workflow Hiệu Quả Với Git Stash: Tạm Lưu Thay Đổi Thần Tốc Cho Dev
Blog

Tối Ưu Hóa Workflow Hiệu Quả Với Git Stash: Tạm Lưu Thay Đổi Thần Tốc Cho Dev

by Nguyen Pham
30/10/2025
Cứu Tinh Của Developers: Hoàn Tác Thay Đổi Trong Git Với Reset, Revert và Checkout
Blog

Cứu Tinh Của Developers: Hoàn Tác Thay Đổi Trong Git Với Reset, Revert và Checkout

by Nguyen Pham
30/10/2025
Xử Lý Conflict Trong Git: Hướng Dẫn Toàn Diện Giải Quyết Xung Đột Mã Nguồn Hiệu Quả
Blog

Xử Lý Conflict Trong Git: Hướng Dẫn Toàn Diện Giải Quyết Xung Đột Mã Nguồn Hiệu Quả

by Nguyen Pham
30/10/2025
Làm Chủ Git Remote: Hướng Dẫn Toàn Diện Về Push, Pull và Clone Repository
Blog

Làm Chủ Git Remote: Hướng Dẫn Toàn Diện Về Push, Pull và Clone Repository

by Nguyen Pham
30/10/2025
Tối Ưu Hóa Quy Trình Phát Triển: Hướng Dẫn Sử Dụng Git Branch và Merge Hiệu Quả
Blog

Tối Ưu Hóa Quy Trình Phát Triển: Hướng Dẫn Sử Dụng Git Branch và Merge Hiệu Quả

by Nguyen Pham
30/10/2025
Git Là Gì? Hướng Dẫn Sử Dụng Git Cho Người Mới Bắt Đầu Từ A-Z
Blog

Git Là Gì? Hướng Dẫn Sử Dụng Git Cho Người Mới Bắt Đầu Từ A-Z

by Nguyen Pham
30/10/2025
Load More
Next Post

Sửa lỗi RVM không hoạt động trong bash

Please login to join discussion

@2021 2k1.org [email protected]

No Result
View All Result
  • Home
  • Review
  • Applications
  • Computers
  • Gaming
  • Microsoft

© 2021 NData

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In